100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Summary

statistiek 1 hoorcolleges/ samenvatting

Rating
-
Sold
-
Pages
22
Uploaded on
10-03-2022
Written in
2021/2022

statistiek 1 alle relevante info voor het tentamen in 1 document

Institution
Module










Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Module

Document information

Uploaded on
March 10, 2022
Number of pages
22
Written in
2021/2022
Type
Summary

Subjects

Content preview

Lecture 1
Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numerieke
feiten, die gegevens of data worden genoemd.
Dus vaak numerieke feiten, óf kwalitatieve data die worden omgezet naar numerieke
indicatoren, beiden heten data. Het liefst natuurlijk in combinatie met theorie zodat je ook op basis
van theorie nadenkt wat is eigenlijk data die ik wil hebben.

Twee soorten wetenschap: 1. rationalisme (dat is logisch redeneren, zo kom je tot nieuwe kennis.
Hoef je geen data voor te verzamelen is gewoon puur op basis van logisch redeneren, syllogismen.
En je hebt empirisme: bij statistiek gaat het vooral om empirisme (2). zintuiglijk waarnemen. kijk om
je heen meet observeer en ga vervolgens die data met elkaar vergelijken om te leren. Vaak twee
kampen: tegenstanders van data en voorstanders.

Kansrekening gaat veelal uit van deductie, dwz. gegeven dat we alle details weten van een bepaalde
populatie, hoe waarschijnlijk is dan een bepaalde (steekproef-) uitkomst? (i.e. algemeen -> specifiek).
Vaas knikkers. algemeen -> specifiek, populatie -> steekproef, model -> data.
Statistiek gaat veelal uit van inductie, dwz. gegeven een bepaalde (steekproef-) uitkomst, wat
kunnen we dat met welke waarschijnlijkheid zeggen over de populatie? (specifiek -> algemeen).
specifiek -> algemeen, steekproef -> populatie, data -> model.
Overeenkomst 1: rekenen met toeval (randomness)
Overeenkomst 2: Statistische technieken worden gebruikt om hele populatie te beschrijven
(bijv. gemiddelde leeftijd van alle Olympische sporters).
Overeenkomst 3: Sommige statistische technieken maken eerst bepaalde aannames over de
populatie om vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is
dat de aannames opgaan.
Beslisregel in het trekken van conclusies aangaande een populatie op basis van een steekproef is
gebaseerd op weerleggen, oftewel falsificatie : Als het onwaarschijnlijk is dat hypothese opgaat, dan
verwerpen we dat het waar is.

Beschrijvende Statistiek: summarize sample or population data with numbers, tables, and graphs.
Dus: gebruikmaken van bepaalde statistieken om een bepaalde dataset samenvattend weer te
geven. Dat kan dus op basis van een steekproef zijn, maar het kan ook gewoon op basis van de
populatie zijn (dus iedereen vragen). Beschrijvende statistieken zijn: het gemiddelde, de mediaan
(mate van central tendency, centrum maten). de spreiding van: de standaard deviatie, interkwartiel
afstand, minimum, maximum range.

Inferentiële Statistiek: make predictions about population parameters, based on sample data. Op
basis van een steekproef uitspraken doen over gehele (doel-)populatie. Onzekerder, maar ook
interessanter. Dus je weet alle gegevens (sd, gemiddelde enz) van steekproef, en wilt iets zeggen
over populatie. Inductie dus, en daar krijg je te maken met onzekerheid.
Probleem: Verschil tussen gemeten steekproefgrootheid en populatiegrootheid: 1. Door natuurlijke
variatie (toeval) tussen steekproeven. Dit kun je berekenen. 2. Door problemen/fouten met/binnen
de steekproef. Dit is veel problematischer.
Doel: betrouwbare en valide uitspraken over populatie op basis van een steekproef.
Steekproefgrootheden dienen dan niet te verschillen van populatiegrootheden
Problemen: 1. Steekproeffout (sampling error). 2. Steekproefvertekening (sampling bias). 3. Meetfout
(response bias). 4. Selectieve respons (non-response bias).
Oplossing: Een aselecte (of andere probabilistische) steekproef van voldoende omvang die informatie
(data) oplevert over iedereen die benaderd is, met correcte responses voor alle subjecten op alle
items.

,Methodologie: Systematische wijze van hoe je (empirisch kan, hoeft niet) onderzoek zou moeten
uitvoeren. Dus bouwplan, zulk onderzoek moet je het doen (longitudinaal etc).
Statistiek: Het instrumentarium om empirisch onderzoek uit te kunnen voeren. Gereedschapskist.
Dus plan uitvoeren. Hoe berekenen etc.
Dus: Methodologie en Statistiek zijn wel degelijk verschillend, maar kunnen in goed empirisch
onderzoek niet zonder elkaar.

Betrouwbaarheid= precisie, consistentie, een kleine foutenmarge, en
een kleine standaardfout. Steeds hetzelfde moeten meten. Voor
betrouwbaarheid geldt vaak: hoe groter je steekproef, hoe minder
veel steekproefresultaten verschillen van steekproef tot steekproef,
hoe betrouwbaarder resultaten. Validiteit = representativiteit. in
hoeverre steekproef representatief is voor de populatie van
interesse. Dus willekeurig getrokken, niet biased sample. Is hetgeen je meet ook representatieve
weergave van je construct. Dus construct validiteit: meet ik wat ik wil meten (dus IQ meten met cito
niet), en let op je steekproef die je trekt, dat ie niet heel selectief is. afbeelding 2: gemiddeld
genomen geeft ie geen vertekend beeld, dus valide.

Lecture 2 Stel je wilt geen inferenties, dan hoef je helemaal niet te letten op hoe je steekproef
samenstelt. Maar als je niet geïnteresseerd bent in populatie, dan maakt je sampling niet uit.

In het beschrijven van data zijn 3 dimensies van belang:
- centrum (centre) “typische observatie” centrummaten
- variatie (variability) “spreiding van observaties” spreidingsmaten
- positie (position) “relatieve positie van observaties” positiematen
Gemiddelde bij uitschieters niet handig.

Beschrijvende statistiek – univariaat – categorische variabelen
Tabel: Frequentieverdeling (frequency distribution) of Grafiek: Staafdiagram (bar graph)
Centrummaat: modus (mode): meest voorkomende waarde.
Spreidingsmaat: variantie-ratio (variance ratio). Fm=aantal observaties in
modale (grootste klasse).
Beschrijvende statistiek – univariaat – kwantitatieve variabele
Tabel: frequentieverdeling of Grafiek: histogram
Tabel/grafiek: stamdiagram (stem-and-leaf plot). Geeft iets meer inzicht in hoe vaak iets voorkomt.

Interkwartiel-afstand: Q1 (eerste kwartiel)-Q3. Middelste 50%.
boxplot.

Welke figuur en maat kiezen? Van belang: 1. Meetschaal van de variabele 2. Scheefheid van
verdeling 3. Uitbijters (outliers) in data.

Beschrijvende statistiek bivariaat
Bivariate statistieken geven de mate van samenhang (association) tussen twee variabelen weer:
Maten: 2 categorische variabelen: relative risk (H7) en odds ratio (H8) of 2 kwantitatieve variabelen:
covariantie (H9), correlatie (H7) en regressie-coëfficiënt (H9)

Lecture 3
Populatieverdeling van lengte NL vrouw (in cm):
 Beschrijft variabele in populatie (parameters):
 Gemiddelde μ

,  Standaarddeviatie σ
 Omvang N (# waarnemingen in populatie)
Steekproefverdeling van lengte NL vrouw (in cm):
 Beschrijft variabele in steekproef (statistieken):
 Mean: y (moet goeie schatter van μ zijn)
 Standard deviation: s (moet goeie schatter van σ zijn)
 Size n (# waarnemingen in steekproef)
Steekproevenverdeling van gemiddelde lengte NL vrouw (in cm):
 Beschrijft statistiek over steekproeven:
 Mean: μy
 Standard deviation: σy
 Size ∞ (oneindig aantal steekproeven van n)
Stel populatieverdeling niet normaal verdeeld. Centrale limietstelling: maakt niet uit wat verdeling is
in de populatie, hoe scheef die ook is, als jouw steekproefomvang groot genoeg is, zal de
steekproevenverdeling ALTIJD normaal verdeeld zijn. Dus dan zal de steekproevenverdeling zelf wel
convergeren naar een normaal verdeelde variabele, met een gemiddelde wat een goeie schatter is
van het echte gemiddelde. Natuurlijk zal je steekproef wel lijken op dat van populatie MAAR je
steekproevenverdeling is normaal verdeeld.

De centrale limietstelling (central limit theorem) stelt dat voor een populatie met gemiddelde μ en
standaarddeviatie σ, wanneer daaruit voldoende grote willekeurige steekproeven worden getrokken
met terugleg, dat de steekproevenverdeling dan bij benadering normaal verdeeld zal zijn
(approximately normally distributed). Dus: Gemiddelde van steekproevenverdeling (mean of
sampling distribution): μ y = 𝝁.
EN: Standaarddeviatie van steekproevenverdeling (i.e., standaardfout of standard error).
σ
Standaardfout σ y=
√n
Ongeacht de vorm van de populatieverdeling geldt dat de steekproevenverdeling bij benadering
normaal verdeeld zal zijn. Deze normaliteit wordt gebruikt voor significantie-toetsing en het
opstellen van betrouwbaarheidsintervallen.
Een grote steekproefomvang wordt belangrijk naarmate populatieverdeling relatief scheef verdeeld
is (skewed). Belangrijk voor de validiteit van steekproef-data voor inferentiële statistiek.
De standaarddeviatie van de steekproevenverdeling (standaardfout, standard error), neemt
toe als variantie in y toeneemt en af als steekproefomvang toeneemt (zie formule standaardfout).
 Dus: verkleinen van variantie in steekproef en vergroten van steekproefomvang vergroot de
validiteit en betrouwbaarheid van steekproefdata voor inferentiële statistiek.

Kansverdelingen:
- Interpretatie van “lange-termijn relatieve frequentieverdeling”
- Verschil tussen discrete en continue variabelen
- Binomiale-, Student’s T-, Chi-kwadraat en (Standaard) Normale verdelingen

Discrete variabelen hebben een beperkte set aan mogelijke waarden: De kans voor elk van deze
aparte waarden kan berekend worden. E.g.: Q: “What do you think is the ideal number of children for
a family to have?”. Cumulatieve kans is altijd 1.

Continue variabelen hebben een oneindig aantal mogelijke waarden: in de praktijk gebeurt dat
natuurlijk niet, dat je mensen tot 10 cijfers achter de komma gaat meten. Maar als je voldoende
waardes hebt die een variabele aan kan nemen dan spreken we al gauw van een continue variabele
en dus een continue verdeling.De kans voor intervallen van waarden kan berekend worden. E.g. Q:
“What is your average commuting time to work?”. Dus bij continue variabele kun je eig niet

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
Sarahgb Vrije Universiteit Amsterdam
Follow You need to be logged in order to follow users or courses
Sold
38
Member since
5 year
Number of followers
36
Documents
12
Last sold
9 months ago

3.9

7 reviews

5
2
4
4
3
0
2
0
1
1

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their exams and reviewed by others who've used these revision notes.

Didn't get what you expected? Choose another document

No problem! You can straightaway pick a different document that better suits what you're after.

Pay as you like, start learning straight away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and smashed it. It really can be that simple.”

Alisha Student

Frequently asked questions