Statistiek 2 samenvatting
*Interpretaties hoef je niet uit je hoofd te leren, bijvoorbeeld: 0 < verwaarloosbaar ≤ .10
klein < .30 ≤ matig <.50 ≤ groot
Hoorcollege 1: Introductie
Beschrijvende statistiek: samenvatting steekproef of data met nummers en tabellen
Inferentiele statistiek: maken voorspellingen over populaties d.m.v steekproeven
Multivariate relaties
Zodat je vertekende resultaten door lurking (sluimerende) variabelen kunt vermijden:
variabelen die niet zijn meegenomen in een studie, maar wel de onderzochte relatie
verklaren of beïnvloeden
Spurieus verband tussen x en y: schijnverband tussen twee variabelen, waarbij er een
statistisch verband lijkt te zijn, maar er geen direct oorzakelijk verband is. Dit komt
doordat beide variabelen worden beïnvloed door een derde variabele
- Het verband tussen lengte (x) en rekenvaardigheden (y) wordt volledig verklaard
door schooljaar
- Geschatte verband tussen variabelen kan dus drastisch veranderen, afhankelijk
van de gekozen data-analyse
- Geen causaal verband: de ene variabele veroorzaakt de andere niet
Soms vind je (bijna) geen verband tussen x en y, totdat je controleert voor een derde
variabele: supressie (onderdrukking)
, ➔ Het verband tussen x en y wordt onderdrukt, doordat kinderen in de
interventiegroep voorafgaand aan de interventie al een lagere leesvaardigheid
hadden.
➔ Soms is het verband tussen x en y zelfs omgekeerd, nadat we controleren voor
een derde variabele: Simpson’s paradox
We kunnen alleen beargumenteren dat B veroorzaakt wordt door A als:
- Er een verband is tussen A en B: associatie
- B moet plaatsvinden na A: volgordelijkheid
- Het verband tussen A en B niet wordt verklaard door andere factoren:
alternatieve verklaringen uitsluiten
o Door statistisch te controleren: neem alternatieve verklaringen op in je
statistische model
Een andere reden waardoor het verband tussen x1 en y soms verdwijnt na controleren
voor x2 is een kettingrelatie (mediatie). Direct en indirect
- x1 heeft een indirect effect op y, via mediator x2
o x1 veroorzaakt x2
o x2 veroorzaakt y
Het verband tussen onderwijs (x1) en levensverwachting (y)
verdwijnt of verzwakt als inkomen (x2) wordt meegenomen
als mediator
Daarnaast is er soms sprake van een interactie-effect tussen voorspellers
- De relatie tussen x1 en y is verschillend voor verschillende niveaus van x 2 (de
moderator)
Drie scenario’s van een interactie-effect
- Geen relatie tussen x en y
o Bijvoorbeeld wel binnen subpopulaties op basis van x2
o Bijvoorbeeld omdat positief/negatief effecten in subpopulaties elkaar
opheffen
▪ Bijvoorbeeld: In het algemeen lijkt er geen verband tussen sporten
(X1) en mentale gezondheid (Y), maar als je kijkt naar verschillende
leeftijdsgroepen (X2), blijkt sporten bij ouderen wél een positief
effect te hebben.
- Positieve relatie tussen x en y
o Bijvoorbeeld minder sterk of zelfs negatief/niet-bestaand binnen
subpopulaties op basis van x2
- Negatieve relatie tussen x en y
o Bijvoorbeeld minder sterk of zelfs positief/niet-
bestaand binnen sommige subpopulaties van x2
Ook hier: vind je (g)een verband tussen x en y? Dit kun je niet per se
vertalen naar alle subpopulaties
Meestal hebben verschillen in een uitkomstvariabelen echter meerdere oorzaken:
- Verschillende variabelen verklaren samen verschillen in y
Deze oorzaken zijn meestal gecorreleerd:
, - We noemen dit ook wel confounding (verwarring)
- Het verband tussen x en y verandert (deels) wanneer een extra x wordt
opgenomen in het model
o Bijvoorbeeld in het geval van spurieuze verbanden, suppressie en
Simpson’s paradox
En soms ongecorreleerd:
- Het verband tussen x en y verandert niet/nauwelijks wanneer een extra x wordt
opgenomen in het model
- Desondanks kan er sprake zijn van statistische interactie
Vaak is het nuttig om extra variabelen op te nemen in een statistisch model, zodat de
relatie tussen je primaire voorspeller en uitkomstmaat betekenisvol geïnterpreteerd kan
worden.
, Hoorcollege 2: Onderzoeken van het verband tussen twee kwantitatieve variabelen
Hypothese toetsen, het proces
1. Onderzoeksvraag/hypothese formuleren:
a. Ongericht: x hangt samen met y
b. Gericht:
i. Positief verband: hogere x voorspelt hogere y (vice versa) of lagere
x voorspelt lagere y
ii. Negatief verband: hogere x voorspelt lagere y (vice versa) of lagere
x voorspelt hogere y
2. Onderzoekskenmerken en variabelen inspecteren: Hangt klasomvang samen met
schoolprestaties
a. Cross-sectionele studie: onder willekeurig geselecteerde scholen in
Nederland
b. Class size: gemeten als de gemiddelde klasgrotte van een school
i. Voorspeller
ii. Kwantitatief
c. Academic performance: de school’s gemiddelde score op een
gestandaardiseerde test
i. Criterium/uitkomst
ii. Kwantitatief
3. Beschrijvende statistiek:
Univerate statistieken beschrijven 1 variabele
- Vorm: klok-vormig (scheef/uniform/bimodaal) – hoe ziet de data eruit?
o Hoe kleiner je steekproef, hoe minder normaal verdeeld
Als het een klokvorm is:
- Locatie: gemiddelde (of mediaan/modus)
- Schaal: SD – typische afwijking van het gemiddelde
Bivariaat bekijken
Spreidingsdiagrammen visualiseren het verband tussen een response (y) en een
voorspellende variabele (x):
- Elke stip is een observatie
- Inspecteer: is een lineair model (ydakje = a + bx) geschikt om een verband te
beschrijven?
o Heeft het zin om een rechte lijn te trekken? --> kleinste
kwadratenmethode om het lineaire model te schatten: best passende
rechte lijn die het dichtst bij alle datapunten ligt.
*Interpretaties hoef je niet uit je hoofd te leren, bijvoorbeeld: 0 < verwaarloosbaar ≤ .10
klein < .30 ≤ matig <.50 ≤ groot
Hoorcollege 1: Introductie
Beschrijvende statistiek: samenvatting steekproef of data met nummers en tabellen
Inferentiele statistiek: maken voorspellingen over populaties d.m.v steekproeven
Multivariate relaties
Zodat je vertekende resultaten door lurking (sluimerende) variabelen kunt vermijden:
variabelen die niet zijn meegenomen in een studie, maar wel de onderzochte relatie
verklaren of beïnvloeden
Spurieus verband tussen x en y: schijnverband tussen twee variabelen, waarbij er een
statistisch verband lijkt te zijn, maar er geen direct oorzakelijk verband is. Dit komt
doordat beide variabelen worden beïnvloed door een derde variabele
- Het verband tussen lengte (x) en rekenvaardigheden (y) wordt volledig verklaard
door schooljaar
- Geschatte verband tussen variabelen kan dus drastisch veranderen, afhankelijk
van de gekozen data-analyse
- Geen causaal verband: de ene variabele veroorzaakt de andere niet
Soms vind je (bijna) geen verband tussen x en y, totdat je controleert voor een derde
variabele: supressie (onderdrukking)
, ➔ Het verband tussen x en y wordt onderdrukt, doordat kinderen in de
interventiegroep voorafgaand aan de interventie al een lagere leesvaardigheid
hadden.
➔ Soms is het verband tussen x en y zelfs omgekeerd, nadat we controleren voor
een derde variabele: Simpson’s paradox
We kunnen alleen beargumenteren dat B veroorzaakt wordt door A als:
- Er een verband is tussen A en B: associatie
- B moet plaatsvinden na A: volgordelijkheid
- Het verband tussen A en B niet wordt verklaard door andere factoren:
alternatieve verklaringen uitsluiten
o Door statistisch te controleren: neem alternatieve verklaringen op in je
statistische model
Een andere reden waardoor het verband tussen x1 en y soms verdwijnt na controleren
voor x2 is een kettingrelatie (mediatie). Direct en indirect
- x1 heeft een indirect effect op y, via mediator x2
o x1 veroorzaakt x2
o x2 veroorzaakt y
Het verband tussen onderwijs (x1) en levensverwachting (y)
verdwijnt of verzwakt als inkomen (x2) wordt meegenomen
als mediator
Daarnaast is er soms sprake van een interactie-effect tussen voorspellers
- De relatie tussen x1 en y is verschillend voor verschillende niveaus van x 2 (de
moderator)
Drie scenario’s van een interactie-effect
- Geen relatie tussen x en y
o Bijvoorbeeld wel binnen subpopulaties op basis van x2
o Bijvoorbeeld omdat positief/negatief effecten in subpopulaties elkaar
opheffen
▪ Bijvoorbeeld: In het algemeen lijkt er geen verband tussen sporten
(X1) en mentale gezondheid (Y), maar als je kijkt naar verschillende
leeftijdsgroepen (X2), blijkt sporten bij ouderen wél een positief
effect te hebben.
- Positieve relatie tussen x en y
o Bijvoorbeeld minder sterk of zelfs negatief/niet-bestaand binnen
subpopulaties op basis van x2
- Negatieve relatie tussen x en y
o Bijvoorbeeld minder sterk of zelfs positief/niet-
bestaand binnen sommige subpopulaties van x2
Ook hier: vind je (g)een verband tussen x en y? Dit kun je niet per se
vertalen naar alle subpopulaties
Meestal hebben verschillen in een uitkomstvariabelen echter meerdere oorzaken:
- Verschillende variabelen verklaren samen verschillen in y
Deze oorzaken zijn meestal gecorreleerd:
, - We noemen dit ook wel confounding (verwarring)
- Het verband tussen x en y verandert (deels) wanneer een extra x wordt
opgenomen in het model
o Bijvoorbeeld in het geval van spurieuze verbanden, suppressie en
Simpson’s paradox
En soms ongecorreleerd:
- Het verband tussen x en y verandert niet/nauwelijks wanneer een extra x wordt
opgenomen in het model
- Desondanks kan er sprake zijn van statistische interactie
Vaak is het nuttig om extra variabelen op te nemen in een statistisch model, zodat de
relatie tussen je primaire voorspeller en uitkomstmaat betekenisvol geïnterpreteerd kan
worden.
, Hoorcollege 2: Onderzoeken van het verband tussen twee kwantitatieve variabelen
Hypothese toetsen, het proces
1. Onderzoeksvraag/hypothese formuleren:
a. Ongericht: x hangt samen met y
b. Gericht:
i. Positief verband: hogere x voorspelt hogere y (vice versa) of lagere
x voorspelt lagere y
ii. Negatief verband: hogere x voorspelt lagere y (vice versa) of lagere
x voorspelt hogere y
2. Onderzoekskenmerken en variabelen inspecteren: Hangt klasomvang samen met
schoolprestaties
a. Cross-sectionele studie: onder willekeurig geselecteerde scholen in
Nederland
b. Class size: gemeten als de gemiddelde klasgrotte van een school
i. Voorspeller
ii. Kwantitatief
c. Academic performance: de school’s gemiddelde score op een
gestandaardiseerde test
i. Criterium/uitkomst
ii. Kwantitatief
3. Beschrijvende statistiek:
Univerate statistieken beschrijven 1 variabele
- Vorm: klok-vormig (scheef/uniform/bimodaal) – hoe ziet de data eruit?
o Hoe kleiner je steekproef, hoe minder normaal verdeeld
Als het een klokvorm is:
- Locatie: gemiddelde (of mediaan/modus)
- Schaal: SD – typische afwijking van het gemiddelde
Bivariaat bekijken
Spreidingsdiagrammen visualiseren het verband tussen een response (y) en een
voorspellende variabele (x):
- Elke stip is een observatie
- Inspecteer: is een lineair model (ydakje = a + bx) geschikt om een verband te
beschrijven?
o Heeft het zin om een rechte lijn te trekken? --> kleinste
kwadratenmethode om het lineaire model te schatten: best passende
rechte lijn die het dichtst bij alle datapunten ligt.