Statistiek 3 samenvatting
Week 1: multivariate relaties
Correlatie: gestandaardiseerde samenhang
Hoe sterk is het verband (hoe ver ligt de correlatie van 0 af) en in welke richting loopt het
verband (is het positief of negatief)
Geen oorzakelijk verband, zegt alleen dat er een samenhang is van de ene variabele naar de
andere variabele & omgekeerd (x correleert met y en andersom)
Multipele correlatie: de samenhang tussen y en de verzameling van verklarende variabelen (x1,x2,
etc.). De multipele correlatie voor een regressie model is de correlatie tussen de geobserveerde y-
waarden en de verwachte ў – waarden. De multipele correlatie in het kwadraat is 𝑅2 en deze geeft
wederom de proportie afname in voorspelfouten, ofwel, de proportie verklaarde variantie
Regressie: samenhang van x naar y (met richting). Ook hier kwestie van sterkte van het verband, de
richting en nog steeds geen oorzakelijk verband.
Causaliteit:
1. Moet verband zijn (relatie, associatie, samenhang) van bijvoorbeeld x naar y
2. Moet volgorde in tijd zijn (oorzaak x voor het gevolg y)
3. Alternatieve verklaringen moeten uitgesloten zijn
Additionele variabelen (bijvb. z) = spurious relations
In observationeel onderzoek is causaliteit niet aan te tonen; je hebt altijd te maken met derde
variabelen. In experimenteel onderzoek kan dit wel.
Je moet deze derde variabelen kunnen controleren en verwijderen (constant houden =
statistische controle).
Simpsons paradox (voor continue variabelen in regressie): houdt geen rekening met groepen met als
gevolg dat er een positief verband kan ontstaan voor twee afzonderlijke groepen maar een negatief
verband als die twee groepen worden gecombineerd; relatie tussen twee variabelen ‘draait om’ als
gecontroleerd door een derde variabele.
Spurious associations: relatie tussen twee variabelen is gebaseerd op hun relatie met een derde
variabele. Met controle op de derde variabele verdwijnt de relatie.
Mediatie (chain relationship): relatie tussen x1 en y wordt indirect veroorzaakt door x2. Met x2 in het
onderzoek kan de relatie compleet verdwijnen (volledige mediatie) of deels (partiële mediatie). De
derde variabele is een mediator (intervening variabele) = x1 > x2 > y.
Spurious relation: relatie tussen x1 en y wordt volledig veroorzaak door de derde variabele = x2 > x1
en x2 > y. Het verschil zit op conceptueel vlak, niet statistisch; veroorzaking wordt vermoed want is
statistisch haast niet te bewijzen.
Suppresie: tegenovergestelde van mediatie; de relatie tussen twee variabelen verdwijnt niet, hij
wordt juist sterker omdat er een derde variabele in het model wordt toegevoegd = x1 > y & x2 > y
Moderatie (interactie): de relatie tussen twee variabelen varieert met het niveau (hoogte) van een
derde variabelen (de moderator). Dit is een interactie-effect: het effect van x1 op y veranderd als de
waarde van x2 veranderd. Je kan dit controleren door het interactie-effect op te nemen in het model
= x2 heeft direct effect op x1 > y.
Multipele regressie: voorspel de waarde van 𝑦 uit meerdere 𝑥-en
1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)
Week 1: multivariate relaties
Correlatie: gestandaardiseerde samenhang
Hoe sterk is het verband (hoe ver ligt de correlatie van 0 af) en in welke richting loopt het
verband (is het positief of negatief)
Geen oorzakelijk verband, zegt alleen dat er een samenhang is van de ene variabele naar de
andere variabele & omgekeerd (x correleert met y en andersom)
Multipele correlatie: de samenhang tussen y en de verzameling van verklarende variabelen (x1,x2,
etc.). De multipele correlatie voor een regressie model is de correlatie tussen de geobserveerde y-
waarden en de verwachte ў – waarden. De multipele correlatie in het kwadraat is 𝑅2 en deze geeft
wederom de proportie afname in voorspelfouten, ofwel, de proportie verklaarde variantie
Regressie: samenhang van x naar y (met richting). Ook hier kwestie van sterkte van het verband, de
richting en nog steeds geen oorzakelijk verband.
Causaliteit:
1. Moet verband zijn (relatie, associatie, samenhang) van bijvoorbeeld x naar y
2. Moet volgorde in tijd zijn (oorzaak x voor het gevolg y)
3. Alternatieve verklaringen moeten uitgesloten zijn
Additionele variabelen (bijvb. z) = spurious relations
In observationeel onderzoek is causaliteit niet aan te tonen; je hebt altijd te maken met derde
variabelen. In experimenteel onderzoek kan dit wel.
Je moet deze derde variabelen kunnen controleren en verwijderen (constant houden =
statistische controle).
Simpsons paradox (voor continue variabelen in regressie): houdt geen rekening met groepen met als
gevolg dat er een positief verband kan ontstaan voor twee afzonderlijke groepen maar een negatief
verband als die twee groepen worden gecombineerd; relatie tussen twee variabelen ‘draait om’ als
gecontroleerd door een derde variabele.
Spurious associations: relatie tussen twee variabelen is gebaseerd op hun relatie met een derde
variabele. Met controle op de derde variabele verdwijnt de relatie.
Mediatie (chain relationship): relatie tussen x1 en y wordt indirect veroorzaakt door x2. Met x2 in het
onderzoek kan de relatie compleet verdwijnen (volledige mediatie) of deels (partiële mediatie). De
derde variabele is een mediator (intervening variabele) = x1 > x2 > y.
Spurious relation: relatie tussen x1 en y wordt volledig veroorzaak door de derde variabele = x2 > x1
en x2 > y. Het verschil zit op conceptueel vlak, niet statistisch; veroorzaking wordt vermoed want is
statistisch haast niet te bewijzen.
Suppresie: tegenovergestelde van mediatie; de relatie tussen twee variabelen verdwijnt niet, hij
wordt juist sterker omdat er een derde variabele in het model wordt toegevoegd = x1 > y & x2 > y
Moderatie (interactie): de relatie tussen twee variabelen varieert met het niveau (hoogte) van een
derde variabelen (de moderator). Dit is een interactie-effect: het effect van x1 op y veranderd als de
waarde van x2 veranderd. Je kan dit controleren door het interactie-effect op te nemen in het model
= x2 heeft direct effect op x1 > y.
Multipele regressie: voorspel de waarde van 𝑦 uit meerdere 𝑥-en
1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)