Statistiek 2
Week 1
Multivariate relations and recap linear regression
Beschrijvende statistieken vatten de gegevens van een steekproef samen en inferentiële
statistiek geven een voorspelling over de bevolking.
B wordt veroorzaakt door A als er een verband is tussen die 2, als B plaats vindt na A en als
alle alternatieve verklaringen worden uitgesloten. Die alternatieve verklaringen kun je
uitsluiten door experimentele controle in je onderzoeksontwerp. Je kan dit doen door een
randomized controlled trial, je kan de volgordelijkheid manipuleren en zo kijken hoe het
effect verandert, je kan gebruik maken van randomisatie, dan wijs je mensen willekeurig toe
aan een groep, zodat bijvoorbeeld geslacht een leeftijd geen invloed heeft, daarnaast kan je
ook de kenmerken in een steekproef gelijk maken. Ook kan je gebruik maken van statistische
controle waarbij je je gegevens gaat analyseren. Je hebt daarbij 2 opties. Je kan onderzoek
doen naar subgroepen en kijken of deze groepen vergelijkbaar zijn. De 2e optie is om
alternatieve verklaringen in je onderzoek op te nemen.
Je moet je relevante alternatieve verklaringen herkennen, door de theorie. En daarnaast moet
je je statistiek hierop aanpassen, zodat je lurking variabelen vermijdt. Je hebt dan een verband
met een centrale voorspeller samen met een moderator of constante variabele (controle
variabele).
Bij een spurieus verband is er sprake dat beide variabelen in je relatie ook nog samenhangen
met een 3e variabele. Als je controleert voor deze 3e variabele kan het eerdere verband zelfs
helemaal verdwijnen.
,Afb.: er leek een verband te zijn tussen nachtlampjes en nachtblindheid. Maar toen er werd
gecontroleerd voor de variabele ‘nachtblindheid ouders’ bleek dat deze variabele invloed had
op of kinderen met een nachtlampje sliepen (ouders kunnen dan beter zien in de slaapkamer)
en of de kinderen zelf nachtblind waren (erfelijkheid). Hierdoor verdwijnt het eerdere
verband.
Bij suppressie is er eerst geen verband tussen x en y tot je controleert voor een 3e variabele.
,Afb.: er was eerst geen verband tussen de interventie en de woordenschat, maar toen er
gecontroleerd werd voor de pre-test was er wel een verband.
Bij de Simpson’s paradox draait het verband tussen x en y om bij de controle van een 3e
variabele.
Bij een kettingrelatie heeft x indirect invloed op y via een mediator (x2).
Afb.: educatie heeft een verband met de levensverwachting. Maar tussen deze relatie zit ook
nog de variabele inkomen. Mensen met een hoge educatie, hebben een hoger inkomen en
daarmee een langere levensverwachting.
, Bij een statistische interactie is de relatie tussen x1 en y verschillend voor verschillende
niveaus van x2. Het kan zijn dat er geen relatie is tussen x en y, maar wel in subpopulaties.
Het kan zijn dat er eerst een positieve relatie was tussen x en y, maar dat deze minder sterk is
binnen subpopulaties. Daarnaast kan er eerst een negatieve relatie zijn tussen x en y, maar dat
dit verband anders is in een subpopulatie.
Als je het hebt over meerdere oorzaken dan verklaren verschillende variabelen samen
verschillen in y. x1 en x2 kunnen dan onafhankelijk verschillen verklaren in y of x2 kan extra
verschillen veroorzaken in y. Als oorzaken met elkaar gecorreleerd zijn dan noem je dit
confounding. Er is dan een verandering in het verband tussen x en y bij een extra x. Dit zie je
terug bij spurieuse verbanden, suppressie en simpson’s paradox. Het kan ook ongecorreleerd
zijn, waardoor het verband tussen x en y niet veranderd (multiple causes). Alsnog kan er dan
sprake zijn van interactie.
Week 1
Multivariate relations and recap linear regression
Beschrijvende statistieken vatten de gegevens van een steekproef samen en inferentiële
statistiek geven een voorspelling over de bevolking.
B wordt veroorzaakt door A als er een verband is tussen die 2, als B plaats vindt na A en als
alle alternatieve verklaringen worden uitgesloten. Die alternatieve verklaringen kun je
uitsluiten door experimentele controle in je onderzoeksontwerp. Je kan dit doen door een
randomized controlled trial, je kan de volgordelijkheid manipuleren en zo kijken hoe het
effect verandert, je kan gebruik maken van randomisatie, dan wijs je mensen willekeurig toe
aan een groep, zodat bijvoorbeeld geslacht een leeftijd geen invloed heeft, daarnaast kan je
ook de kenmerken in een steekproef gelijk maken. Ook kan je gebruik maken van statistische
controle waarbij je je gegevens gaat analyseren. Je hebt daarbij 2 opties. Je kan onderzoek
doen naar subgroepen en kijken of deze groepen vergelijkbaar zijn. De 2e optie is om
alternatieve verklaringen in je onderzoek op te nemen.
Je moet je relevante alternatieve verklaringen herkennen, door de theorie. En daarnaast moet
je je statistiek hierop aanpassen, zodat je lurking variabelen vermijdt. Je hebt dan een verband
met een centrale voorspeller samen met een moderator of constante variabele (controle
variabele).
Bij een spurieus verband is er sprake dat beide variabelen in je relatie ook nog samenhangen
met een 3e variabele. Als je controleert voor deze 3e variabele kan het eerdere verband zelfs
helemaal verdwijnen.
,Afb.: er leek een verband te zijn tussen nachtlampjes en nachtblindheid. Maar toen er werd
gecontroleerd voor de variabele ‘nachtblindheid ouders’ bleek dat deze variabele invloed had
op of kinderen met een nachtlampje sliepen (ouders kunnen dan beter zien in de slaapkamer)
en of de kinderen zelf nachtblind waren (erfelijkheid). Hierdoor verdwijnt het eerdere
verband.
Bij suppressie is er eerst geen verband tussen x en y tot je controleert voor een 3e variabele.
,Afb.: er was eerst geen verband tussen de interventie en de woordenschat, maar toen er
gecontroleerd werd voor de pre-test was er wel een verband.
Bij de Simpson’s paradox draait het verband tussen x en y om bij de controle van een 3e
variabele.
Bij een kettingrelatie heeft x indirect invloed op y via een mediator (x2).
Afb.: educatie heeft een verband met de levensverwachting. Maar tussen deze relatie zit ook
nog de variabele inkomen. Mensen met een hoge educatie, hebben een hoger inkomen en
daarmee een langere levensverwachting.
, Bij een statistische interactie is de relatie tussen x1 en y verschillend voor verschillende
niveaus van x2. Het kan zijn dat er geen relatie is tussen x en y, maar wel in subpopulaties.
Het kan zijn dat er eerst een positieve relatie was tussen x en y, maar dat deze minder sterk is
binnen subpopulaties. Daarnaast kan er eerst een negatieve relatie zijn tussen x en y, maar dat
dit verband anders is in een subpopulatie.
Als je het hebt over meerdere oorzaken dan verklaren verschillende variabelen samen
verschillen in y. x1 en x2 kunnen dan onafhankelijk verschillen verklaren in y of x2 kan extra
verschillen veroorzaken in y. Als oorzaken met elkaar gecorreleerd zijn dan noem je dit
confounding. Er is dan een verandering in het verband tussen x en y bij een extra x. Dit zie je
terug bij spurieuse verbanden, suppressie en simpson’s paradox. Het kan ook ongecorreleerd
zijn, waardoor het verband tussen x en y niet veranderd (multiple causes). Alsnog kan er dan
sprake zijn van interactie.