Hoorcollege 1.1
Statistiek 1 ging over een variabele of twee variabelen, maar in deze cursus komen daar extra variabelen of
voorspellers bij.
Een correlatie is niet per definitie een causatie. Dit komt doordat er lurkende variabelen zijn.
een spurieus verband of een schijnverband
1. Er is een verband tussen je variabelen, maar dit verband is te verklaren door andere variabelen die
zowel A als B veroorzaken. Dat wil zeggen: A veroorzaakt B niet.
Voorbeeld: hoe langer je studeert, hoe ouder je wordt. Als je studeert, heb je kans op een betere baan en een
beter leven, dus wordt je verwachting langer.
Dit soort vragen gaan over causaliteit
- Wat is het effect van een interventie (X) op (Y)
- Is gamen of pesten (X) schadelijk voor Y
- Zorgen kleinere klassen (X) voor betere leerprestaties (Y)
Hoe kan je causaliteit vaststellen?
- Er is een correlatie of verband tussen X en Y
- A moet eerst plaatsvinden, dan pas B
- Alternatieve verklaringen moeten worden uitgesloten. Dus het verband mag niet worden verklaard
door een andere variabele.
Voorbeeld spurieus verband: het aantal verkochte ijsjes
Als in de zomer de ijsjes verkoop stijgt, zien we ook dat verdrinking stijgt. Dat komt niet doordat ijsjes
verdrinking veroorzaken, maar dit komt door het seizoen! In de winter verdrinken minder mensen. Dus de
derde variabele is hier temperaruur.
Hoe controleren we voor andere variabelen?
- Neem het effect weg door te ‘’controleren’’
1. Experimentele controle in je design, manipuleren, aselect toevoegen aan een controle en
experimentgroep.
2. Statistische controle: wat we gaan leren! We voegen dus de derde variabelen toe om te kijken wat dit
doet.
Je experimentele controle is vaak niet haalbaar, daarom gaan we statistisch controleren.
Spurieus verband tussen x en y
Als variabele X en Y samenhangen met een derde variabele. Hierdoor verdwijnt de relatie tussen X en Y,
wanneer we dit verband meenemen. Kijk maar naar ijs en verdrinking, als we controleren voor temperatuur
verandert dit verband. Dan valt het verband namelijk wel mee.
Of; langere kinderen zijn beter in rekenen. Pas als we voor een andere variabele controleren, zoals bijvoorbeeld
schooljaar, is dat logisch. Het verband tussen lengte en wiskunde verdwijnt dan, omdat je kijkt naar je
schooljaren. Dat verklaart het verband tussen lengte en wiskunde. Dit zijn dus je confounding variabele
bijvoorbeeld. We zien een verband, dat verdwijnt als je controleert.
Suppressie
Als we geen verband hebben tussen X en Y, totdat we controleren voor een derde variabele, zien we ineens wel
een verband. Het verband wordt onderdrukt, tot je controleert voor derde variabele.
Simpsons’s paradox
We hebben een negatief verband, maar dit verandert als we controleren voor een derde variabele, dan kan
deze positief zijn. Je b’tje wordt positief of andersom
1
,Kettingrelatie/mediatie
Er is een positief verband tussen onderwijs en levensverwachting. Dat is gek, dus als we langer naar school
zouden gaan, zouden we langer leven? Wat hier ten grondslag ligt is inkomen of SES.
A verklaart B en B verklaart weer C.
Dus een andere reden waardoor het verband tussen x1 en y soms verdwijnt na controle voor x2 is een
kettingrelatie/mediatie. X1 heeft een indirect effect op y, maar via mediator X2. X1 veroorzaakt X2 en X2
veroorzaakt weer Y.
Dit is vaak in interventies!
Statistische interactie/moderatie
Soms is er sprake van een interactie effect tussen voorspellers. Je hebt dan een moderator. Die heeft een effect
op de relatie tussen X1 en Y. Het verband hangt af van het niveau van de moderator: kinderen die hoog, laag of
gemiddeld scoren bijvoorbeeld.
- Geen relatie tussen x en y ) maar wel binnen een subpopulatie op basis van X2. Bijvoorbeeld omdat
positief/negatief effecten in subpopulaties elkaar opheffen.
- Positieve relatie tussen x en y ) maar bijvoorbeeld minder sterk of zelfs negatief/niet-bestaand binnen
subpopulaties op basis van X2
- Negatieve relatie tussen x en y ) maar bijvoorbeeld minder sterk of zelfs positief/niet-bestaand binnen
sommige subpopulaties van X2.
Je kan wel of geen verband vinden, maar dat wil niet zeggen dat dit ook zo werkt voor je populatie.
Waarom zijn er zoveel verbanden?
Dit heeft te maken met het feit dat dit samenhangt met verschillende oorzaken.
- Verschillende variabelen verklaren samen verschillen in y (uitkomst)
Vaak zijn deze verklarende variabelen/voorspeller gecorreleerd:
Confounding: het verband tussen X en Y verandert (deels) wanneer er een extra X (voorspeller) wordt
opgenomen in dit model. Dit is zo bij: spurieuze verbanden, suppressie, simpson’s paradox
Soms zijn ze ook ongecorreleerd:
Het verband tussen X en Y verandert niet/ nauwelijks als er een extra X wordt opgenomen in het model.
Maar, dan kan er alsnog wel interactie zijn!
SAMENGEVAT
We voegen vaak extra variabelen op in ons model, omdat onderzoek wat meer complex is dan zoals we het
hebben geleerd bij statistiek 1. Je voegt meerdere voorspellers toe. Dit doen we omdat we de relatie tussen de
voorspellers (X2) en je Y goed wil interpreteren, zodat je eventuele causaliteit kan stellen.
Waarom doen we dit? We willen rekening houden met confounding:
- Zoals spurieuze verbanden, suppressie en simpson’s paradox
- Interactie effecten: verschilt het verband tussen X en Y tussen niveaus of subgroepen van X2?
- Meerdere oorzaken: verklaren twee variabelen samen een uitkomst of verklaart een derde variabele
iets extra’s, naast de verschillen die door x1 worden verklaard?
- Mediatie: directe en indirecte effecten (hoeven wij niet te kennen)
Samenvatting boek:
10.3 Controleren andere variabelen
We proberen het effect van een derde variabele te ‘’neutraliseren’’ om te zien of het verband tussen x en y wel
blijft bestaan. Als je een andere variabele meeneemt, kan het zo zijn dat dit het verband wijzigt bijvoorbeeld:
statistisch controleren.
Interactie:
Het effect van x1 op y verandert afhankelijk van het niveau van x2 Dit betekent dat er interactie is tussen x1
en x2.
2
,Voorbeeld: Onderwijs verhoogt inkomen sterker bij mannen dan bij vrouwen → interactie tussen geslacht en
onderwijs
Hoorcollege 1.2
Dit betreft de lineaire regressie zoals we deze kennen. Middels een scatterplot willen we het verband tussen
twee variabelen weten. In dit geval: AP als uitkomst, CS als voorspeller. Voorspelt class size de prestaties (AP)?
LINEAIRE REGRESSIEVERGELIJKING
Formule: ŷ = a + bx.
Ŷ = voorspelde uitkomst
A = y-intercept ) voorspelde waarde als X = 0
b = helling ) voorspelde verandering in Y als X met 1 punt toeneemt.
Als we de datapunten in een scatterplot zetten en we kunnen een lineaire lijn trekken, dan weet je of je dit kan
gebruiken. Zie even dit plaatje: dit kwam terug in het tentamen. De rode vlakken zijn negatieve punten, de
groene vlakken zijn positieve punten!
Positief verband = een hogere X voorspelt een hogere Y en andersom
Negatief verband = een hogere X voorspelt een lagere Y en andersom
Een hypothese heeft een bepaalde richting nodig: positief of negatief.
Ongericht: klasgrootte hangt samen met schoolprestaties. Je weet hier niet welke richting.
Gericht: dit kan positief of negatief zijn.
Onze formule in deze dataset wordt:
ŷ = a + bx.
AP = 6.072 + 0.068 * CS
6.072 = voorspelde prestatie binnen scholen als de CS 0 is
0.068 = met elke student 1 toename, zal de prestatie met 0.068 toenemen.
We willen weten of de regressie coëfficiënt sterk is of niet sterk is, maar dit kan enkel middels de gestandaarde
helling of de pearson. Het (b) hangt namelijk af van de schaal waarop alles (x en y) zijn gemeten: we willen
daarom een effectmaat
PEARSON CORRELATIE / R
Voorbeeld: SD van CS = 3,27 3..67 X (0.068) = 0.33
SD van AP = 0.67
Belangrijk om te kennen bij r:
- R is altijd tussen -1 en de 1
- R heeft hetzelfde tekentje als ‘b’: r is kleiner dan 0 als b ook kleiner is dan 0, b is 0 als r is 0 en dit is ook
zo bij negatief
- Er zijn geen residuen als r -1 of +1 is: perfecte voorspeller
3
, Vaak zijn de voorspellingen in zo’n plot niet perfect. De observaties wijken af van onze voorspelling.
Als de formule weer dit is: AP = 6.072 + 0.068 * CS = dan komt daar uit 7.296 bij een CS van 18. Maar wij
voorspellen 7, dus wij zien hier al: 7 – 7.296 = 0.296 is dan je residue
Je normale y is gewoon je voorspelling, je ŷ is je waarde
Functie residue: hoe goed kan het model onze y voorspellen?
Betekenis alle y
We hebben binnen onze cursus te maken met drie y’tjes die allen wel een andere betekenis hebben.
Y = de geobserveerde waarde van een observatie
Ȳ = gemiddelde uitkomst op je y
Ŷ = voorspelde waarde gebaseerd op je model en regressievergelijking
In een plot zou dit er zo uit kunnen zien:
Variatie in het regressiemodel
VOOR IEDER MODEL IN DEZE CURSUS KUNNEN WE VARIATIE ONDERSCHEIDEN
1. Totale variatie
total sums of squares = tss (marginale variatie)
2. Variatie in y die niet wordt verklaard door het model =
sums of squared erros = sse (conditionele variatie)
3. Variatie in y die wordt verklaard door het model
regression sum of squares = rss
De blauwe lange lijn = TSS
De groene korte lijn = RSS
De rode lijn = SSE
Let op: SSE en RSS = TSS
Verklaarde variatie in regressiemodel
Hiervoor gebruiken we simpelweg de proportie verklaarde variantie: R2. Dit komt voor bij de wat meer
complexere modellen die we later gaan zien.
4