SV week 5 + 6
10: Enkelvoudige lineaire regressie
10.1: Hypothesetoetsing met de b-coëfficiënt
Met ons regressiemodel willen we uitspraken doen over een bredere populatie. We kunnen een
steekproevenverdeling gebruiken om hypothesen te toetsen over de regressiecoëfficiënt, op
dezelfde manier als de hypothesetoetsen die we eerder in dit vak hebben besproken: hoe
waarschijnlijk is het om deze b-coëfficiënt te vinden als de nulhypothese waar zou zijn?
De eerste clip legt de regressievergelijking bij een enkelvoudige regressiemodel uit.
De tweede clip legt uit hoe je een hypothesetoets kunt uitvoeren en conclusie kunt trekken op basis
van de t-waarde en P-waarde. Je kunt ook een betrouwbaarheidsinterval voor de
regressiecoëfficiënt berekenen, wat ook een goede manier is om inferenties te maken met gegevens
uit een steekproef.
NB: In het tweede filmpje laten we zien hoe SPSS een p-waarde geeft die bij (de t-waarde van) een
regressiecoëfficiënt hoort. Let op dat SPSS altijd de p-waarde van een tweezijdige test geeft.
1. Het enkelvoudige regressiemodel
Overzicht van onderwerpen bij regressie (H12 + H13)
• Doel: Y voorspellen op basis van X-en (met formule)
– Causaliteit (X → Y) wordt verondersteld, niet bewezen!
• Prediction error en predictive power: hoe goed is onze voorspelling?
– Voorspellingsfout: Residuals
– Verklaarde variantie = R2 (Explained variance)
• Is er een invloed van X op Y?
– Significantie testen van de slopes (de effecten van X-en op Y)
• Statistische controle
– We testen het effect van X, “gecontroleerd voor andere factoren”.
• Assumpties bij regressie
Deze module: enkelvoudige regressie
• Enkelvoudige regressie: 1 onafhankelijke variabele (X)
• Regressielijn veronderstelt causaliteit (dat x dus invloed heeft op y) → verband onderzoeken?
→ correlatie/spreidingsdiagram. Regressienalyse is een stap verder:
• De afhankelijke variabele (Y) is kwantitatief.
• De onafhankelijke variabele (X) kan zowel kwantitatief
als categorisch zijn.
Later: meervoudige regressie
, • Meervoudige (multipele) regressie: meerdere onafhankelijke variabele (meerdere X-en).
• Voorbeeld: we willen de invloed weten van geslacht (X1) op inkomen (Y), gecontroleerd voor
aantal uren dat iemand per week werkt (X2).
Linksboven is een goed voorbeeld → lineair
10 studenten (puntjes)
Regressievergelijking
Het geschatte regressie model (“prediction equation”):
• Y = geschatte waarde (predicted value)
• a = intercept (constante): waarde van Y bij X = 0.
• b = slope (richtingscoëfficiënt): helling van de lijn, de toename/afname van Y als X met 1
toeneemt.
,Enkelvoudige regressie
Het geschatte regressie model (“prediction equation”):
yˆ = a + bx (a = aˆ en b = bˆ )
A&B zijn dus ook schattingen LET OP. Eigenlijk zou je
die a en b ook met dakjes moeten zien. Schattingen op
basis van steekproef.
Het theoretische regressie model (“population
equation”):
µy = a + b × x
Onderliggend model voor de gehele populatie waar we vaak uitspraken over willen doen. We zijn
niet alleen geïnteresseerd in die 10 studenten maar in de gehele populatie.
UY = gemiddelde van y bij een bepaalde waarde van X.
2. Hypothesetoetsing met de b-coëfficiënt
• Doel: Y voorspellen op basis van X-en (met formule)
– Causaliteit (X → Y) wordt verondersteld, niet bewezen!
• Prediction error en predictive power: hoe goed is onze voorspelling?
– Voorspellingsfout: Residuals
– Verklaarde variantie = R2 (Explained variance)
• Is er een invloed van X op Y?
– Significantie testen van de slopes (de effecten van X-en op Y)
• Statistische controle
– We testen het effect van X, “gecontroleerd voor andere factoren”.
• Assumpties bij regressie
lijkt wel een effect te
zijn want we zien een stijgend effect. Je ziet in de steekproef effect. Het is geen 0 want b = 0.5. Maar
dit gaat om de steekproef en wij doen bijna altijd uitspraken over de populatie.
, Conclusies over populatie: inferentie in regressie
Stappen:
1. Assumpties
2. Formuleer hypothesen
3. Vind test statistic: T-toets en F-toets
4. P-Value
5. Conclusie
→ enkel verschil is dat we nu de B coëfficiënt gaan toetsen. We doen gewoon weer hypothesetesten
verder.
Stap 2. Hypothesen
H0: β = 0
Ηa: β ≠ 0 (tweezijdig)
B= dus het effect van x op y!
andere mogelijkheden:
Ηa: β > 0 (éénzijdig)
of
Ηa: β < 0 (éénzijdig)
Stap 3. Test statistic: t toets
• De t-statistic toetst ( we hebben het over kwantitatieve variabelen, gemiddelden) H0: β = 0
(geen relatie)
• Als de t-waarde significant is, dan accepteren we de Ha die stelt dat b afwijkt van 0. Dus: dat
X van invloed is op Y.
bobserved - 0
t=
seb
df = n - p - 1
(p = aantal onafhankelijke variabelen (predictoren) → 1 onafhankelijke variabele in vb; n =
steekproefgrootte)
• De gevonden (geobserveerde) t-waarde wordt vergeleken met de kritieke t-waarde. Als de
kans op gevonden t-waarde kleiner is dan 5%, dan besluiten we dat b significant van 0
verschilt.
10: Enkelvoudige lineaire regressie
10.1: Hypothesetoetsing met de b-coëfficiënt
Met ons regressiemodel willen we uitspraken doen over een bredere populatie. We kunnen een
steekproevenverdeling gebruiken om hypothesen te toetsen over de regressiecoëfficiënt, op
dezelfde manier als de hypothesetoetsen die we eerder in dit vak hebben besproken: hoe
waarschijnlijk is het om deze b-coëfficiënt te vinden als de nulhypothese waar zou zijn?
De eerste clip legt de regressievergelijking bij een enkelvoudige regressiemodel uit.
De tweede clip legt uit hoe je een hypothesetoets kunt uitvoeren en conclusie kunt trekken op basis
van de t-waarde en P-waarde. Je kunt ook een betrouwbaarheidsinterval voor de
regressiecoëfficiënt berekenen, wat ook een goede manier is om inferenties te maken met gegevens
uit een steekproef.
NB: In het tweede filmpje laten we zien hoe SPSS een p-waarde geeft die bij (de t-waarde van) een
regressiecoëfficiënt hoort. Let op dat SPSS altijd de p-waarde van een tweezijdige test geeft.
1. Het enkelvoudige regressiemodel
Overzicht van onderwerpen bij regressie (H12 + H13)
• Doel: Y voorspellen op basis van X-en (met formule)
– Causaliteit (X → Y) wordt verondersteld, niet bewezen!
• Prediction error en predictive power: hoe goed is onze voorspelling?
– Voorspellingsfout: Residuals
– Verklaarde variantie = R2 (Explained variance)
• Is er een invloed van X op Y?
– Significantie testen van de slopes (de effecten van X-en op Y)
• Statistische controle
– We testen het effect van X, “gecontroleerd voor andere factoren”.
• Assumpties bij regressie
Deze module: enkelvoudige regressie
• Enkelvoudige regressie: 1 onafhankelijke variabele (X)
• Regressielijn veronderstelt causaliteit (dat x dus invloed heeft op y) → verband onderzoeken?
→ correlatie/spreidingsdiagram. Regressienalyse is een stap verder:
• De afhankelijke variabele (Y) is kwantitatief.
• De onafhankelijke variabele (X) kan zowel kwantitatief
als categorisch zijn.
Later: meervoudige regressie
, • Meervoudige (multipele) regressie: meerdere onafhankelijke variabele (meerdere X-en).
• Voorbeeld: we willen de invloed weten van geslacht (X1) op inkomen (Y), gecontroleerd voor
aantal uren dat iemand per week werkt (X2).
Linksboven is een goed voorbeeld → lineair
10 studenten (puntjes)
Regressievergelijking
Het geschatte regressie model (“prediction equation”):
• Y = geschatte waarde (predicted value)
• a = intercept (constante): waarde van Y bij X = 0.
• b = slope (richtingscoëfficiënt): helling van de lijn, de toename/afname van Y als X met 1
toeneemt.
,Enkelvoudige regressie
Het geschatte regressie model (“prediction equation”):
yˆ = a + bx (a = aˆ en b = bˆ )
A&B zijn dus ook schattingen LET OP. Eigenlijk zou je
die a en b ook met dakjes moeten zien. Schattingen op
basis van steekproef.
Het theoretische regressie model (“population
equation”):
µy = a + b × x
Onderliggend model voor de gehele populatie waar we vaak uitspraken over willen doen. We zijn
niet alleen geïnteresseerd in die 10 studenten maar in de gehele populatie.
UY = gemiddelde van y bij een bepaalde waarde van X.
2. Hypothesetoetsing met de b-coëfficiënt
• Doel: Y voorspellen op basis van X-en (met formule)
– Causaliteit (X → Y) wordt verondersteld, niet bewezen!
• Prediction error en predictive power: hoe goed is onze voorspelling?
– Voorspellingsfout: Residuals
– Verklaarde variantie = R2 (Explained variance)
• Is er een invloed van X op Y?
– Significantie testen van de slopes (de effecten van X-en op Y)
• Statistische controle
– We testen het effect van X, “gecontroleerd voor andere factoren”.
• Assumpties bij regressie
lijkt wel een effect te
zijn want we zien een stijgend effect. Je ziet in de steekproef effect. Het is geen 0 want b = 0.5. Maar
dit gaat om de steekproef en wij doen bijna altijd uitspraken over de populatie.
, Conclusies over populatie: inferentie in regressie
Stappen:
1. Assumpties
2. Formuleer hypothesen
3. Vind test statistic: T-toets en F-toets
4. P-Value
5. Conclusie
→ enkel verschil is dat we nu de B coëfficiënt gaan toetsen. We doen gewoon weer hypothesetesten
verder.
Stap 2. Hypothesen
H0: β = 0
Ηa: β ≠ 0 (tweezijdig)
B= dus het effect van x op y!
andere mogelijkheden:
Ηa: β > 0 (éénzijdig)
of
Ηa: β < 0 (éénzijdig)
Stap 3. Test statistic: t toets
• De t-statistic toetst ( we hebben het over kwantitatieve variabelen, gemiddelden) H0: β = 0
(geen relatie)
• Als de t-waarde significant is, dan accepteren we de Ha die stelt dat b afwijkt van 0. Dus: dat
X van invloed is op Y.
bobserved - 0
t=
seb
df = n - p - 1
(p = aantal onafhankelijke variabelen (predictoren) → 1 onafhankelijke variabele in vb; n =
steekproefgrootte)
• De gevonden (geobserveerde) t-waarde wordt vergeleken met de kritieke t-waarde. Als de
kans op gevonden t-waarde kleiner is dan 5%, dan besluiten we dat b significant van 0
verschilt.