Statistiek 3
College 2 Multiple regressie
Waarom regressie?
• Voorspellen
• Regressiemodel is een eenvoudige benadering van de relatie tussen variabelen
• Associatie (waaronder correlatie) is geen causaliteit
Enkelvoudige lineaire regressie
•
•
• Kwadraat van residuen nemen, want het maakt niet uit of ze positief of negatief zijn
•
Assumpties enkelvoudige lineaire regressie
• Zinvolle uitkomsten als er voldaan wordt aan een aantal voorwaarden
1. Lineariteit
, -Lineaire relatie tussen x en het gemiddelde van y
-Als je iets weet over x, dan kan je dit gebruiken bij de voorspelling van y
(conditionele kans)
- Verwachte waarde van y gegeven waarde x: E(y|x) = α + βx
- Dus de verwachte waarde van y gegeven x is de rechte lijn zonder de residuen
(residuen ~ N (0, σ)
2. Homoscedasticiteit
- Alle subpopulaties voor elke waarde van x zijn normaal verdeeld met gelijke
variantie σ
- Gelijke variantie voor y voor elke waarde van x
-
3. Onafhankelijkheid van de residuen
- De residuen zijn onafhankelijk van x
- De fouten die je maakt zijn dus niet gerelateerd aan onze voorspeller x
-
Inferentie bij enkelvoudige lineaire regressie
• SE van de residuen
-
• Inferentie of BHI
-
Multiple lineaire regressie
• b1 en b2 zijn partiële regressiecoëfficiënten
, • De waardes zijn afhankelijk van andere voospellers in het model (vanwege
multicollineariteit: correlatie tussen de onafhankelijke variabelen)
• Interpretatie
Berekenen van regressiecoëfficiënten – multiple regressie
• Gaat volgens OLS-methode
• Reken de gestandaardiseerde regressiecoëfficiënten b*1 en b*2 uit
•
• Dan kan je a en b uitrekenen
•
•
Voorbeeld in SPSS
Multiple R en R2
• Hoe goed verklaren/schatten alle IV’s samen y?
•
• Formules voor R2
•
•
, •
- SST: verschillen tussen geobserveerde waardes en het gemiddelde van y
- SSM: verschillen tussen de regressielijn en het gemiddelde van y
- SSE: verschillen tussen geobserveerde waardes en de regressielijn
-
• In SPSS R2 bij model summary (R square)
• R en R2 houden al rekening met multicollineariteit van de onafhankelijke variabelen
Partiële en semi-partiële correlaties
• De ‘gewone’ multipele correlatiecoëfficiënt (R) geeft informatie over hoe goed alle
onafhankelijke variabelen samen gebruikt kunnen worden om y te voorspellen
• Maar hoe zit het dan met de unieke bijdrage van elke IV apart? Vaak is er
multicollineariteit tussen onafhankelijke variabelen
• Gebruik daarom partiële en semi-partiële correlatiecoëfficiënten
Partiële correlatiecoëfficiënten
•
• (dit gaat over de partiële correlatie tussen y en x1)
• De correlatie tussen y en x1 waarbij x2 zowel uit y als uit x1 gehaald is
•
Gekwadrateerde partiële correlatiecoëfficiënten
• De proportie uniek verklaarde variantie
• Hoeveel procent van de totale variantie in Y die niet verklaard wordt door andere IV’s
wordt uniek verklaard door deze IV?
•
•
College 2 Multiple regressie
Waarom regressie?
• Voorspellen
• Regressiemodel is een eenvoudige benadering van de relatie tussen variabelen
• Associatie (waaronder correlatie) is geen causaliteit
Enkelvoudige lineaire regressie
•
•
• Kwadraat van residuen nemen, want het maakt niet uit of ze positief of negatief zijn
•
Assumpties enkelvoudige lineaire regressie
• Zinvolle uitkomsten als er voldaan wordt aan een aantal voorwaarden
1. Lineariteit
, -Lineaire relatie tussen x en het gemiddelde van y
-Als je iets weet over x, dan kan je dit gebruiken bij de voorspelling van y
(conditionele kans)
- Verwachte waarde van y gegeven waarde x: E(y|x) = α + βx
- Dus de verwachte waarde van y gegeven x is de rechte lijn zonder de residuen
(residuen ~ N (0, σ)
2. Homoscedasticiteit
- Alle subpopulaties voor elke waarde van x zijn normaal verdeeld met gelijke
variantie σ
- Gelijke variantie voor y voor elke waarde van x
-
3. Onafhankelijkheid van de residuen
- De residuen zijn onafhankelijk van x
- De fouten die je maakt zijn dus niet gerelateerd aan onze voorspeller x
-
Inferentie bij enkelvoudige lineaire regressie
• SE van de residuen
-
• Inferentie of BHI
-
Multiple lineaire regressie
• b1 en b2 zijn partiële regressiecoëfficiënten
, • De waardes zijn afhankelijk van andere voospellers in het model (vanwege
multicollineariteit: correlatie tussen de onafhankelijke variabelen)
• Interpretatie
Berekenen van regressiecoëfficiënten – multiple regressie
• Gaat volgens OLS-methode
• Reken de gestandaardiseerde regressiecoëfficiënten b*1 en b*2 uit
•
• Dan kan je a en b uitrekenen
•
•
Voorbeeld in SPSS
Multiple R en R2
• Hoe goed verklaren/schatten alle IV’s samen y?
•
• Formules voor R2
•
•
, •
- SST: verschillen tussen geobserveerde waardes en het gemiddelde van y
- SSM: verschillen tussen de regressielijn en het gemiddelde van y
- SSE: verschillen tussen geobserveerde waardes en de regressielijn
-
• In SPSS R2 bij model summary (R square)
• R en R2 houden al rekening met multicollineariteit van de onafhankelijke variabelen
Partiële en semi-partiële correlaties
• De ‘gewone’ multipele correlatiecoëfficiënt (R) geeft informatie over hoe goed alle
onafhankelijke variabelen samen gebruikt kunnen worden om y te voorspellen
• Maar hoe zit het dan met de unieke bijdrage van elke IV apart? Vaak is er
multicollineariteit tussen onafhankelijke variabelen
• Gebruik daarom partiële en semi-partiële correlatiecoëfficiënten
Partiële correlatiecoëfficiënten
•
• (dit gaat over de partiële correlatie tussen y en x1)
• De correlatie tussen y en x1 waarbij x2 zowel uit y als uit x1 gehaald is
•
Gekwadrateerde partiële correlatiecoëfficiënten
• De proportie uniek verklaarde variantie
• Hoeveel procent van de totale variantie in Y die niet verklaard wordt door andere IV’s
wordt uniek verklaard door deze IV?
•
•