VOS HC 1 – Multipele regressie
Onderwerpen college:
- Regressiemodel
- Predictoren (= onafhankelijke variabelen) en afhankelijke variabelen
- (Gestandaardiseerde) regressiecoëfficiënten
- Kleinste kwadraten criterium
- Goodness-of-fit
- Toetsen van R2
- Toetsen B’s
- Vergelijking van modellen (ΔR2)
- Categorische kenmerken in regressiemodel
- Assumpties toepassing (multipele) lineaire regressie
Multipele regressie algemeen
- Onderzoeksvraag
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken?
- Doelen analyse
Beschrijven lineaire relaties tussen variabelen (regressiemodel)
Toetsen hypothesen over relaties (significantie)
Kwantificeren van relaties (effectgrootte)
Kwalificeren van relaties (klein, middelmatig, groot)
Beoordelen relevantie relaties (subjectief)
Voorspellen van iemands waarde met regressiemodel (puntschatting en
intervalschatting)
- Waarschuwing
Doe op basis van statistische samenhang geen uitspraken over causaliteit
Meetniveau variabelen
- Afhankelijke variabele Y
Kenmerk gemeten op minimaal interval meetniveau
- Meetniveau onafhankelijke variabelen Xk
Kenmerk gemeten op minimaal interval meetniveau, bijv.
o Opleidingsniveau in jaren
o Kennis literatuur
o Aantal boeken in ouderlijk huis
Categorisch kenmerk met twee categorieën; nominaal meetniveau met twee
categorieën noemen we dichotoom, bijv.
o Jongen of meisje
o Cultuur: noord, oost, zuid, west
Categorisch kenmerk met meer dan twee categorieën; nominaal meetniveau
wordt omgezet in dummyvariabelen
Regressiemodel (1)
- Modelvergelijking
Voor geobserveerde variabele Y
, uitkomst (Y) = model (X) + voorspellingsfout (residual of error)
- Regressievergelijking
Voor voorspellen van waarde op Y
geschatte uitkomst (Y^) = model (X)
Regressiemodel (2)
Vergelijking van lijn (regressievergelijking)
- Y^ = b0 + b1X1 (enkelvoudige regressie)
1. Intercept of constante (b0)
2. Regressiecoëfficiënt (b1)
Kleinste kwadraten criterium
- Best passende rechte lijn
De lijn waarbij voorspellingsfout (error) zo klein mogelijk is
- De voorspellingsfout is de afstand tussen de geobserveerde waarde en de voospelde
waarde
- Voor elke respondent:
Geobserveerde Y
Geschatte Y^
Verspellingsfout E
- Positief resiudu
Boven de lijn
Onderschatting door model
- Negatief residu
Onder de lijn
Overschatting door model
,Residuen E
- Y = Y^ + E
- Y^ = B0 + B1X1 + E
Dus: Y = B0 + B1X1 + E
Goodness-of-fit (1)
- Beste model?
Het model (regressielijn) met kleinste residuele kwadratensom
Hoe goed is dat dan?
Goodness-of-fit (2)
- Goodness-of-fit (R2)
Kwadratensom van model gedeeld door totale kwadratensom
Proportie door X verklaarde variatie in Y
R2 ligt tussen 0 en 1
- Interpretatie R en R2
Multipele correlatiecoëfficiënt R
Correlatie tussen geobserveerde Y en Y^
Determinatiecoëfficiënt
Proportie in Y verklaarde variantie door het model
- Waardering model
Significantie (= toetsen)
Kwantificeren relatie (= effectgrootte)
Toetsen R2 en B’s
- Populatie
Hypothesen
- Steekproef
Steekproefresultaten
- Beschrijven
Verklaring van Y door alle X’en (R2)
Invloed afzonderlijke X’en op Y (B’s)
- Alternatieve hypothesen
1. R2 > 0 Het regressiemodel verklaart variatie in Y
, 2. B > 0 of B < 0 Er is effect van X op Y
Toetsen R2
- Voorbeeld
Kan literatuurkennis verklaard worden met aantal boeken in ouderlijk huis én
literatuurkennis vader én literatuurkennis moeder?
- Model
Y = B0 + B1X1 + B2X2 + B3X3 + E
- Hypothesen
H0: R2 = 0
H a : R2 > 0
- Toets voor R2
Met F-toets beoordeel je statistische significantie (alfa = 0.05)
- Beoordelen R2
Met grootte van R2 kwantificeer je de relatie
F-toets
- F-toets voor toetsing R2
Is verklaarde variantie significant groter dan 0?
Hoeveel verklaart het model ten opzichte van het deel dat het model niet kan
verklaren?
- Toetsingsgrootheid F
Toetsen B’s
- Voorbeeld
Kan literatuurkennis verklaard worden met aantal boeken in ouderlijk huis en/of
literatuurkennis en/of literatuurkennis moeder?
- Model
Y = b0 + b1X1 + b2X2 + b3X3 + E
- Hypothesen
H01 : b1 = 0, Ha1 : b1 > 0
H02 : b2 = 0, Ha2 : b2 > 0
H03 : b3 = 0, Ha3 : b3 > 0
- Toets voor invloed afzonderlijke X’en
Toetsen van B’s met t-toetsen (alfa = .05)
- Kwantificeren invloed X’en
Beoordeeld met grootte van beta’s (gestandaardiseerde B)
Onderwerpen college:
- Regressiemodel
- Predictoren (= onafhankelijke variabelen) en afhankelijke variabelen
- (Gestandaardiseerde) regressiecoëfficiënten
- Kleinste kwadraten criterium
- Goodness-of-fit
- Toetsen van R2
- Toetsen B’s
- Vergelijking van modellen (ΔR2)
- Categorische kenmerken in regressiemodel
- Assumpties toepassing (multipele) lineaire regressie
Multipele regressie algemeen
- Onderzoeksvraag
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken?
- Doelen analyse
Beschrijven lineaire relaties tussen variabelen (regressiemodel)
Toetsen hypothesen over relaties (significantie)
Kwantificeren van relaties (effectgrootte)
Kwalificeren van relaties (klein, middelmatig, groot)
Beoordelen relevantie relaties (subjectief)
Voorspellen van iemands waarde met regressiemodel (puntschatting en
intervalschatting)
- Waarschuwing
Doe op basis van statistische samenhang geen uitspraken over causaliteit
Meetniveau variabelen
- Afhankelijke variabele Y
Kenmerk gemeten op minimaal interval meetniveau
- Meetniveau onafhankelijke variabelen Xk
Kenmerk gemeten op minimaal interval meetniveau, bijv.
o Opleidingsniveau in jaren
o Kennis literatuur
o Aantal boeken in ouderlijk huis
Categorisch kenmerk met twee categorieën; nominaal meetniveau met twee
categorieën noemen we dichotoom, bijv.
o Jongen of meisje
o Cultuur: noord, oost, zuid, west
Categorisch kenmerk met meer dan twee categorieën; nominaal meetniveau
wordt omgezet in dummyvariabelen
Regressiemodel (1)
- Modelvergelijking
Voor geobserveerde variabele Y
, uitkomst (Y) = model (X) + voorspellingsfout (residual of error)
- Regressievergelijking
Voor voorspellen van waarde op Y
geschatte uitkomst (Y^) = model (X)
Regressiemodel (2)
Vergelijking van lijn (regressievergelijking)
- Y^ = b0 + b1X1 (enkelvoudige regressie)
1. Intercept of constante (b0)
2. Regressiecoëfficiënt (b1)
Kleinste kwadraten criterium
- Best passende rechte lijn
De lijn waarbij voorspellingsfout (error) zo klein mogelijk is
- De voorspellingsfout is de afstand tussen de geobserveerde waarde en de voospelde
waarde
- Voor elke respondent:
Geobserveerde Y
Geschatte Y^
Verspellingsfout E
- Positief resiudu
Boven de lijn
Onderschatting door model
- Negatief residu
Onder de lijn
Overschatting door model
,Residuen E
- Y = Y^ + E
- Y^ = B0 + B1X1 + E
Dus: Y = B0 + B1X1 + E
Goodness-of-fit (1)
- Beste model?
Het model (regressielijn) met kleinste residuele kwadratensom
Hoe goed is dat dan?
Goodness-of-fit (2)
- Goodness-of-fit (R2)
Kwadratensom van model gedeeld door totale kwadratensom
Proportie door X verklaarde variatie in Y
R2 ligt tussen 0 en 1
- Interpretatie R en R2
Multipele correlatiecoëfficiënt R
Correlatie tussen geobserveerde Y en Y^
Determinatiecoëfficiënt
Proportie in Y verklaarde variantie door het model
- Waardering model
Significantie (= toetsen)
Kwantificeren relatie (= effectgrootte)
Toetsen R2 en B’s
- Populatie
Hypothesen
- Steekproef
Steekproefresultaten
- Beschrijven
Verklaring van Y door alle X’en (R2)
Invloed afzonderlijke X’en op Y (B’s)
- Alternatieve hypothesen
1. R2 > 0 Het regressiemodel verklaart variatie in Y
, 2. B > 0 of B < 0 Er is effect van X op Y
Toetsen R2
- Voorbeeld
Kan literatuurkennis verklaard worden met aantal boeken in ouderlijk huis én
literatuurkennis vader én literatuurkennis moeder?
- Model
Y = B0 + B1X1 + B2X2 + B3X3 + E
- Hypothesen
H0: R2 = 0
H a : R2 > 0
- Toets voor R2
Met F-toets beoordeel je statistische significantie (alfa = 0.05)
- Beoordelen R2
Met grootte van R2 kwantificeer je de relatie
F-toets
- F-toets voor toetsing R2
Is verklaarde variantie significant groter dan 0?
Hoeveel verklaart het model ten opzichte van het deel dat het model niet kan
verklaren?
- Toetsingsgrootheid F
Toetsen B’s
- Voorbeeld
Kan literatuurkennis verklaard worden met aantal boeken in ouderlijk huis en/of
literatuurkennis en/of literatuurkennis moeder?
- Model
Y = b0 + b1X1 + b2X2 + b3X3 + E
- Hypothesen
H01 : b1 = 0, Ha1 : b1 > 0
H02 : b2 = 0, Ha2 : b2 > 0
H03 : b3 = 0, Ha3 : b3 > 0
- Toets voor invloed afzonderlijke X’en
Toetsen van B’s met t-toetsen (alfa = .05)
- Kwantificeren invloed X’en
Beoordeeld met grootte van beta’s (gestandaardiseerde B)