VOS Samenvatting HC 1-5 en Grasple lessen - Huyen Chau Nguyen
VOS HC 1 Kwantitatief – Multipele Regressie
Padmodel multipele regressie
- Eén afhankelijk variabele (Y) (minimaal interval)
- Eén of meerdere onafhankelijke variabelen (X) (minimaal interval)
- Eén of meerdere onafhankelijke variabelen (dichotoom)
Multipele regressie algemeen
- Onderzoeksvraag:
• Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?
- Doelen analyse
• Beschrijven lineaire relaties tussen variabelen (regressiemodel)
• Toetsen hypothesen over relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Kwalificeren van relaties (klein, middelmatig, groot)
• Beoordelen relevantie relaties (subjectief)
• Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
- Waarschuwing: Doe op basis van statistische samenhang geen uitspraken over causaliteit
Voorbeeld
- Onderzoeksvraag: Kunnen we kennis van literatuur bij
jongvolwassen voorspellen met persoons-, gezins- en schoolkenmerken?
- Populatie: jongvolwassenen
- Variabelen: afhankelijke variabele Y (kennis van literatuur) en onafhankelijke
variabelen X/predictoren (persoonlijke kenmerken, kenmerken ouderlijk huis, kenmerken school)
- Doel: voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de
predictoren X
Meetniveau variabelen
- Afhankelijke variabele Y: kenmerk gemeten op minimaal interval meetniveau.
- Meetniveau onafhankelijke variabelen Xk : kenmerk gemeten op minimaal interval meetniveau
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën noemen we dichotoom
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt omgezet in dummy’s
Regressiemodel
- Vergelijking Y voor geobserveerde variabele Y → uitkomst (Y ) = model (X ) + voorspellingsfout
- Vergelijking Ŷ voor voorspellen van waarde op Y (=Ŷ) → geschatte uitkomst (Ŷ) = model (X)
Spreidingsdiagram Regressiecoëfficiënten
,VOS Samenvatting HC 1-5 en Grasple lessen - Huyen Chau Nguyen
Kleinste kwadraten criterium
- Best passende rechte lijn: de lijn waarbij voorspellingsfout (error) zo klein mogelijk is
- De voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde → E = Y – Ŷ
- Een kleine voorspellingfout zorgt voor meer nauwkeurigheid en betrouwbaarheid
Goodness-of-fit
- Het model (regressielijn) met kleinste residuele kwadratensom
- Bepalen Goodness-of-fit (R2): vergelijking (ratio) van lineair model (regressielijn) met basismodel (basislijn)
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door X verklaarde variatie in Y tussen de 0 en 1
- Multipele correlatiecoëfficiënt R: correlatie tussen geobserveerde Y en Ŷ
- Determinatiecoëfficiënt R2: proportie in Y verklaarde variant door het model
- Waardering model: significantie (toetsen), kwantificeren relatie (effectgrootte)
Toetsen R2 en B’s
- Populatie: Hypothesen
- Steekproef: steekproefresultaten
- Beschrijven:
1. Verklaring van Y door alle X ‘ en (R²)
2. Invloed afzonderlijke X'en op Y (B‘s)
- Alternatieve hypothesen:
1. R2 > 0: Het regressiemodel verklaart variatie in Y
2. B > 0 of B < 0: Er is effect van X op Y
Voorbeeld toetsen R2
F-toets
- F -toets voor toetsing R2: is de verklaarde variantie significant ( = .05) groter dan 0?
- Hoeveel verklaart het model ten opzichte van het deel dat het model niet kan verklaren?
- Toetsingsgrootheid F
Voorbeeld toetsen B’s
Significantie bij predictoren MOTH_RD en PAR_BOOK
, VOS Samenvatting HC 1-5 en Grasple lessen - Huyen Chau Nguyen
Regressiecoëfficiënt B en Beta
Regressiecoëfficiënt B
- Gebruik je voor opstellen van regressievergelijking voor Ŷ
- Regressiecoëfficiënt B is schaalafhankelijk
Gestandaardiseerde regressiecoëfficiënt Beta
- Gebruik voor vergelijken van de predictoren (X'en)
- Beoordelen van invloed predictoren
- Gestandaardiseerde regressiecoëfficiënt Beta is schaalonafhankelijk
Voorbeeld opstellen regressievergelijking
Ŷ = b0 + b1 FATH_RD + b2 MOTH_RD + b3 PAR_BOOK
Ŷ = … + … FATH_RD + …. MOTH_RD + … PAR_BOOK
- Predictor PAR_BOOK heeft de grootste invloed
Voorbeeld vergelijking modellen
- Model 1: Y = b0 + b1X1 + b2X2 + b3X3 + E
- Model 2 Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 + b6X6 + E
- Vraag: Is toevoeging van drie variabelen aan model statistisch zinvol?
- Antwoord: Ja, als verklaarde variantie significant (en relevant) toeneemt. Nee, als verklaarde variantie niet
significant toeneemt.
- Hypothese H0: R2 = 0 Vergelijking modellen, Toetsing F-toets: voor R2 ( = .05)
H0: R2 = 0 → R2mod1= .11; p < .001; significant resultaat: H0 verwerpen
H0: R2 = 0 → R2mod2-mod1= .17; p < .001; significant resultaat: H0 verwerpen
- Conclusie: de toename van R2 door uitbreiding van model 1 is significant
Aannames regressiemodel
1. De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
2. Specificatie verklaringsmodel
3. De variabelen meten een begrip op interval/ ratio meetniveau (uitzondering: dummy’s)
4. Er is een lineaire relatie tussen de variabelen
5. Er zijn geen uitschieters
6. Per X-waarde is de spreiding in Y-scores gelijk (dit wordt ook wel homoscedasticiteit genoemd)
7. Per X-waarde zijn de Y-scores normaal verdeeld
8. Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen (dit wordt ook wel multicollineariteit
genoemd)
Grasple Voorkennis Activeren: Enkelvoudige multipele regressie
Kijken of er een lineair verband is tussen twee variabelen via een spreidingsdiagram in SPPS:
- Graphs > Chart Builder > Scatter/dot en daarbinnen de variant Simple Scatter with Fit Line
- onafhankelijke variabele op de X-as en de afhankelijke variabele op de Y-as
Regressie analyse in SPSS:
- Analyze > Regression > Linear
- Denk goed aan wat de afhankelijke en onafhankelijke variabelen zijn en zet deze in de goede vakjes.
- We willen ook grafisch de voorwaarde van homoscedastisiteit, lineariteit en de afwezigheid van uitschieters
controleren: Klik op Plots > Plaats de variabele *ZPRED (de gestandaardiseerde voorspelde waarden) op de X-as >
Plaats de variabele *ZRESID (de gestandaardiseerde residuen) op de Y-as > Klik op Continue
- Druk op OK
VOS HC 1 Kwantitatief – Multipele Regressie
Padmodel multipele regressie
- Eén afhankelijk variabele (Y) (minimaal interval)
- Eén of meerdere onafhankelijke variabelen (X) (minimaal interval)
- Eén of meerdere onafhankelijke variabelen (dichotoom)
Multipele regressie algemeen
- Onderzoeksvraag:
• Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?
- Doelen analyse
• Beschrijven lineaire relaties tussen variabelen (regressiemodel)
• Toetsen hypothesen over relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Kwalificeren van relaties (klein, middelmatig, groot)
• Beoordelen relevantie relaties (subjectief)
• Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
- Waarschuwing: Doe op basis van statistische samenhang geen uitspraken over causaliteit
Voorbeeld
- Onderzoeksvraag: Kunnen we kennis van literatuur bij
jongvolwassen voorspellen met persoons-, gezins- en schoolkenmerken?
- Populatie: jongvolwassenen
- Variabelen: afhankelijke variabele Y (kennis van literatuur) en onafhankelijke
variabelen X/predictoren (persoonlijke kenmerken, kenmerken ouderlijk huis, kenmerken school)
- Doel: voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de
predictoren X
Meetniveau variabelen
- Afhankelijke variabele Y: kenmerk gemeten op minimaal interval meetniveau.
- Meetniveau onafhankelijke variabelen Xk : kenmerk gemeten op minimaal interval meetniveau
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën noemen we dichotoom
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt omgezet in dummy’s
Regressiemodel
- Vergelijking Y voor geobserveerde variabele Y → uitkomst (Y ) = model (X ) + voorspellingsfout
- Vergelijking Ŷ voor voorspellen van waarde op Y (=Ŷ) → geschatte uitkomst (Ŷ) = model (X)
Spreidingsdiagram Regressiecoëfficiënten
,VOS Samenvatting HC 1-5 en Grasple lessen - Huyen Chau Nguyen
Kleinste kwadraten criterium
- Best passende rechte lijn: de lijn waarbij voorspellingsfout (error) zo klein mogelijk is
- De voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde → E = Y – Ŷ
- Een kleine voorspellingfout zorgt voor meer nauwkeurigheid en betrouwbaarheid
Goodness-of-fit
- Het model (regressielijn) met kleinste residuele kwadratensom
- Bepalen Goodness-of-fit (R2): vergelijking (ratio) van lineair model (regressielijn) met basismodel (basislijn)
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door X verklaarde variatie in Y tussen de 0 en 1
- Multipele correlatiecoëfficiënt R: correlatie tussen geobserveerde Y en Ŷ
- Determinatiecoëfficiënt R2: proportie in Y verklaarde variant door het model
- Waardering model: significantie (toetsen), kwantificeren relatie (effectgrootte)
Toetsen R2 en B’s
- Populatie: Hypothesen
- Steekproef: steekproefresultaten
- Beschrijven:
1. Verklaring van Y door alle X ‘ en (R²)
2. Invloed afzonderlijke X'en op Y (B‘s)
- Alternatieve hypothesen:
1. R2 > 0: Het regressiemodel verklaart variatie in Y
2. B > 0 of B < 0: Er is effect van X op Y
Voorbeeld toetsen R2
F-toets
- F -toets voor toetsing R2: is de verklaarde variantie significant ( = .05) groter dan 0?
- Hoeveel verklaart het model ten opzichte van het deel dat het model niet kan verklaren?
- Toetsingsgrootheid F
Voorbeeld toetsen B’s
Significantie bij predictoren MOTH_RD en PAR_BOOK
, VOS Samenvatting HC 1-5 en Grasple lessen - Huyen Chau Nguyen
Regressiecoëfficiënt B en Beta
Regressiecoëfficiënt B
- Gebruik je voor opstellen van regressievergelijking voor Ŷ
- Regressiecoëfficiënt B is schaalafhankelijk
Gestandaardiseerde regressiecoëfficiënt Beta
- Gebruik voor vergelijken van de predictoren (X'en)
- Beoordelen van invloed predictoren
- Gestandaardiseerde regressiecoëfficiënt Beta is schaalonafhankelijk
Voorbeeld opstellen regressievergelijking
Ŷ = b0 + b1 FATH_RD + b2 MOTH_RD + b3 PAR_BOOK
Ŷ = … + … FATH_RD + …. MOTH_RD + … PAR_BOOK
- Predictor PAR_BOOK heeft de grootste invloed
Voorbeeld vergelijking modellen
- Model 1: Y = b0 + b1X1 + b2X2 + b3X3 + E
- Model 2 Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 + b6X6 + E
- Vraag: Is toevoeging van drie variabelen aan model statistisch zinvol?
- Antwoord: Ja, als verklaarde variantie significant (en relevant) toeneemt. Nee, als verklaarde variantie niet
significant toeneemt.
- Hypothese H0: R2 = 0 Vergelijking modellen, Toetsing F-toets: voor R2 ( = .05)
H0: R2 = 0 → R2mod1= .11; p < .001; significant resultaat: H0 verwerpen
H0: R2 = 0 → R2mod2-mod1= .17; p < .001; significant resultaat: H0 verwerpen
- Conclusie: de toename van R2 door uitbreiding van model 1 is significant
Aannames regressiemodel
1. De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
2. Specificatie verklaringsmodel
3. De variabelen meten een begrip op interval/ ratio meetniveau (uitzondering: dummy’s)
4. Er is een lineaire relatie tussen de variabelen
5. Er zijn geen uitschieters
6. Per X-waarde is de spreiding in Y-scores gelijk (dit wordt ook wel homoscedasticiteit genoemd)
7. Per X-waarde zijn de Y-scores normaal verdeeld
8. Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen (dit wordt ook wel multicollineariteit
genoemd)
Grasple Voorkennis Activeren: Enkelvoudige multipele regressie
Kijken of er een lineair verband is tussen twee variabelen via een spreidingsdiagram in SPPS:
- Graphs > Chart Builder > Scatter/dot en daarbinnen de variant Simple Scatter with Fit Line
- onafhankelijke variabele op de X-as en de afhankelijke variabele op de Y-as
Regressie analyse in SPSS:
- Analyze > Regression > Linear
- Denk goed aan wat de afhankelijke en onafhankelijke variabelen zijn en zet deze in de goede vakjes.
- We willen ook grafisch de voorwaarde van homoscedastisiteit, lineariteit en de afwezigheid van uitschieters
controleren: Klik op Plots > Plaats de variabele *ZPRED (de gestandaardiseerde voorspelde waarden) op de X-as >
Plaats de variabele *ZRESID (de gestandaardiseerde residuen) op de Y-as > Klik op Continue
- Druk op OK