Hoorcolleges VOS
hoorcollege 1 kwantitatieve deel multipele regressie
Regressiemodel
Op basis van theorievorming maak je een hypothese die je
checkt met statistiek als je data verzameld. Hierbij moet je
goed operationaliseren: Hoe meet je iets en wat kan de
verklarende factor zijn?
- Variabele Minimaal in intervalniveau
- Afhankelijke variabele wil je voorspellen adhv onafhankelijke variabele = predictor
- Interventie: onafhankelijke variabele x verhogen, om te kijken of y omhoog gaat.
- Causaal verband: je meet op meerdere momenten en uitkomst gaat omhoog
- Niet een causaal verband: op 1 moment meten en de uitkomst gaan omhoog
- Lineare relatie tussen variabele beschrijven.
- verschil tussen proberen een nieuwe score te voospellen of te kijken hoe goed het model
past met de score die je al geobserveerd hebt. -> gaat niet altijd bij iedereen goed ->
fouttermen = E
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummyvariabelen.
- Regressiemodel: Uitkomst Y = model (x) + voorspellingsfout (e), modelvergelijking en
geobserveerde afhankelijke variabele.
- Y = B0 (constante) + B1 (regressiecoefficient, slope) X1 (voor elke toename van x1 volgt een
bepaalde toename in y) + B6X6 + E (voorspellingsfout)
- Voorspellen y? = Y^ = model x = regressievergelijking en voorspelde score is afhankelijke
variabele.
- Variantie = kwadraat van standaarddeviatie
Doelenanalyse
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte).
- Kwalificeren van relaties (klein, middelmatig, groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting
- en intervalschatting).
Meetvariabele: NOIR -> ratio, interval, ordinaal en nominaal
Spreidingsdiagram --------------------------------------------
Voor vergelijking enkelvoudige regressie: Y^= B0 +b1X1
1. Intercept of constante = bo -> geeft aan
wanneer lijn door 0 punt kruist
2. Regressiecoefficient = b1 -> constante/richtingsverband. Plaatje laat zien hoe hij verschilt -|
,Voorspellingsfout: afstand tussen geobserveerde waarde en voorspelde waarde -> lijn zo
trekken dat voorspellingsfout zo klein mogelijk is. positieve e (error) boven lijn en
negatieve e(error) onder lijn. ------------------------------------------------------------------
Voorspelling wordt nauwkeuriger als residuen kleiner zijn en errors dichter bij de lijn zijn.
Spreidingsdiagram READ-EDUC
Understandized b = gebruik je voor regressieformule
Goodness-of-fit
Beste model = model met kleinste residuele kwadratensom ->
kijk hiervoor naar goodness of fit (R2)
- R2 = kwadratensom van model gedeeld door totale kwadratensom.
- R2 = Proportie door X verklaarde variantie in Y. ligt altijd tussen 0 en 1.
- Verklaarde variantie verschil: R2 model 2 – R2 model 1.
- Toename R2 significant? -> kijk naar significant F change
- Relevantie model: R square change: Verschil R2 > .05 = relevant. < .05 = niet relevant
- R = multipele correlatiecoefficient. Wat is relatie tussen als alle y^ ga voorspellen op
basis van de Y die daadwerkelijk zijn geobserveerd. -> hoeveel percentage verklaart dit
model. Hoeveel hij meer verklaard dan hiervoor: R square change.
- Waarderingmode: significant = toetsen. Kwantificeren relatie = effectgrootte
Kwadraten?: standaarddeviaties bij elkaar
optellen is ongeveer 0, hiermee trek je de
rechte lijn. Door kwadraten kan je
inschatting krijgen over grootte van
afwijkingen.
Opsplitsing
waargenomen variantie
Y=basismodel en Y^= lineair model.
Yi = waarde van iemand in het model. Was het een onderschatting ->
zie Yi . De afstand van hier tot y = totale deviate. M is het verklaarde
deel, gele lijn zit nu dichter by Yi. R is onverklaarde deel.
Yi meer naar links? = groter verklaard deel
Toetsen van R2 en toetsen van B’s
- R2 = verklaring van Y door alle X’en. Ha: R 2 > 0: Het regressiemodel verklaart variatie in Y
- B = invloed afzonderlijke x’en op Y. Ha: B > 0 of B < 0: Er is effect van X op Y
- Meerdere variabele: Y = B0 + b1X1 + B2X2 (+ meer b en x als er meer variabele zijn) + E
- Statistische hypothese: H0: R2=0 en Ha: R2 > 0.
- Met F-toets beoordeel je statistische significantie
F-toets
mean: gemiddelde van alle sum squares
MSr: gedeeld door het aantal vrijheidsgraden.
, Unstandardized coeffiecients zijn afhankelijk van de schaal van de voorspeller, hierdoor kan je
moeilijk vergelijken tussen verschillende variabelen, want ze zijn gemeten met verschillende schalen
-> daarom heb je standardized coefficient B -> dan zijn de schalen vergelijkbaar.
Instructiecollege deel 1
Verschil enkelvoudige en multipele regressie:
- Enkelvoudige: 1 afhankelijke en 1 onafhankelijke variabele
- Multipele regressie: 1 afhankelijke en meerdere onafhankelijk variabele
Doelen regressieanalyse: beschrijven relaties tussen variabelen (in steekproef),
toetsen hypothese over relaties (significantie), kwantificeren van relaties (effectgrootte), voorspellen
van iemands waarden op Y met regressiemodel
Residu: het verschil tussen een geobserveerde score 𝑌 en de voorspelde score 𝑌 (zie rode pijlen in
figuren), dus: ei = y1 – yi^ Het residu wordt ook wel de voorspellingsfout of error genoemd.
Kleinste kwadratenmethode: gebruikt voor bepalen van best passende regressielijn, waarbij de som
van kwadraten van residuen het kleinst is. formule:
Voorwaarden en assumpties multipele regressie Schuingedrukte kunnen bij checken
analyse: voorwaarden gebruik maken van
residuen
1. Aselecte steekproef
Lineair: lineaire relatie tussen variabelen.
2. Meetniveau Y minimaal interval
3. Lineaire relaties tussen de X’en en Y -> gebruik van Homoscendasasticiteit: variantie
4. Per X-waarde is de spreiding in Y-scores gelijk (homoscedasticiteit) residuen gelijk voor verschillende
waarden onafhankelijke variabele.
->
5. Per X-waarde zijn de Y-scores normaal verdeeld Normaalverdeeld: Per X waarde zijn Y
6. Geen uitschieters en/of invloedrijke respondenten scores normaalverdeeld. residuen zijn
voor elke x waarde normaal verdeeld,
7. Geen hoge correlatie tussen de onafhankelijke variabelen
afhankelijke variabele hoeft niet!
(multicollineariteit)
Verklaarde variantie: Proportie of percentage van de variantie in scores op de afhankelijke
variabele dat verklaard wordt door de onafhankelijke variabelen in het model.
Hypotheses: toetsen of verklaarde variantie voor hele model groter is dan 0.
Predictor: kijken of hij een significante bijdrage levert. Toetsen of
regressiecoefficient (slope) van de predictor gelijk is aan 0 .
Vergelijkingen met twee voorspellers.
Yi geet vergelijking van geobserveerde score Y weer. -> voorspelde score Yi^ + residue ei
Yi^ geeft voorspelde score voor Y weer.
Regressiecoefficient negatief? -> kan duiden op multicollineariteit
hoorcollege 1 kwantitatieve deel multipele regressie
Regressiemodel
Op basis van theorievorming maak je een hypothese die je
checkt met statistiek als je data verzameld. Hierbij moet je
goed operationaliseren: Hoe meet je iets en wat kan de
verklarende factor zijn?
- Variabele Minimaal in intervalniveau
- Afhankelijke variabele wil je voorspellen adhv onafhankelijke variabele = predictor
- Interventie: onafhankelijke variabele x verhogen, om te kijken of y omhoog gaat.
- Causaal verband: je meet op meerdere momenten en uitkomst gaat omhoog
- Niet een causaal verband: op 1 moment meten en de uitkomst gaan omhoog
- Lineare relatie tussen variabele beschrijven.
- verschil tussen proberen een nieuwe score te voospellen of te kijken hoe goed het model
past met de score die je al geobserveerd hebt. -> gaat niet altijd bij iedereen goed ->
fouttermen = E
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummyvariabelen.
- Regressiemodel: Uitkomst Y = model (x) + voorspellingsfout (e), modelvergelijking en
geobserveerde afhankelijke variabele.
- Y = B0 (constante) + B1 (regressiecoefficient, slope) X1 (voor elke toename van x1 volgt een
bepaalde toename in y) + B6X6 + E (voorspellingsfout)
- Voorspellen y? = Y^ = model x = regressievergelijking en voorspelde score is afhankelijke
variabele.
- Variantie = kwadraat van standaarddeviatie
Doelenanalyse
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte).
- Kwalificeren van relaties (klein, middelmatig, groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting
- en intervalschatting).
Meetvariabele: NOIR -> ratio, interval, ordinaal en nominaal
Spreidingsdiagram --------------------------------------------
Voor vergelijking enkelvoudige regressie: Y^= B0 +b1X1
1. Intercept of constante = bo -> geeft aan
wanneer lijn door 0 punt kruist
2. Regressiecoefficient = b1 -> constante/richtingsverband. Plaatje laat zien hoe hij verschilt -|
,Voorspellingsfout: afstand tussen geobserveerde waarde en voorspelde waarde -> lijn zo
trekken dat voorspellingsfout zo klein mogelijk is. positieve e (error) boven lijn en
negatieve e(error) onder lijn. ------------------------------------------------------------------
Voorspelling wordt nauwkeuriger als residuen kleiner zijn en errors dichter bij de lijn zijn.
Spreidingsdiagram READ-EDUC
Understandized b = gebruik je voor regressieformule
Goodness-of-fit
Beste model = model met kleinste residuele kwadratensom ->
kijk hiervoor naar goodness of fit (R2)
- R2 = kwadratensom van model gedeeld door totale kwadratensom.
- R2 = Proportie door X verklaarde variantie in Y. ligt altijd tussen 0 en 1.
- Verklaarde variantie verschil: R2 model 2 – R2 model 1.
- Toename R2 significant? -> kijk naar significant F change
- Relevantie model: R square change: Verschil R2 > .05 = relevant. < .05 = niet relevant
- R = multipele correlatiecoefficient. Wat is relatie tussen als alle y^ ga voorspellen op
basis van de Y die daadwerkelijk zijn geobserveerd. -> hoeveel percentage verklaart dit
model. Hoeveel hij meer verklaard dan hiervoor: R square change.
- Waarderingmode: significant = toetsen. Kwantificeren relatie = effectgrootte
Kwadraten?: standaarddeviaties bij elkaar
optellen is ongeveer 0, hiermee trek je de
rechte lijn. Door kwadraten kan je
inschatting krijgen over grootte van
afwijkingen.
Opsplitsing
waargenomen variantie
Y=basismodel en Y^= lineair model.
Yi = waarde van iemand in het model. Was het een onderschatting ->
zie Yi . De afstand van hier tot y = totale deviate. M is het verklaarde
deel, gele lijn zit nu dichter by Yi. R is onverklaarde deel.
Yi meer naar links? = groter verklaard deel
Toetsen van R2 en toetsen van B’s
- R2 = verklaring van Y door alle X’en. Ha: R 2 > 0: Het regressiemodel verklaart variatie in Y
- B = invloed afzonderlijke x’en op Y. Ha: B > 0 of B < 0: Er is effect van X op Y
- Meerdere variabele: Y = B0 + b1X1 + B2X2 (+ meer b en x als er meer variabele zijn) + E
- Statistische hypothese: H0: R2=0 en Ha: R2 > 0.
- Met F-toets beoordeel je statistische significantie
F-toets
mean: gemiddelde van alle sum squares
MSr: gedeeld door het aantal vrijheidsgraden.
, Unstandardized coeffiecients zijn afhankelijk van de schaal van de voorspeller, hierdoor kan je
moeilijk vergelijken tussen verschillende variabelen, want ze zijn gemeten met verschillende schalen
-> daarom heb je standardized coefficient B -> dan zijn de schalen vergelijkbaar.
Instructiecollege deel 1
Verschil enkelvoudige en multipele regressie:
- Enkelvoudige: 1 afhankelijke en 1 onafhankelijke variabele
- Multipele regressie: 1 afhankelijke en meerdere onafhankelijk variabele
Doelen regressieanalyse: beschrijven relaties tussen variabelen (in steekproef),
toetsen hypothese over relaties (significantie), kwantificeren van relaties (effectgrootte), voorspellen
van iemands waarden op Y met regressiemodel
Residu: het verschil tussen een geobserveerde score 𝑌 en de voorspelde score 𝑌 (zie rode pijlen in
figuren), dus: ei = y1 – yi^ Het residu wordt ook wel de voorspellingsfout of error genoemd.
Kleinste kwadratenmethode: gebruikt voor bepalen van best passende regressielijn, waarbij de som
van kwadraten van residuen het kleinst is. formule:
Voorwaarden en assumpties multipele regressie Schuingedrukte kunnen bij checken
analyse: voorwaarden gebruik maken van
residuen
1. Aselecte steekproef
Lineair: lineaire relatie tussen variabelen.
2. Meetniveau Y minimaal interval
3. Lineaire relaties tussen de X’en en Y -> gebruik van Homoscendasasticiteit: variantie
4. Per X-waarde is de spreiding in Y-scores gelijk (homoscedasticiteit) residuen gelijk voor verschillende
waarden onafhankelijke variabele.
->
5. Per X-waarde zijn de Y-scores normaal verdeeld Normaalverdeeld: Per X waarde zijn Y
6. Geen uitschieters en/of invloedrijke respondenten scores normaalverdeeld. residuen zijn
voor elke x waarde normaal verdeeld,
7. Geen hoge correlatie tussen de onafhankelijke variabelen
afhankelijke variabele hoeft niet!
(multicollineariteit)
Verklaarde variantie: Proportie of percentage van de variantie in scores op de afhankelijke
variabele dat verklaard wordt door de onafhankelijke variabelen in het model.
Hypotheses: toetsen of verklaarde variantie voor hele model groter is dan 0.
Predictor: kijken of hij een significante bijdrage levert. Toetsen of
regressiecoefficient (slope) van de predictor gelijk is aan 0 .
Vergelijkingen met twee voorspellers.
Yi geet vergelijking van geobserveerde score Y weer. -> voorspelde score Yi^ + residue ei
Yi^ geeft voorspelde score voor Y weer.
Regressiecoefficient negatief? -> kan duiden op multicollineariteit