MiOO
Samenvatting tentamen 1
15/12/2021
Multipele Regressie
Doel multipele regressie:
- Waarde van iemand kenmerk voorspellen a.d.h.v. kennis over andere kenmerken
(deze kenmerken = predictoren)
- Oftewel: X1, X2, X3 (predictoren) Y
o E = error: wat we niet vangen met de predictoren
- Geen uitspraken over causaliteit, maar het gaat om het voorspellen
Opstellen model regressiemodel:
- Regressievergelijking = modelvergelijking voor de geobserveerde variabele Y:
o Uitkomst (Y) = model (X) + voorspellingsfout
o Y =b0 +b1 X 1 +…+ b6 X 6 +ⅇ
Y = afhankelijke variabele (dependant variable)
X = onafhankelijke variabelen/predictoren (independant variables)
b 0 = intercept (constant)/a
b 1 = regressiecoëfficiënt/slope
ⅇ = voorspellingsfout/error/residual
- Regressie: bestaat uit puntenwolk regressie: regressielijn door de puntenwolk tekenen
o Regressievergelijking beschrijft die lijn
o Best passende regressielijn volgens kleinste kwadraten criterium wordt beschreven
door de regressielijn
Dakje = voorspelling
Y ^ =b +b X
0 1 1
o Kleinste kwadraten criterium (least squares criterion) zoek de lijn waarbij de
voorspellingsfout zo klein mogelijk is
Iedere respondent heeft:
Y = geobserveerde Y
Y ^ = geschatte Y
e = voorspellingsfout = Y −Y^
o Positieve e : onderschatting door model
o Negatieve e : overschatting door model
o e ’s zijn normaal verdeel met een gemiddelde van 0
Assumpties:
- Assumpties evalueren of de data realistisch is
- Assumpties van multipele regressie
o Onafhankelijkheid van waarnemingen (independence)
o Meetniveau variabelen:
AV en OVs tenminste interval niveau
OVs nominaal kan ook, maar via dummies
o Lineaire relatie tussen de AV en OVs
, o Afwezigheid multicollineariteit
o Normaal verdeelde residuen
o Homoscedasticiteit
o Afwezigheid outliers
Evaluatie statistische fit en praktische relevantie v/h model:
- = Hoe goed is de regressielijn?
- Goodness of fit
o R2 als maat voor de algehele modelfit
o R2 = determinatiecoëfficiënt = percentage (%) variantie verklaard door het model
s sm s sm
o R2= = = variantie verklaard door het model/totale variantie
s s t s s m+ s s R
o R interpretatie: hoeveel procent (%) v/d variantie in Y kan worden verklaard door
2
alle predictoren samen?
R2 wil je zo groot mogelijk hebben SSm en SSr gelijk aan elkaar
0 = niks verklaard door het model; 1 = alles verklaard door het model
o R
2
Klein: 0.01
Medium: 0.09
Groot: 0.25
- Kwadratensom (sum of squares)
o s s t = totale kwadraten som (totale SS) = som v/d gekwadrateerde
afwijkingen van geobserveerde scores tot het algemeen gemiddelde
s s t =∑ ( y− y )2
y = gemiddelde van alle y-waarden
Baseline
o s s m = kwadraten som v/h model (model SS) = som v/d
gekwadrateerde afwijkingen van voorspelde scores tot het algemeen
gemiddelde
s s m=∑ ( ^y − y )2
Variantie verklaard door het model
o s s R = kwadratensom v/d voorspelingsfout (residual SS) = som v/d
gekwadrateerde afwijkingen v/d geobserveerde scores tot de
voorspelde scores
s s R =∑ ( y− ^y )2
o Kwadratensom: s s t =s s m+ s s R
- Goodness of fit toets
o Algehele model: verklaren de predictoren samen variantie in Y?
Hypothesen:
H0: ρ2 = 0
HA: ρ2 > 0
Toets: F-toets
m sm s s m ∕ ⅆ f m
Toetsingsgrootheid: F= =
m sR s sR ∕ ⅆ f R
Als ρ < α verwerp H0 en bepaal relevantie v/h effect
, o Welke predictoren zijn relevant?
Toetsen v/d individuele predictoren
Hypothesen:
H01: β1 = 0
HA1: β1 ≠ 0
H02: β2 = 0
HA2: β2 ≠ 0
Toets: t-toets
β
Toetsingsgrootheid: t=
SE ( β )
Als ρ < α verwerp H0 en bepaal relevantie v/h effect
Hiërarchische of sequentiële regressie:
- Predictoren toevoegen aan het model
- Stapsgewijs toevoegen van predictoren aan het model
- Kijken: zorgen predictoren in (significante) toename van verklaarde variantie met het eerste
model
- Delta = verschil
- Hypothesen:
o H0: ρ2 = 0
o HA: ρ2 > 0
- Vergeet niet te kijken naar de individuele toegevoegde predictoren
Multipele regressie (Grasple)
Dummy variabelen:
- Dichotome variabele – variabele die maar 2 waarden kan aannemen
- Om een dichotome variabele te gebruiken in een regressieanalyse moeten er getallen aan de
2 variabelen worden toegekend
o Categorie 0 = referentiecategorie (arbitraire keuze welke variabele)
- Intercept (b 0) is de voorspelde score van de referentiecategorie
o De voorspelde score is ook hetzelfde als het gemiddelde in die groep
- Richtingscoëfficiënt: verschil in voorspelde score tussen de 2 categorieën (als X 1 omhoog
gaat, hoeveel gaat Y omhoog )
o Positief: referentiegroep scoort gemiddeld lager dan de andere groep
o Negatief: referentiegroep scoort gemiddeld hoger dan de andere groep
Controle assumpties (initieel) bij regressieanalyse:
- Assumptie 1:
o De afhankelijke variabele is minimaal van interval niveau
o De onafhankelijke variabelen moeten minimaal van interval meetniveau zijn of
dichotoom (nominaal met 2 categorieën)
- Assumptie 2:
o Er moeten lineaire verbanden zijn tussen de afhankelijke variabele en alle
kwantitatieve onafhankelijke variabelen
Samenvatting tentamen 1
15/12/2021
Multipele Regressie
Doel multipele regressie:
- Waarde van iemand kenmerk voorspellen a.d.h.v. kennis over andere kenmerken
(deze kenmerken = predictoren)
- Oftewel: X1, X2, X3 (predictoren) Y
o E = error: wat we niet vangen met de predictoren
- Geen uitspraken over causaliteit, maar het gaat om het voorspellen
Opstellen model regressiemodel:
- Regressievergelijking = modelvergelijking voor de geobserveerde variabele Y:
o Uitkomst (Y) = model (X) + voorspellingsfout
o Y =b0 +b1 X 1 +…+ b6 X 6 +ⅇ
Y = afhankelijke variabele (dependant variable)
X = onafhankelijke variabelen/predictoren (independant variables)
b 0 = intercept (constant)/a
b 1 = regressiecoëfficiënt/slope
ⅇ = voorspellingsfout/error/residual
- Regressie: bestaat uit puntenwolk regressie: regressielijn door de puntenwolk tekenen
o Regressievergelijking beschrijft die lijn
o Best passende regressielijn volgens kleinste kwadraten criterium wordt beschreven
door de regressielijn
Dakje = voorspelling
Y ^ =b +b X
0 1 1
o Kleinste kwadraten criterium (least squares criterion) zoek de lijn waarbij de
voorspellingsfout zo klein mogelijk is
Iedere respondent heeft:
Y = geobserveerde Y
Y ^ = geschatte Y
e = voorspellingsfout = Y −Y^
o Positieve e : onderschatting door model
o Negatieve e : overschatting door model
o e ’s zijn normaal verdeel met een gemiddelde van 0
Assumpties:
- Assumpties evalueren of de data realistisch is
- Assumpties van multipele regressie
o Onafhankelijkheid van waarnemingen (independence)
o Meetniveau variabelen:
AV en OVs tenminste interval niveau
OVs nominaal kan ook, maar via dummies
o Lineaire relatie tussen de AV en OVs
, o Afwezigheid multicollineariteit
o Normaal verdeelde residuen
o Homoscedasticiteit
o Afwezigheid outliers
Evaluatie statistische fit en praktische relevantie v/h model:
- = Hoe goed is de regressielijn?
- Goodness of fit
o R2 als maat voor de algehele modelfit
o R2 = determinatiecoëfficiënt = percentage (%) variantie verklaard door het model
s sm s sm
o R2= = = variantie verklaard door het model/totale variantie
s s t s s m+ s s R
o R interpretatie: hoeveel procent (%) v/d variantie in Y kan worden verklaard door
2
alle predictoren samen?
R2 wil je zo groot mogelijk hebben SSm en SSr gelijk aan elkaar
0 = niks verklaard door het model; 1 = alles verklaard door het model
o R
2
Klein: 0.01
Medium: 0.09
Groot: 0.25
- Kwadratensom (sum of squares)
o s s t = totale kwadraten som (totale SS) = som v/d gekwadrateerde
afwijkingen van geobserveerde scores tot het algemeen gemiddelde
s s t =∑ ( y− y )2
y = gemiddelde van alle y-waarden
Baseline
o s s m = kwadraten som v/h model (model SS) = som v/d
gekwadrateerde afwijkingen van voorspelde scores tot het algemeen
gemiddelde
s s m=∑ ( ^y − y )2
Variantie verklaard door het model
o s s R = kwadratensom v/d voorspelingsfout (residual SS) = som v/d
gekwadrateerde afwijkingen v/d geobserveerde scores tot de
voorspelde scores
s s R =∑ ( y− ^y )2
o Kwadratensom: s s t =s s m+ s s R
- Goodness of fit toets
o Algehele model: verklaren de predictoren samen variantie in Y?
Hypothesen:
H0: ρ2 = 0
HA: ρ2 > 0
Toets: F-toets
m sm s s m ∕ ⅆ f m
Toetsingsgrootheid: F= =
m sR s sR ∕ ⅆ f R
Als ρ < α verwerp H0 en bepaal relevantie v/h effect
, o Welke predictoren zijn relevant?
Toetsen v/d individuele predictoren
Hypothesen:
H01: β1 = 0
HA1: β1 ≠ 0
H02: β2 = 0
HA2: β2 ≠ 0
Toets: t-toets
β
Toetsingsgrootheid: t=
SE ( β )
Als ρ < α verwerp H0 en bepaal relevantie v/h effect
Hiërarchische of sequentiële regressie:
- Predictoren toevoegen aan het model
- Stapsgewijs toevoegen van predictoren aan het model
- Kijken: zorgen predictoren in (significante) toename van verklaarde variantie met het eerste
model
- Delta = verschil
- Hypothesen:
o H0: ρ2 = 0
o HA: ρ2 > 0
- Vergeet niet te kijken naar de individuele toegevoegde predictoren
Multipele regressie (Grasple)
Dummy variabelen:
- Dichotome variabele – variabele die maar 2 waarden kan aannemen
- Om een dichotome variabele te gebruiken in een regressieanalyse moeten er getallen aan de
2 variabelen worden toegekend
o Categorie 0 = referentiecategorie (arbitraire keuze welke variabele)
- Intercept (b 0) is de voorspelde score van de referentiecategorie
o De voorspelde score is ook hetzelfde als het gemiddelde in die groep
- Richtingscoëfficiënt: verschil in voorspelde score tussen de 2 categorieën (als X 1 omhoog
gaat, hoeveel gaat Y omhoog )
o Positief: referentiegroep scoort gemiddeld lager dan de andere groep
o Negatief: referentiegroep scoort gemiddeld hoger dan de andere groep
Controle assumpties (initieel) bij regressieanalyse:
- Assumptie 1:
o De afhankelijke variabele is minimaal van interval niveau
o De onafhankelijke variabelen moeten minimaal van interval meetniveau zijn of
dichotoom (nominaal met 2 categorieën)
- Assumptie 2:
o Er moeten lineaire verbanden zijn tussen de afhankelijke variabele en alle
kwantitatieve onafhankelijke variabelen