Kwantitatief
Regressievergelijking Ŷ = b0 (intercept) + b1 (slope) • x1
(onafhankelijke variabele/ predictor)
Modelvergelijking Y (uitkomst) = X (model) + e
(voorspellingsfout)
Y Afhankelijke variabele (die wil je
voorspellen)
- Y = geobserveerde waarde Y
Ŷ = voorspelde waarde Y
X Onafhankelijke variabele(n)
b0 Intercept/ constant/a
→ De intercept (β0) vertegenwoordigt het
voorspelde gemiddelde van de afhankelijke
variabele (Y) wanneer de waarde van de
onafhankelijke variabele (X) gelijk is aan
nul. Met andere woorden, het is het snijpunt
van de regressielijn met de y-as.
→ B0 = constante = waarde in de regel
unstandardized bij intercept (tabel
coefficients).
b1 Regressiecoëfficiënt/ slope
→ Vertelt hoeveel de afhankelijke variabele
verandert bij toename van 1 punt op de
onafhankelijke variabele
e Voorspellingsfout/ residual
→ Bevat alle factoren die niet zijn
opgenomen in het model en die de
variabiliteit in de afhankelijke variabele niet
kunnen verklaren door de onafhankelijke
variabele(n).
→e=Y-Ŷ
→ positieve e: onderschatting door model
, negatieve e: overschatting door model
e’s zijn normaal verdeeld met gemiddelde 0
Multipele regressie Beoordelen of je iemand waarde op een
kenmerk kan voorspellen aan de hand van
kennis over andere kenmerken
(predictoren)?
Doel multipele regressie Kunnen we iemands waarde op een
kenmerk voorspellen aan de hand van
kennis over andere kenmerken
(predictoren)?
→ Beschrijven van relaties tussen
variabelen (regressiemodel)
→ Toetsen van hypothesen over relaties
(significantie)
→ Kwantificeren van relaties (effectgrootte)
→ Kwalificeren van relaties (klein, medium,
groot)
→ Beoordelen relevantie relaties
(subjectief)
→ Voorspellen van iemands waarde met
regressiemodel
Let op: we doen geen uitspraken over
causaliteit!
Predictor
Stappen multipele regressie 1. Opstellen onderzoeksvraag
2. Data verzamelen
3. Opstellen model
4. Evaluatie assumpties
5. Evaluatie statistische fit én praktische
relevantie van het model
•Gehele model
•Individuele predictoren
6. Rapportage
Meetniveau’s - Nominaal
- Ordinaal
- Interval
- Ratio
Nominaal Categorieën zonder natuurlijke ordening of
rangorde.
→ Voorbeeld: Geslacht (man, vrouw),
Kleuren (rood, blauw, groen)
Ordinaal Categorieën met een natuurlijke rangorde,
maar de afstand tussen de categorieën is
niet uniform.
→ Voorbeeld: Opleidingsniveau (lagere
, school, middelbare school, universiteit),
Klanttevredenheidsscore (laag, gemiddeld,
hoog).
Interval Categorieën met een uniforme afstand
tussen opeenvolgende punten, maar er is
geen absoluut nulpunt.
→ Voorbeeld: Temperatuur gemeten in
Celsius of Fahrenheit (geen absoluut
nulpunt, maar gelijke intervallen tussen
graden).
Ratio Categorieën met een uniforme afstand
tussen opeenvolgende punten en een
absoluut nulpunt.
→ Voorbeeld: Gewicht, lengte, inkomen
(hebben een absoluut nulpunt en gelijke
intervallen).
Lineariteit De veronderstelling dat de verandering in
de afhankelijke variabele als gevolg van
een verandering in de onafhankelijke
variabelen wordt beschreven door een
constante helling.
Multicollineariteit Fenomeen waarbij twee of meer
onafhankelijke variabelen sterk
gecorreleerd zijn.
→ Kan problematisch zijn omdat het de
interpretatie van de individuele effecten van
de variabelen bemoeilijkt
Homoscedasticiteit Aanname dat de variantie (spreiding) van
de fouttermen (residuen) over verschillende
niveaus van de voorspellende variabelen
constant is.
Met andere woorden, het suggereert dat de
onzekerheid in de voorspellingen gelijk blijft,
ongeacht de waarden van de
onafhankelijke variabelen
Outlier Uitschieter
MLR interpreteren 1. Is het volledige regressiemodel
→ Goodness of fit significant? (F-toets en t-toets)
→ Als F of t < dan a (alpha) dan wordt H0
verworpen
2. Verklaren de predictoren samen variatie
in Y? (R2)
R-squared (R2) Verklaarde variantie
→ Geeft aan in hoeverre de voorspelde
waarden van het model overeenkomen met
de werkelijke observaties.
Regressievergelijking Ŷ = b0 (intercept) + b1 (slope) • x1
(onafhankelijke variabele/ predictor)
Modelvergelijking Y (uitkomst) = X (model) + e
(voorspellingsfout)
Y Afhankelijke variabele (die wil je
voorspellen)
- Y = geobserveerde waarde Y
Ŷ = voorspelde waarde Y
X Onafhankelijke variabele(n)
b0 Intercept/ constant/a
→ De intercept (β0) vertegenwoordigt het
voorspelde gemiddelde van de afhankelijke
variabele (Y) wanneer de waarde van de
onafhankelijke variabele (X) gelijk is aan
nul. Met andere woorden, het is het snijpunt
van de regressielijn met de y-as.
→ B0 = constante = waarde in de regel
unstandardized bij intercept (tabel
coefficients).
b1 Regressiecoëfficiënt/ slope
→ Vertelt hoeveel de afhankelijke variabele
verandert bij toename van 1 punt op de
onafhankelijke variabele
e Voorspellingsfout/ residual
→ Bevat alle factoren die niet zijn
opgenomen in het model en die de
variabiliteit in de afhankelijke variabele niet
kunnen verklaren door de onafhankelijke
variabele(n).
→e=Y-Ŷ
→ positieve e: onderschatting door model
, negatieve e: overschatting door model
e’s zijn normaal verdeeld met gemiddelde 0
Multipele regressie Beoordelen of je iemand waarde op een
kenmerk kan voorspellen aan de hand van
kennis over andere kenmerken
(predictoren)?
Doel multipele regressie Kunnen we iemands waarde op een
kenmerk voorspellen aan de hand van
kennis over andere kenmerken
(predictoren)?
→ Beschrijven van relaties tussen
variabelen (regressiemodel)
→ Toetsen van hypothesen over relaties
(significantie)
→ Kwantificeren van relaties (effectgrootte)
→ Kwalificeren van relaties (klein, medium,
groot)
→ Beoordelen relevantie relaties
(subjectief)
→ Voorspellen van iemands waarde met
regressiemodel
Let op: we doen geen uitspraken over
causaliteit!
Predictor
Stappen multipele regressie 1. Opstellen onderzoeksvraag
2. Data verzamelen
3. Opstellen model
4. Evaluatie assumpties
5. Evaluatie statistische fit én praktische
relevantie van het model
•Gehele model
•Individuele predictoren
6. Rapportage
Meetniveau’s - Nominaal
- Ordinaal
- Interval
- Ratio
Nominaal Categorieën zonder natuurlijke ordening of
rangorde.
→ Voorbeeld: Geslacht (man, vrouw),
Kleuren (rood, blauw, groen)
Ordinaal Categorieën met een natuurlijke rangorde,
maar de afstand tussen de categorieën is
niet uniform.
→ Voorbeeld: Opleidingsniveau (lagere
, school, middelbare school, universiteit),
Klanttevredenheidsscore (laag, gemiddeld,
hoog).
Interval Categorieën met een uniforme afstand
tussen opeenvolgende punten, maar er is
geen absoluut nulpunt.
→ Voorbeeld: Temperatuur gemeten in
Celsius of Fahrenheit (geen absoluut
nulpunt, maar gelijke intervallen tussen
graden).
Ratio Categorieën met een uniforme afstand
tussen opeenvolgende punten en een
absoluut nulpunt.
→ Voorbeeld: Gewicht, lengte, inkomen
(hebben een absoluut nulpunt en gelijke
intervallen).
Lineariteit De veronderstelling dat de verandering in
de afhankelijke variabele als gevolg van
een verandering in de onafhankelijke
variabelen wordt beschreven door een
constante helling.
Multicollineariteit Fenomeen waarbij twee of meer
onafhankelijke variabelen sterk
gecorreleerd zijn.
→ Kan problematisch zijn omdat het de
interpretatie van de individuele effecten van
de variabelen bemoeilijkt
Homoscedasticiteit Aanname dat de variantie (spreiding) van
de fouttermen (residuen) over verschillende
niveaus van de voorspellende variabelen
constant is.
Met andere woorden, het suggereert dat de
onzekerheid in de voorspellingen gelijk blijft,
ongeacht de waarden van de
onafhankelijke variabelen
Outlier Uitschieter
MLR interpreteren 1. Is het volledige regressiemodel
→ Goodness of fit significant? (F-toets en t-toets)
→ Als F of t < dan a (alpha) dan wordt H0
verworpen
2. Verklaren de predictoren samen variatie
in Y? (R2)
R-squared (R2) Verklaarde variantie
→ Geeft aan in hoeverre de voorspelde
waarden van het model overeenkomen met
de werkelijke observaties.