BIVARIATE REGRESSIE
= samenhang onafhankelijke variabele X i (predictor) en afhankelijke variabele Y i
onafhankelijke afhankelijke
variabele X i variabele Y i
(continue variabele) (continue variabele)
PERFORM PTRUST
GRAFISCHE VOORSTELLING
Scatterplot : afhankelijke op y-as en onafhankelijke op x-as
: puntenwolk van geobserveerde waarden
Regressierechte : lineaire rechte door puntenwolk
: weerspiegelt verwachte waarde voor Y voor observatie X
: spreiding rond recht (hoe kleiner, hoe accurater)
MODEL BIVARIATE REGRESSIE
Y i=α + β X i +ε i : populatie
E ( Y i ) =α + β X i ^
: verwachte waarde E ( Y i ) of Y i
Y i= α^ + β^ X i +ε i : residu ε i=Y i− Y^ i (verschil geobserveerde en verwachte score obv
rechte)
Assumpties betreffende de verdeling
- Residu normaal verdeeld
- Gemiddelde van residu is nul
- Variantie residu gelijk voor elke x
(homoscedasticiteit)
- Residuen niet gecorreleerd voor verschillende
waarden
- Afhankelijke variabele beschouwd als
stochastische
doelstellingen bivariate regressie
I. best passende rechte zoeken voor puntenwolk (α en β )
II. sterkte van verband tussen X en Y uitdrukken (correlatie en covariantie)
,III. inferentie: kunnen veralgemenen naar populatie (adhv significantietesten)
, OLS-SCHATTERS
= regressieparameters schatten adhv OLS-schatters (ordinary least squares)
Kleinste kwadratencriterium
= som van de gekwadrateerde residuen minimaliseren
= kleinste SSE (verticale afstand tussen geobserveerde waarde en regressierechte)
N N
SSE=∑ (¿ Y i−Y^ i )2=∑ ¿ ¿ ¿ ¿
i=1 i=1
α en β zodat SSE minimaal is < afleiding gelijk aan 0 (minimum)
s xy
⟶ α =Y −β X en β= 2
sx
Eigenschappen OLS-schatters
o best linear unbiased estimates (BLUE) < voorwaarden (Gaus-Markov condities)
o onvertekend < gemiddelde regressicoëfficiënten ≈
populatieparameters
o laagste variantie
Interpretatie regressieparameters
α : verwachte waarde voor afhankelijke variabele als onafhankelijke variabele = 0
β : verandering in verwachte waarde van y per éénheidswijziging in x
β <0 : negatieve lineaire relatie
β=0 : geen lineaire relatie
β >0 : positieve lineaire relatie
ε : verschil tussen geobserveerde waarde van y waarde op regressierechte (fout
bij predictie)
≈ variantie in y die niet verklaard kan worden door variantie in x
ε > 0 : onderschatting (geobserveerde waarde hoger dan rechte)
ε =0 : geobserveerde waarde ligt op rechte
ε < 0 : overschatting (geobserveerde waarde lager dan rechte)
= samenhang onafhankelijke variabele X i (predictor) en afhankelijke variabele Y i
onafhankelijke afhankelijke
variabele X i variabele Y i
(continue variabele) (continue variabele)
PERFORM PTRUST
GRAFISCHE VOORSTELLING
Scatterplot : afhankelijke op y-as en onafhankelijke op x-as
: puntenwolk van geobserveerde waarden
Regressierechte : lineaire rechte door puntenwolk
: weerspiegelt verwachte waarde voor Y voor observatie X
: spreiding rond recht (hoe kleiner, hoe accurater)
MODEL BIVARIATE REGRESSIE
Y i=α + β X i +ε i : populatie
E ( Y i ) =α + β X i ^
: verwachte waarde E ( Y i ) of Y i
Y i= α^ + β^ X i +ε i : residu ε i=Y i− Y^ i (verschil geobserveerde en verwachte score obv
rechte)
Assumpties betreffende de verdeling
- Residu normaal verdeeld
- Gemiddelde van residu is nul
- Variantie residu gelijk voor elke x
(homoscedasticiteit)
- Residuen niet gecorreleerd voor verschillende
waarden
- Afhankelijke variabele beschouwd als
stochastische
doelstellingen bivariate regressie
I. best passende rechte zoeken voor puntenwolk (α en β )
II. sterkte van verband tussen X en Y uitdrukken (correlatie en covariantie)
,III. inferentie: kunnen veralgemenen naar populatie (adhv significantietesten)
, OLS-SCHATTERS
= regressieparameters schatten adhv OLS-schatters (ordinary least squares)
Kleinste kwadratencriterium
= som van de gekwadrateerde residuen minimaliseren
= kleinste SSE (verticale afstand tussen geobserveerde waarde en regressierechte)
N N
SSE=∑ (¿ Y i−Y^ i )2=∑ ¿ ¿ ¿ ¿
i=1 i=1
α en β zodat SSE minimaal is < afleiding gelijk aan 0 (minimum)
s xy
⟶ α =Y −β X en β= 2
sx
Eigenschappen OLS-schatters
o best linear unbiased estimates (BLUE) < voorwaarden (Gaus-Markov condities)
o onvertekend < gemiddelde regressicoëfficiënten ≈
populatieparameters
o laagste variantie
Interpretatie regressieparameters
α : verwachte waarde voor afhankelijke variabele als onafhankelijke variabele = 0
β : verandering in verwachte waarde van y per éénheidswijziging in x
β <0 : negatieve lineaire relatie
β=0 : geen lineaire relatie
β >0 : positieve lineaire relatie
ε : verschil tussen geobserveerde waarde van y waarde op regressierechte (fout
bij predictie)
≈ variantie in y die niet verklaard kan worden door variantie in x
ε > 0 : onderschatting (geobserveerde waarde hoger dan rechte)
ε =0 : geobserveerde waarde ligt op rechte
ε < 0 : overschatting (geobserveerde waarde lager dan rechte)