1
Hoofdstuk 8: Simple lineair regression: simple but powerful
8.1. Data example: Prediction of 100m winning time in 2020
Dit zijn de winnende tijden van
de 100m olympische finales voor
mannen
à neerwaartse trend
àvraag: wat zou een plausibele
predictor zijn voor de winnende
tijd voor de olympische spelen in
2020?
à om deze vraag te
beantwoorden: simple lineair
regressie model met winnende
tijd als criterium en jaar als
predictor
à resultaat: een voldoende
goeie fit met het model
- R2 = 0.86 (met 95% BI van
0.8 tot 0.93
- Voor 2020: tijd van 9.6
seconden voorspeld (met 80% BI
van 9.36 tot 9.84)
- De winnende tijd zal elk
jaar stijgen met een 4.6
honderdste seconden (met 95%
BI van 3.9 tot 5.4)
LIMITATIES:
- Lineair model is niet realistisch: het voorspel een tijd van -0.22 seconden in 2898
- We moeten voorzichtig zijn met het maken van voorspellingen die in de toekomst
liggen (exploration); het jaar 2020 is een een punt buiten het gebied van de
observaties
8.2. Exploratieve data analysis
De meest voorkomende manier om data grafisch te exploreren is dmv een scatterplot + ook
vaak gekeken naar de waarden van) de data in de tabel
, 2
8.3. The simple lineair regression model
Notatie
We gaan ervan uit dat er n eenheden gemeten zijn (personen, dieren, 100m olympische
spelen winnaars…) op 2 variabelen: de criterium variabele (winnende tijd) en een predictor
variabele (jaar)
à voor een specifieke eenheid hebben we het koppel (yi, xi) gemeten of (wtimei, jaari)
Het populatiemodel
In de populatie wordt het simple lineair regression model als volgt gedefinieerd:
𝑖𝑖𝑑
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖" met 𝜖" 𝑁(0, 𝜎 3 )
∼
à 𝛽% & 𝛽' zijn de regressiecoëfficiënten
à omdat het gemiddelde van 𝜖" = 0 is het conditionele gemiddelde van yi gegeven xi gelijk
aan: 𝐸(𝑦" |𝑥" ) = 𝛽% + 𝛽' 𝑥"
à dus het algemeen gemiddelde van y (zonder te verwijzen naar een bepaalde persoon): :
𝐸(𝑦|𝑥) = 𝛽% + 𝛽' 𝑥
Het grondvlak (xy vlak) bevat het scatterplot
van de winnende tijden en de zwarte lijn
representeert de populatie regressielijn
à voor 4 predictorwaarden worden de
populatie normaalverdelingen weergegeven:
hun gemiddelde is de waarde op de punt en
ze hebben allemaal een constante variantie
De functionele relatie tussen de verwachte waarde van y en x = de regressie van y op x
à de verwachte waarde van y varieert wanneer x varieert; deze relatie is lineair en wordt
gedetermineerd door de regressiecoëfficiënten:
- 𝛽% als intercept = de verwachte waarde van y wanneer x = o; 𝐸(𝑦|0) = 𝛽% + 𝛽' ∙ 0
- 𝛽' als regressiegewicht/ slope
, 3
Interpretatie van 𝜷𝟏
b1 = de verwachte verandering in y door x met 1 eenheid te verhogen (van x naar x+1)
𝐸(𝑦|𝑥 + 1) − 𝐸(𝑦|𝑥) = (𝛽% + 𝛽' (𝑥 + 1)) − (𝛽% + 𝛽' 𝑥) = 𝛽'
- Als b1 > 0 dan zal de regressielijn stijgen met een toenemende x
- Als b1 < 0 dan zal de regressielijn dalen met een toenemende x
- Als b1 = 0 dan is er in de populatie geen verband tussen y en x (bij een veranderende
x gebeurd er niets met y)
!! b1 heeft gewoonlijk geen causale interpretatie; het hangt af van het studie design of
uitspraken over x als oorzaak voor y toegelaten zijn (in de meeste studies meet b1 slechts de
associatie en niets meer)
Toegepast op ons voorbeeld: Wtime = 32.9231 - 0.01155*jaar
- bO = 32.9231
- b1 = -0.01155
à een toename van 1 jaar gaat gepaard met een vermindering van 0.01155 seconden in de
winnende tijd (b1 wordt gemeten in seconden per jaar)
à MAAR: olympische spelen is slechts om de 4 jaar, dus is het meer zinvol om te kijken naar
periodes van 4 jaar + de vermindering in seconden is eerder klein, dus is het meer zinvol om
te kijken naar centiseconden (100e van een seconde)
𝑠𝑒𝑐𝑜𝑛𝑑𝑒
𝛽'
𝑗𝑎𝑎𝑟
100𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑𝑒𝑛
= 𝛽'
1
4 𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ 𝛽'
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ (−0.01155)
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= −4.61895
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
à DUS: de winnende tijd zal elke olympiade zakken met 4,6 centiseconden
Interpretatie van b0 en centreren
De verwachte winnende tijd voor jaar 0 is 32.9231 seconden
à dit is niet erg betekenisvol: wanneer je meer dan 2000 jaar terug gaat in de tijd kan je niet
verwachten dat ditzelfde model geldig blijft
à om te vermijden dat de waarden voor het intercept zinloos zijn worden predictoren vaak
gecentreerd
- Stel nu dat we als predictor niet x gebruiken, maar x-a (waarbij a een arbitrair
gekozen constante is)
, 4
- Vaak wordt als a het gemiddelde van x genomen: 𝑎 = 𝑥̅ of een betekenisvol getal (bv
het jaar 1900 in ons voorbeeld)
- Dit betekent dat een nieuwe predictor x* wordt gecreëerd door a af te trekken van
alle individuele waarden van x (x* = xi – a)
à we kijken nu opnieuw naar het lineaire regressie model:
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖"
= 𝛽% + 𝛽' 𝑥" − 𝛽' 𝑎 + 𝛽' 𝑎 + 𝜖"
= (𝛽% + 𝛽' 𝑎) + 𝛽' (𝑥" − 𝑎) + 𝜖"
= 𝛽%∗ + 𝛽' 𝑥"∗ + 𝜖"
à nu geldt er dat: 𝐸(𝑦|𝑥 ∗ = 0) = 𝛽%∗ ⇔ 𝐸(𝑦|𝑥 = 𝑎) = 𝛽R∗ wat betekent dat 𝛽%∗ de
verwachte waarde van y is wanneer x gelijk is aan a
à toegepast op ons voorbeeld: 𝛽%∗ = 𝛽% + 𝛽' 𝑎 = 32.9231 + 1900 ∙ (−0.01155) ≈ 10.98
(de verwachte winnende tijd op de 100m in de olympische spelen van 1900 is 10.98
seconden)
à centreren is niet noodzakelijk wanneer 0 een aanvaardbare waarde is
8.5. Statistical inference for the simple lineair regression model
Schatting van de regressiecoëfficiënten
De parameters zullen geschat worden via de kleinste kwadrantenmethode
à waarden vinden voor b0 en b1 zodat Q(b0, b1) = ∑W"X'(𝑦" − (𝛽% + 𝛽' 𝑥" ))3 minimaal is
- 𝛽Y% = 𝑦Z − 𝛽Y' 𝑥̅
∑_ ([ ][̅ )(^\ ]^Z) ce
- 𝛽Y' = \`a_ \
∑\`a([\ ][̅ )b
of 𝑟[^ de
cf
à deze geschatte parameter zullen de beste passende lijn bepalen tussen de
observatiepunten; zo gekozen zodat de som van de gekwadrateerde afstanden tussen 𝑦g" en
𝑦" zo klein mogelijk is (deze afstand = het residu, 𝑒" = 𝑦" − 𝑦g" )
à de waarde van die geminimaliseerde kleinste kwadrantenfunctie Q(b0, b1) wordt ook hier
de error sum of squares (SSE(x)) genoemd met bijhorend aantal vrijheidsgraden (n -
#geschatte parameters=2); wanneer we SSE(X) delen door het aantal vrijheidsgraden krijgen
we MSE(x) als schatter voor 𝜎 3 (= de variantie rond de regressielijn)
Hoofdstuk 8: Simple lineair regression: simple but powerful
8.1. Data example: Prediction of 100m winning time in 2020
Dit zijn de winnende tijden van
de 100m olympische finales voor
mannen
à neerwaartse trend
àvraag: wat zou een plausibele
predictor zijn voor de winnende
tijd voor de olympische spelen in
2020?
à om deze vraag te
beantwoorden: simple lineair
regressie model met winnende
tijd als criterium en jaar als
predictor
à resultaat: een voldoende
goeie fit met het model
- R2 = 0.86 (met 95% BI van
0.8 tot 0.93
- Voor 2020: tijd van 9.6
seconden voorspeld (met 80% BI
van 9.36 tot 9.84)
- De winnende tijd zal elk
jaar stijgen met een 4.6
honderdste seconden (met 95%
BI van 3.9 tot 5.4)
LIMITATIES:
- Lineair model is niet realistisch: het voorspel een tijd van -0.22 seconden in 2898
- We moeten voorzichtig zijn met het maken van voorspellingen die in de toekomst
liggen (exploration); het jaar 2020 is een een punt buiten het gebied van de
observaties
8.2. Exploratieve data analysis
De meest voorkomende manier om data grafisch te exploreren is dmv een scatterplot + ook
vaak gekeken naar de waarden van) de data in de tabel
, 2
8.3. The simple lineair regression model
Notatie
We gaan ervan uit dat er n eenheden gemeten zijn (personen, dieren, 100m olympische
spelen winnaars…) op 2 variabelen: de criterium variabele (winnende tijd) en een predictor
variabele (jaar)
à voor een specifieke eenheid hebben we het koppel (yi, xi) gemeten of (wtimei, jaari)
Het populatiemodel
In de populatie wordt het simple lineair regression model als volgt gedefinieerd:
𝑖𝑖𝑑
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖" met 𝜖" 𝑁(0, 𝜎 3 )
∼
à 𝛽% & 𝛽' zijn de regressiecoëfficiënten
à omdat het gemiddelde van 𝜖" = 0 is het conditionele gemiddelde van yi gegeven xi gelijk
aan: 𝐸(𝑦" |𝑥" ) = 𝛽% + 𝛽' 𝑥"
à dus het algemeen gemiddelde van y (zonder te verwijzen naar een bepaalde persoon): :
𝐸(𝑦|𝑥) = 𝛽% + 𝛽' 𝑥
Het grondvlak (xy vlak) bevat het scatterplot
van de winnende tijden en de zwarte lijn
representeert de populatie regressielijn
à voor 4 predictorwaarden worden de
populatie normaalverdelingen weergegeven:
hun gemiddelde is de waarde op de punt en
ze hebben allemaal een constante variantie
De functionele relatie tussen de verwachte waarde van y en x = de regressie van y op x
à de verwachte waarde van y varieert wanneer x varieert; deze relatie is lineair en wordt
gedetermineerd door de regressiecoëfficiënten:
- 𝛽% als intercept = de verwachte waarde van y wanneer x = o; 𝐸(𝑦|0) = 𝛽% + 𝛽' ∙ 0
- 𝛽' als regressiegewicht/ slope
, 3
Interpretatie van 𝜷𝟏
b1 = de verwachte verandering in y door x met 1 eenheid te verhogen (van x naar x+1)
𝐸(𝑦|𝑥 + 1) − 𝐸(𝑦|𝑥) = (𝛽% + 𝛽' (𝑥 + 1)) − (𝛽% + 𝛽' 𝑥) = 𝛽'
- Als b1 > 0 dan zal de regressielijn stijgen met een toenemende x
- Als b1 < 0 dan zal de regressielijn dalen met een toenemende x
- Als b1 = 0 dan is er in de populatie geen verband tussen y en x (bij een veranderende
x gebeurd er niets met y)
!! b1 heeft gewoonlijk geen causale interpretatie; het hangt af van het studie design of
uitspraken over x als oorzaak voor y toegelaten zijn (in de meeste studies meet b1 slechts de
associatie en niets meer)
Toegepast op ons voorbeeld: Wtime = 32.9231 - 0.01155*jaar
- bO = 32.9231
- b1 = -0.01155
à een toename van 1 jaar gaat gepaard met een vermindering van 0.01155 seconden in de
winnende tijd (b1 wordt gemeten in seconden per jaar)
à MAAR: olympische spelen is slechts om de 4 jaar, dus is het meer zinvol om te kijken naar
periodes van 4 jaar + de vermindering in seconden is eerder klein, dus is het meer zinvol om
te kijken naar centiseconden (100e van een seconde)
𝑠𝑒𝑐𝑜𝑛𝑑𝑒
𝛽'
𝑗𝑎𝑎𝑟
100𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑𝑒𝑛
= 𝛽'
1
4 𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ 𝛽'
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ (−0.01155)
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= −4.61895
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
à DUS: de winnende tijd zal elke olympiade zakken met 4,6 centiseconden
Interpretatie van b0 en centreren
De verwachte winnende tijd voor jaar 0 is 32.9231 seconden
à dit is niet erg betekenisvol: wanneer je meer dan 2000 jaar terug gaat in de tijd kan je niet
verwachten dat ditzelfde model geldig blijft
à om te vermijden dat de waarden voor het intercept zinloos zijn worden predictoren vaak
gecentreerd
- Stel nu dat we als predictor niet x gebruiken, maar x-a (waarbij a een arbitrair
gekozen constante is)
, 4
- Vaak wordt als a het gemiddelde van x genomen: 𝑎 = 𝑥̅ of een betekenisvol getal (bv
het jaar 1900 in ons voorbeeld)
- Dit betekent dat een nieuwe predictor x* wordt gecreëerd door a af te trekken van
alle individuele waarden van x (x* = xi – a)
à we kijken nu opnieuw naar het lineaire regressie model:
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖"
= 𝛽% + 𝛽' 𝑥" − 𝛽' 𝑎 + 𝛽' 𝑎 + 𝜖"
= (𝛽% + 𝛽' 𝑎) + 𝛽' (𝑥" − 𝑎) + 𝜖"
= 𝛽%∗ + 𝛽' 𝑥"∗ + 𝜖"
à nu geldt er dat: 𝐸(𝑦|𝑥 ∗ = 0) = 𝛽%∗ ⇔ 𝐸(𝑦|𝑥 = 𝑎) = 𝛽R∗ wat betekent dat 𝛽%∗ de
verwachte waarde van y is wanneer x gelijk is aan a
à toegepast op ons voorbeeld: 𝛽%∗ = 𝛽% + 𝛽' 𝑎 = 32.9231 + 1900 ∙ (−0.01155) ≈ 10.98
(de verwachte winnende tijd op de 100m in de olympische spelen van 1900 is 10.98
seconden)
à centreren is niet noodzakelijk wanneer 0 een aanvaardbare waarde is
8.5. Statistical inference for the simple lineair regression model
Schatting van de regressiecoëfficiënten
De parameters zullen geschat worden via de kleinste kwadrantenmethode
à waarden vinden voor b0 en b1 zodat Q(b0, b1) = ∑W"X'(𝑦" − (𝛽% + 𝛽' 𝑥" ))3 minimaal is
- 𝛽Y% = 𝑦Z − 𝛽Y' 𝑥̅
∑_ ([ ][̅ )(^\ ]^Z) ce
- 𝛽Y' = \`a_ \
∑\`a([\ ][̅ )b
of 𝑟[^ de
cf
à deze geschatte parameter zullen de beste passende lijn bepalen tussen de
observatiepunten; zo gekozen zodat de som van de gekwadrateerde afstanden tussen 𝑦g" en
𝑦" zo klein mogelijk is (deze afstand = het residu, 𝑒" = 𝑦" − 𝑦g" )
à de waarde van die geminimaliseerde kleinste kwadrantenfunctie Q(b0, b1) wordt ook hier
de error sum of squares (SSE(x)) genoemd met bijhorend aantal vrijheidsgraden (n -
#geschatte parameters=2); wanneer we SSE(X) delen door het aantal vrijheidsgraden krijgen
we MSE(x) als schatter voor 𝜎 3 (= de variantie rond de regressielijn)