CH11: REGRESSIE EN CORRELATIE
METHODEN
INTRODUCTIE
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen in dezelfde
steekproef met elkaar in verband worden gebracht
2. Meervoudige regressieanalyse, waarbij rekening wordt gehouden met de relatie tussen meer dan
2 variabelen tegelijk
3. Lineaire regressiemethoden waarbij we leren hoe we een uitkomstvariabele y lineair (continu)
kunnen relateren aan een of meer voorspellende (predictor) x variabelen (continu of categorisch)
DUS: kijken of verbanden echt zijn of per toeval
ALGEMENE CONCEPTEN
- x = afh variabele, y = onafh variabele
- Lineaire relatie tussen x en y = regressielijn = geschatte lijn die zoveel mogelijk punten verbind
y = a + bx
- a = intercept, b = helling
- DOEL : y voorspellen ifv x
MAAR: er zit altijd een fout op de voorspelling tov werkelijkheid
DUS: voor elke x waarde zijn er meerdere y waarden
Bv: er zijn meerdere moeders met een estriol level van 12
mg/dag maar die toch andere geboortegewichten hebben
DUS: error term toevoegen aan rechte
y = a + bx + e
met de veronderstelling dat e normaal verdeeld is met
gemiddelde 0 en variantie s^2
DUS: we verwachten dat de meeste voorspellingen
dicht bij de rechte liggen
- DUS: voorwaarde voor regressie
= e moet normaal verdeeld zijn met homoscedasticiteit (alle curves zijn even breed)
Pos verband Neg verband Geen verband
1
,VOORBEELD: OBSTETRICS
- X = estriol level , Y = geboortegewicht
- DOEL : geboortegewicht voorspellen ifv estriol level
Bv: moeder heeft 12 mg estriol/ dag => kind zal 2800g wegen
REGRESSIELIJN FITTEN – METHOD OF LEAST SQUARES
Regressie = rechte fitten die het beste aansluit bij een puntenwolk
di = yi – ŷi -> fouten die je zo klein mogelijk wilt houden
S1 = ∑|di| -> S = ∑di2
Voorspelde regressielijn = least-squares lijn -> y = a + bx
- Minimaliseert de som van de gekwadrateerde afstanden van de punten van de lijn gegeven door S
- Methode om de parameters van een regressielijn te schatten
BEREKENEN VAN DE LEAST-SQUARES LIJN
Raw sum of squares
Corrected sum of squares
Raw sum of cross products
Corrected sum of cross products
Helling
Intercept
2
,VOORBEELD: OBSTETRICS
DOEL: vrouwen die een baby met laag geboortegewicht baren identificeren
- y = 21,52 + 0,608x
- b = 0,608 => y stijgt met 0,608 units per 1 mg/24u
DUS: de het verwachte geboortegewicht stijgt met 61g voor elke 1mg/24u het estriol stijgt
- verwachte geboortegewicht van een zwangere vrouw met een estriol level van 10 mg/24u
y = 21,52 + 0,608*10 = 27,52 hg
- voor welk estriol niveau zou het verwachte geboortegewicht 4,5kg zijn?
45 = 21,52 + 0,608x <-> x = 39 mg/24u
GEVOLGTREKKIN GEN OVER PARAMETERS UIT REGRESSIELIJNEN
Nagaan of hetgeen we observeren geen toeval is
checken of helling statistisch significant verschillend van 0 is
*residual component: afwijking van voorspelde waarde tov echte waarde
**regressie component
***soms van beide componenten
Gewenst: grote regressie component en kleine residual
component
WANT: fouten klein en voorspelling accuraat houden
geeft significantie
Total sum of squares (total SS, Lyy)
Reg SS + Res SS
Regression sum of squares (reg SS)
L2xy/Lxx
Residual sum of squares (res SS)
Tot SS – Reg SS
Lyy – L2xy/Lxx
SIMPELE LINEAIRE REGRESSIE
F TEST VOOR SIMPELE LINEAIRE REGRESSIE
Goedheid van de fit = Reg SS/ Res SS
Dus: je wil goede fit, met kleine Res SS en grote Reg SS
Regression mean square (Reg MS) Reg SS/k
Met k = aantal x-variabelen
Residual mean square (Res MS, S2y.x) Reg SS/(n-k-1)
Met k = aantal x-variabelen
Met n = steekproefgrootte
3
, VOORBEELD: OBSTETRICS
Goedheid van de fit testen door de significantie van de regressielijn -> testen of b (helling = 0,608) significant
verschillend is van 0
R 2 OF R-KWADRAAT
= maat voor hoe goed de fit van de rechte door de punten is, drukt uit hoe goed het model is
= reg SS/ tot SS
= deel van de variantie van y dat verklaard wordt door het model en dus door de voorspellende variabelen die
in het model opgenomen zijn
= hoe groter, hoe beter
- R2 = 1 alle variantie van y is verklaard door variantie van x, alle punten liggen op de
regressielijn
- R2 = 0 x geeft geen info over y en de variantie van y is hetzelfde als je x kent of niet kent
- 0 < R2 < 1 voor een gegeven x-waarde is de variantie van y kleiner dan dat er geen x-waarde
gegeven zou zijn, maar wel nog groter dan 0
! simpele lineaire regressie: R2 = r2 met r = Pearson correlatie coëfficiënt !
4
METHODEN
INTRODUCTIE
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen in dezelfde
steekproef met elkaar in verband worden gebracht
2. Meervoudige regressieanalyse, waarbij rekening wordt gehouden met de relatie tussen meer dan
2 variabelen tegelijk
3. Lineaire regressiemethoden waarbij we leren hoe we een uitkomstvariabele y lineair (continu)
kunnen relateren aan een of meer voorspellende (predictor) x variabelen (continu of categorisch)
DUS: kijken of verbanden echt zijn of per toeval
ALGEMENE CONCEPTEN
- x = afh variabele, y = onafh variabele
- Lineaire relatie tussen x en y = regressielijn = geschatte lijn die zoveel mogelijk punten verbind
y = a + bx
- a = intercept, b = helling
- DOEL : y voorspellen ifv x
MAAR: er zit altijd een fout op de voorspelling tov werkelijkheid
DUS: voor elke x waarde zijn er meerdere y waarden
Bv: er zijn meerdere moeders met een estriol level van 12
mg/dag maar die toch andere geboortegewichten hebben
DUS: error term toevoegen aan rechte
y = a + bx + e
met de veronderstelling dat e normaal verdeeld is met
gemiddelde 0 en variantie s^2
DUS: we verwachten dat de meeste voorspellingen
dicht bij de rechte liggen
- DUS: voorwaarde voor regressie
= e moet normaal verdeeld zijn met homoscedasticiteit (alle curves zijn even breed)
Pos verband Neg verband Geen verband
1
,VOORBEELD: OBSTETRICS
- X = estriol level , Y = geboortegewicht
- DOEL : geboortegewicht voorspellen ifv estriol level
Bv: moeder heeft 12 mg estriol/ dag => kind zal 2800g wegen
REGRESSIELIJN FITTEN – METHOD OF LEAST SQUARES
Regressie = rechte fitten die het beste aansluit bij een puntenwolk
di = yi – ŷi -> fouten die je zo klein mogelijk wilt houden
S1 = ∑|di| -> S = ∑di2
Voorspelde regressielijn = least-squares lijn -> y = a + bx
- Minimaliseert de som van de gekwadrateerde afstanden van de punten van de lijn gegeven door S
- Methode om de parameters van een regressielijn te schatten
BEREKENEN VAN DE LEAST-SQUARES LIJN
Raw sum of squares
Corrected sum of squares
Raw sum of cross products
Corrected sum of cross products
Helling
Intercept
2
,VOORBEELD: OBSTETRICS
DOEL: vrouwen die een baby met laag geboortegewicht baren identificeren
- y = 21,52 + 0,608x
- b = 0,608 => y stijgt met 0,608 units per 1 mg/24u
DUS: de het verwachte geboortegewicht stijgt met 61g voor elke 1mg/24u het estriol stijgt
- verwachte geboortegewicht van een zwangere vrouw met een estriol level van 10 mg/24u
y = 21,52 + 0,608*10 = 27,52 hg
- voor welk estriol niveau zou het verwachte geboortegewicht 4,5kg zijn?
45 = 21,52 + 0,608x <-> x = 39 mg/24u
GEVOLGTREKKIN GEN OVER PARAMETERS UIT REGRESSIELIJNEN
Nagaan of hetgeen we observeren geen toeval is
checken of helling statistisch significant verschillend van 0 is
*residual component: afwijking van voorspelde waarde tov echte waarde
**regressie component
***soms van beide componenten
Gewenst: grote regressie component en kleine residual
component
WANT: fouten klein en voorspelling accuraat houden
geeft significantie
Total sum of squares (total SS, Lyy)
Reg SS + Res SS
Regression sum of squares (reg SS)
L2xy/Lxx
Residual sum of squares (res SS)
Tot SS – Reg SS
Lyy – L2xy/Lxx
SIMPELE LINEAIRE REGRESSIE
F TEST VOOR SIMPELE LINEAIRE REGRESSIE
Goedheid van de fit = Reg SS/ Res SS
Dus: je wil goede fit, met kleine Res SS en grote Reg SS
Regression mean square (Reg MS) Reg SS/k
Met k = aantal x-variabelen
Residual mean square (Res MS, S2y.x) Reg SS/(n-k-1)
Met k = aantal x-variabelen
Met n = steekproefgrootte
3
, VOORBEELD: OBSTETRICS
Goedheid van de fit testen door de significantie van de regressielijn -> testen of b (helling = 0,608) significant
verschillend is van 0
R 2 OF R-KWADRAAT
= maat voor hoe goed de fit van de rechte door de punten is, drukt uit hoe goed het model is
= reg SS/ tot SS
= deel van de variantie van y dat verklaard wordt door het model en dus door de voorspellende variabelen die
in het model opgenomen zijn
= hoe groter, hoe beter
- R2 = 1 alle variantie van y is verklaard door variantie van x, alle punten liggen op de
regressielijn
- R2 = 0 x geeft geen info over y en de variantie van y is hetzelfde als je x kent of niet kent
- 0 < R2 < 1 voor een gegeven x-waarde is de variantie van y kleiner dan dat er geen x-waarde
gegeven zou zijn, maar wel nog groter dan 0
! simpele lineaire regressie: R2 = r2 met r = Pearson correlatie coëfficiënt !
4