Week 1 - Enkelvoudige Lineaire Regressie
Samenhang tussen twee variabelen:
● Tussen twee continue variabelen:
- Correlatie (covariantie)
● Tussen een continue en categorische variabele:
- 𝑡-toets voor twee gemiddelden (Agresti H.7)
● Tussen twee categorische variabelen:
- Kruistabel en 𝜒2-toets (Agresti H.8)
- Odds en odds-ratio (Agresti H.8)
- 𝑍-toets voor twee proporties (Agresti H.7)
● Samenhang tussen twee continue variabelen:
- Correlatie: sterkte en richting van het verband
- Regressie: modelleren van het verband
● Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere)
onafhankelijke variabele(n) met behulp van een lineair model.
Trek een rechte lijn door de puntenwolk
● Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte
lijn: lineair verband
● Afhankelijke variabele 𝑦 (in voorbeeld postlet)
- Te verklaren variabele, responsvariabele, uitkomstvariabele
- Interval- of ratioschaal
● Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
- Verklarende variabele, predictor
- Intervalschaal of dummyvariabele (binair, bijv. 0/1)
● De formule 𝑦 = 𝛼 + 𝛽𝑥 drukt observaties van 𝑦 uit als een lineaire functie van
observaties van 𝑥. De formule heeft een grafiek met een rechte lijn, met helling 𝛽 en
𝑦-constante 𝛼.
- Constante (intercept): waarde van 𝑦 als 𝑥 nul is; snijpunt met de 𝑦-as
- Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt
Voorbeeld: De impact van Sesamstraat
● Afhankelijke 𝑦 = postlet
● Onafhankelijke 𝑥 = postnumb
● Lineair verband: 𝑦 = 𝛼 + 𝛽𝑥
● Rechte lijn lijkt goed te passen maar blijft een vereenvoudiging van de werkelijkheid
(in de populatie)
● Waarden van de constante 𝛼 en de helling 𝛽 moeten geschat worden
● Model: ŷ = 0,443 + 0,862𝑥
● Of E(postlet) = 0,443 + 0,862postnumb
- Constante (0,443): verwacht waarde van postlet (𝑦) als postnumb (𝑥) gelijk is
aan 0
- Helling (0,862): gemiddelde stijging in postlet (𝑦) als postnumb (𝑥) één
eenheid stijgt
, ● Neem kind 133 in de dataset, die heeft een score op postnumb = 14. Wat voorspel je
voor 𝑦 (postlet)?
● Voorspelling: ŷ = 0,443 + 0,862 × 14 = 12,511
● Fout: y - ŷ = 13 - 12,511 = 0,489 → residu/error
Residuen
● De fout bij het schatten is e = y - ŷ = residu (uitleg voorspelfouten: ppt. week 1, slides
22-23).
● Het verschil tussen de geobserveerde waarde en de voorspelde waarde.
● SSE kan worden gezien als een ‘foutenmaat’; hoe slecht het model is.
● Beste regressielijn schatten via methode van kleinste kwadraten (OLS) door fouten
te minimaliseren:
- Maak de fouten zo klein mogelijk = maak de afstand van elk punt (observatie)
tot de regressielijn (voorspelling) zo klein mogelijk
- Minimaliseer daarmee de sum of squared errors SSE = ∑(y - ŷ)2
● Het minimaliseren van de SSE levert de geschatte waarden van de constante a en
de helling b (voorbeeld berekening van b, a en SSE: ppt. week 1, slides 27-28).
● Het geschatte model is ŷ = a + bx
Het lineaire regressiemodel
● Deterministisch model: voor elke waarde van x is er één y-waarde
● Onrealistisch: niet iedereen met dezelfde x heeft dezelfde y-score
● Voor elke x-groep is er een verdeling van y-scores
● Probabilistisch model: conditionele verdeling van y gegeven waarden van x
● Het model beschrijft hoe scores op y kunnen variëren voor elke waarde van x
Probabilistisch model
● Het model beschrijft de verdeling van y gegeven de waarden van x (conditionele
verdeling).
● Het deterministische deel geeft het gemiddelde (of verwachte waarde) E(y), dus van
y gegeven x:
E(y) = ɑ + βx
● Dit is de lineaire (enkelvoudige) regressievergelijking en geeft dus het verband
tussen x en het gemiddelde van y
, ● De regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van
de responsvariabele verandert als gevolg van de waarde van een verklarende
variabele.
Conditionele verdeling
● Gegeven een x-waarde is:
- de conditionele verdeling van y een normale verdeling
- met conditioneel gemiddelde E(y) (gegeven door de regressielijn)
- en constante conditionele standaarddeviatie σ
● Zie voor vergelijking met klassieke t-toets 2 gemiddelden: ppt. week 1, slides 36-38.
Conditionele SD
● Residu is de afstand van elk punt tot de regressielijn (oftewel tot het conditionele
gemiddelde van y)
● SSE is de kwadratensom rond het conditionele gemiddelde:
SSE = ∑(y - ŷ)2 = ∑e2
𝑆𝑆𝐸
● Variantie: s2 = 𝑛−2
= MSE
𝑆𝑆𝐸
● Geschatte SD: s = 𝑛−2
● Interpretatie van de mate van spreiding met behulp van de SD:
- 68% van de waarden ligt tussen -1σ en 1σ
- dus: 2σ vergelijken met de gehele schaal van y
Samenvattend
- De regressielijn geeft een voorspelling van het gemiddelde 𝐸(𝑦) van 𝑦 gegeven 𝑥: het
conditionele gemiddelde van 𝑦
Samenhang tussen twee variabelen:
● Tussen twee continue variabelen:
- Correlatie (covariantie)
● Tussen een continue en categorische variabele:
- 𝑡-toets voor twee gemiddelden (Agresti H.7)
● Tussen twee categorische variabelen:
- Kruistabel en 𝜒2-toets (Agresti H.8)
- Odds en odds-ratio (Agresti H.8)
- 𝑍-toets voor twee proporties (Agresti H.7)
● Samenhang tussen twee continue variabelen:
- Correlatie: sterkte en richting van het verband
- Regressie: modelleren van het verband
● Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere)
onafhankelijke variabele(n) met behulp van een lineair model.
Trek een rechte lijn door de puntenwolk
● Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte
lijn: lineair verband
● Afhankelijke variabele 𝑦 (in voorbeeld postlet)
- Te verklaren variabele, responsvariabele, uitkomstvariabele
- Interval- of ratioschaal
● Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
- Verklarende variabele, predictor
- Intervalschaal of dummyvariabele (binair, bijv. 0/1)
● De formule 𝑦 = 𝛼 + 𝛽𝑥 drukt observaties van 𝑦 uit als een lineaire functie van
observaties van 𝑥. De formule heeft een grafiek met een rechte lijn, met helling 𝛽 en
𝑦-constante 𝛼.
- Constante (intercept): waarde van 𝑦 als 𝑥 nul is; snijpunt met de 𝑦-as
- Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt
Voorbeeld: De impact van Sesamstraat
● Afhankelijke 𝑦 = postlet
● Onafhankelijke 𝑥 = postnumb
● Lineair verband: 𝑦 = 𝛼 + 𝛽𝑥
● Rechte lijn lijkt goed te passen maar blijft een vereenvoudiging van de werkelijkheid
(in de populatie)
● Waarden van de constante 𝛼 en de helling 𝛽 moeten geschat worden
● Model: ŷ = 0,443 + 0,862𝑥
● Of E(postlet) = 0,443 + 0,862postnumb
- Constante (0,443): verwacht waarde van postlet (𝑦) als postnumb (𝑥) gelijk is
aan 0
- Helling (0,862): gemiddelde stijging in postlet (𝑦) als postnumb (𝑥) één
eenheid stijgt
, ● Neem kind 133 in de dataset, die heeft een score op postnumb = 14. Wat voorspel je
voor 𝑦 (postlet)?
● Voorspelling: ŷ = 0,443 + 0,862 × 14 = 12,511
● Fout: y - ŷ = 13 - 12,511 = 0,489 → residu/error
Residuen
● De fout bij het schatten is e = y - ŷ = residu (uitleg voorspelfouten: ppt. week 1, slides
22-23).
● Het verschil tussen de geobserveerde waarde en de voorspelde waarde.
● SSE kan worden gezien als een ‘foutenmaat’; hoe slecht het model is.
● Beste regressielijn schatten via methode van kleinste kwadraten (OLS) door fouten
te minimaliseren:
- Maak de fouten zo klein mogelijk = maak de afstand van elk punt (observatie)
tot de regressielijn (voorspelling) zo klein mogelijk
- Minimaliseer daarmee de sum of squared errors SSE = ∑(y - ŷ)2
● Het minimaliseren van de SSE levert de geschatte waarden van de constante a en
de helling b (voorbeeld berekening van b, a en SSE: ppt. week 1, slides 27-28).
● Het geschatte model is ŷ = a + bx
Het lineaire regressiemodel
● Deterministisch model: voor elke waarde van x is er één y-waarde
● Onrealistisch: niet iedereen met dezelfde x heeft dezelfde y-score
● Voor elke x-groep is er een verdeling van y-scores
● Probabilistisch model: conditionele verdeling van y gegeven waarden van x
● Het model beschrijft hoe scores op y kunnen variëren voor elke waarde van x
Probabilistisch model
● Het model beschrijft de verdeling van y gegeven de waarden van x (conditionele
verdeling).
● Het deterministische deel geeft het gemiddelde (of verwachte waarde) E(y), dus van
y gegeven x:
E(y) = ɑ + βx
● Dit is de lineaire (enkelvoudige) regressievergelijking en geeft dus het verband
tussen x en het gemiddelde van y
, ● De regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van
de responsvariabele verandert als gevolg van de waarde van een verklarende
variabele.
Conditionele verdeling
● Gegeven een x-waarde is:
- de conditionele verdeling van y een normale verdeling
- met conditioneel gemiddelde E(y) (gegeven door de regressielijn)
- en constante conditionele standaarddeviatie σ
● Zie voor vergelijking met klassieke t-toets 2 gemiddelden: ppt. week 1, slides 36-38.
Conditionele SD
● Residu is de afstand van elk punt tot de regressielijn (oftewel tot het conditionele
gemiddelde van y)
● SSE is de kwadratensom rond het conditionele gemiddelde:
SSE = ∑(y - ŷ)2 = ∑e2
𝑆𝑆𝐸
● Variantie: s2 = 𝑛−2
= MSE
𝑆𝑆𝐸
● Geschatte SD: s = 𝑛−2
● Interpretatie van de mate van spreiding met behulp van de SD:
- 68% van de waarden ligt tussen -1σ en 1σ
- dus: 2σ vergelijken met de gehele schaal van y
Samenvattend
- De regressielijn geeft een voorspelling van het gemiddelde 𝐸(𝑦) van 𝑦 gegeven 𝑥: het
conditionele gemiddelde van 𝑦