10 Enkelvoudige lineaire regressie
- Doel: Y voorspellen op basis van X-en met een formule
- Verband: tussen twee continue variabelen: spreidingsdiagram, correlatie
- Causaliteit: tussen twee variabelen: regressielijn
- Y (afhankelijk) is kwantitatief
- X (onafhankelijk) kan zowel kwantitatief als categorisch zijn
- Significantie testen met een test-statistic (hypothesetest) en een betrouwbaarheidsinterval
Enkelvoudige regressie: 1 onafhankelijke variabele (x) → kijk altijd eerst of de regressielijn lineair is
- Regressielijn: y = a + bx
- Theoretische regressiemodel: µy = α + βx (gemiddelde y bij een bepaalde waarde van x)
- Geschatte regressiemodel: ŷ = â + b̂x
ŷ = geschatte waarde (predicted value)
a = intercept (constante): waarde van y bij x=0
b = slope (richtingcoëfficient/helling) → het interessantste van de formule
Conclusies over populatie stappenplan
1. Assumpties
2. Formuleer hypothesen
H0: β = 0
Ha: β ≠ 0 (tweezijdig) of Ha: β > 0 (eenzijdig)
3. Vind de test statistic: t-toets en f-toets
t = (bobserved – 0) : seb
df = n – p – 1
p = aantal onafhankelijke variabelen (predictoren)
n = steekproefgrootte
95% betrouwbaarheidsinterval van de slope: b ± t.(se b)
4. P-value
5. Conclusie
Prediction error = residu
- Formule: ε = 𝑦 − ŷ (geobserveerd – verwacht)
- Het verschil tussen de geobserveerde en voorspelde waarde
Sum of squares (SS)
TSS: de totale sum of squares = hoeveel de geobserveerde waarden afwijken van het
gemiddelde, gekwadrateerd en bij elkaar opgeteld
MSS: de sum of squares van het regressie-model = hoeveel de voorspelde waarden
(regressiemodel) afwijken van het gemiddelde, gekwadrateerd en bij elkaar opgeteld
RSS: de residual (error) sum of squares = hoeveel de geobserveerde waarden afwijken van
de voorspelde waarden, gekwadrateerd en bij elkaar opgeteld
, Stel de r2 = 0,40 dan is de error als je de voorspelde y (met x in de formule – regressiemodel)
gebruikt 40% kleiner dan de error als je het gemiddelde van y gebruikt. r2 is hetzelfde als het
kwadraat van de correlatie (r) en de gestandaardiseerde slope.
Dummy/indicator variabele: wanneer de x in de formule 0 of 1 aanneemt als waarde
- Bij de formule: y = a + bx geldt
- X = 0: vrouwen: y = a
- X = 1: mannen: y = a + b → b = verschil tussen mannen en vrouwen
- Doel: Y voorspellen op basis van X-en met een formule
- Verband: tussen twee continue variabelen: spreidingsdiagram, correlatie
- Causaliteit: tussen twee variabelen: regressielijn
- Y (afhankelijk) is kwantitatief
- X (onafhankelijk) kan zowel kwantitatief als categorisch zijn
- Significantie testen met een test-statistic (hypothesetest) en een betrouwbaarheidsinterval
Enkelvoudige regressie: 1 onafhankelijke variabele (x) → kijk altijd eerst of de regressielijn lineair is
- Regressielijn: y = a + bx
- Theoretische regressiemodel: µy = α + βx (gemiddelde y bij een bepaalde waarde van x)
- Geschatte regressiemodel: ŷ = â + b̂x
ŷ = geschatte waarde (predicted value)
a = intercept (constante): waarde van y bij x=0
b = slope (richtingcoëfficient/helling) → het interessantste van de formule
Conclusies over populatie stappenplan
1. Assumpties
2. Formuleer hypothesen
H0: β = 0
Ha: β ≠ 0 (tweezijdig) of Ha: β > 0 (eenzijdig)
3. Vind de test statistic: t-toets en f-toets
t = (bobserved – 0) : seb
df = n – p – 1
p = aantal onafhankelijke variabelen (predictoren)
n = steekproefgrootte
95% betrouwbaarheidsinterval van de slope: b ± t.(se b)
4. P-value
5. Conclusie
Prediction error = residu
- Formule: ε = 𝑦 − ŷ (geobserveerd – verwacht)
- Het verschil tussen de geobserveerde en voorspelde waarde
Sum of squares (SS)
TSS: de totale sum of squares = hoeveel de geobserveerde waarden afwijken van het
gemiddelde, gekwadrateerd en bij elkaar opgeteld
MSS: de sum of squares van het regressie-model = hoeveel de voorspelde waarden
(regressiemodel) afwijken van het gemiddelde, gekwadrateerd en bij elkaar opgeteld
RSS: de residual (error) sum of squares = hoeveel de geobserveerde waarden afwijken van
de voorspelde waarden, gekwadrateerd en bij elkaar opgeteld
, Stel de r2 = 0,40 dan is de error als je de voorspelde y (met x in de formule – regressiemodel)
gebruikt 40% kleiner dan de error als je het gemiddelde van y gebruikt. r2 is hetzelfde als het
kwadraat van de correlatie (r) en de gestandaardiseerde slope.
Dummy/indicator variabele: wanneer de x in de formule 0 of 1 aanneemt als waarde
- Bij de formule: y = a + bx geldt
- X = 0: vrouwen: y = a
- X = 1: mannen: y = a + b → b = verschil tussen mannen en vrouwen