Enkelvoudige lineaire regressie – Statistiek
Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie is er sprake van één continue uitkomst/afhankelijke variabele (Y) en één
continue of categorische onafhankelijke/verklarende variabele (= determinant) (X). Bij lineaire regressie wil
men een lineair model voor Y als functie van X opstellen, zodat men Y kan voorspellen op basis van een
lineaire relatie met X.
Yi = Y-coördinaat waarneming.
Model = Intercept/Asafsnede.
𝑌𝑖 = + 𝑋𝑖 + 𝜀𝑖 = Lineaire regressiescoëfficiënt.
Xi = X-coördinaat waarneming.
* εi is onafhankelijk voor i = n. εi volgt een normale verdeling met εi = Afwijkingsscore = Residu = De
gemiddelde 0 en een variantie van σ2 (εi N (0 ; σ2). De variantie is verticale afstand tussen een
dus niet afhankelijk is van Xi. De variantie is constant over de waarneming en de regressielijn.*
gehele lengte van de regressielijn.
Lineaire regressieanalyse
en worden geschat m.b.v. de kleinste kwadratenmethode:
𝑆𝑆𝑅𝐸𝑆 = 𝑆𝑆𝐸𝑅𝑅𝑂𝑅 = ∑(𝑌𝑖 − (∝ +𝑋𝑖 ))2
a en b zijn zuivere schatters voor en . Deze worden ook geschat o.b.v. de kleinste kwadratenmethode:
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) 𝐶𝑜𝑣 (𝑋, 𝑌) 𝑠𝑑(𝑌)
𝑏= = =𝑟∗
∑(𝑋𝑖 − 𝑋̅) 2 𝑉𝑎𝑟 (𝑋) 𝑠𝑑(𝑋) r = Pearson’s correlatiecoëfficiënt.
R2 = Variantie verklaard door de
Het middelpunt van elke puntenwolk is (𝑋̅, 𝑌̅). De regressielijn regressielijn. = Proportie
loopt altijd door dit middelpunt. Het intercept (a) is vervolgens te verklaarde variantie.*
berekenen met: a = Intercept/Asafsnede.
𝑎 = 𝑌̅ − 𝑏𝑋̅ b = Lineaire regressiecoëfficiënt.*
* Bij enkelvoudige lineaire regressie geldt R2 = r2. Het teken van r is identiek aan het teken van b.
𝜎2
b is normaal verdeeld met gemiddelde en standaarddeviatie √∑(𝑋 −𝑋̅)2.
𝑖
Geschatte lineaire regressielijn
̂𝑖 = 𝑎 + 𝑏𝑋𝑖
𝑌
VOORBEELD 1: ENKELVOUDIGE LINEAIRE REGRESSIE
Onderzoeksvraag: In hoeverre beïnvloedt het lichaamsgewicht [pond] de diastolische bloeddruk (DBP)
[mmHg]?
De waarnemingen geven de volgende puntenwolk met enkelvoudige lineaire regressielijn:
1
, SPSS geeft de bovenstaande tabel. Hierin zijn de volgende gegevens af te lezen:
• b = 0,18 mmHg/pond. → Ongestandaardiseerde coëfficiënt voor het gewicht.
• a = 48,61 mmHg. → Ongestandaardiseerde coëfficiënt voor constant.
• r = 0,753. → Gestandaardiseerde coëfficiënt.
Dit geeft de volgende vergelijking voor de regressielijn: 𝑌𝑖 = 48,614 + 0,180𝑋𝑖 (𝑏𝑙𝑜𝑒𝑑𝑑𝑟𝑢𝑘 = 48,614 +
0,180 ∗ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡).
Toetsen op de lineaire regressiecoëfficiënt
Men toetst de lineaire regressiecoëfficiënt om te onderzoeken of het waargenomen lineaire verband
tussen X en Y toeval is of niet. Er zijn twee methoden om dit te toetsen:
• T-toets.
• F-toets.
H0 en H1
Voor beide methoden gelden de volgende hypotheses:
• H0: = b0 = 0.
• H1: ≠ b0 ≠ 0.
Voorwaarden
• Er is een lineaire samenhang.
Check: scatterplot.
• De waarnemingen in de steekproef zijn onafhankelijk van elkaar.
Dit is niet mogelijk om te checken, want dit hoort bij de proefopzet.
• De residuen (εi) zijn normaal verdeeld.
Dit betekent dat de waarnemingen waarden tussen -∞ en +∞ kunnen aannemen.
Check: de waarnemingen in de steekproef kunnen uit een normale verdeling komen (boxplot,
histogram, Q-Q-plot).
• De residuen (εi) hebben bij iedere waarde voor X dezelfde variantie.
Check: residuen plot.
• De X-variabele is een instelvariabele en heeft dus geen meetfout.
F-toets op de lineaire regressiecoëfficiënt
Formules F-toets op de lineaire regressiecoëfficiënt
De afwijking van een waarneming t.o.v. het overall gemiddelde (𝑌𝑖 − 𝑌̅) kan worden verklaard in twee
termen:
2
Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie is er sprake van één continue uitkomst/afhankelijke variabele (Y) en één
continue of categorische onafhankelijke/verklarende variabele (= determinant) (X). Bij lineaire regressie wil
men een lineair model voor Y als functie van X opstellen, zodat men Y kan voorspellen op basis van een
lineaire relatie met X.
Yi = Y-coördinaat waarneming.
Model = Intercept/Asafsnede.
𝑌𝑖 = + 𝑋𝑖 + 𝜀𝑖 = Lineaire regressiescoëfficiënt.
Xi = X-coördinaat waarneming.
* εi is onafhankelijk voor i = n. εi volgt een normale verdeling met εi = Afwijkingsscore = Residu = De
gemiddelde 0 en een variantie van σ2 (εi N (0 ; σ2). De variantie is verticale afstand tussen een
dus niet afhankelijk is van Xi. De variantie is constant over de waarneming en de regressielijn.*
gehele lengte van de regressielijn.
Lineaire regressieanalyse
en worden geschat m.b.v. de kleinste kwadratenmethode:
𝑆𝑆𝑅𝐸𝑆 = 𝑆𝑆𝐸𝑅𝑅𝑂𝑅 = ∑(𝑌𝑖 − (∝ +𝑋𝑖 ))2
a en b zijn zuivere schatters voor en . Deze worden ook geschat o.b.v. de kleinste kwadratenmethode:
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) 𝐶𝑜𝑣 (𝑋, 𝑌) 𝑠𝑑(𝑌)
𝑏= = =𝑟∗
∑(𝑋𝑖 − 𝑋̅) 2 𝑉𝑎𝑟 (𝑋) 𝑠𝑑(𝑋) r = Pearson’s correlatiecoëfficiënt.
R2 = Variantie verklaard door de
Het middelpunt van elke puntenwolk is (𝑋̅, 𝑌̅). De regressielijn regressielijn. = Proportie
loopt altijd door dit middelpunt. Het intercept (a) is vervolgens te verklaarde variantie.*
berekenen met: a = Intercept/Asafsnede.
𝑎 = 𝑌̅ − 𝑏𝑋̅ b = Lineaire regressiecoëfficiënt.*
* Bij enkelvoudige lineaire regressie geldt R2 = r2. Het teken van r is identiek aan het teken van b.
𝜎2
b is normaal verdeeld met gemiddelde en standaarddeviatie √∑(𝑋 −𝑋̅)2.
𝑖
Geschatte lineaire regressielijn
̂𝑖 = 𝑎 + 𝑏𝑋𝑖
𝑌
VOORBEELD 1: ENKELVOUDIGE LINEAIRE REGRESSIE
Onderzoeksvraag: In hoeverre beïnvloedt het lichaamsgewicht [pond] de diastolische bloeddruk (DBP)
[mmHg]?
De waarnemingen geven de volgende puntenwolk met enkelvoudige lineaire regressielijn:
1
, SPSS geeft de bovenstaande tabel. Hierin zijn de volgende gegevens af te lezen:
• b = 0,18 mmHg/pond. → Ongestandaardiseerde coëfficiënt voor het gewicht.
• a = 48,61 mmHg. → Ongestandaardiseerde coëfficiënt voor constant.
• r = 0,753. → Gestandaardiseerde coëfficiënt.
Dit geeft de volgende vergelijking voor de regressielijn: 𝑌𝑖 = 48,614 + 0,180𝑋𝑖 (𝑏𝑙𝑜𝑒𝑑𝑑𝑟𝑢𝑘 = 48,614 +
0,180 ∗ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡).
Toetsen op de lineaire regressiecoëfficiënt
Men toetst de lineaire regressiecoëfficiënt om te onderzoeken of het waargenomen lineaire verband
tussen X en Y toeval is of niet. Er zijn twee methoden om dit te toetsen:
• T-toets.
• F-toets.
H0 en H1
Voor beide methoden gelden de volgende hypotheses:
• H0: = b0 = 0.
• H1: ≠ b0 ≠ 0.
Voorwaarden
• Er is een lineaire samenhang.
Check: scatterplot.
• De waarnemingen in de steekproef zijn onafhankelijk van elkaar.
Dit is niet mogelijk om te checken, want dit hoort bij de proefopzet.
• De residuen (εi) zijn normaal verdeeld.
Dit betekent dat de waarnemingen waarden tussen -∞ en +∞ kunnen aannemen.
Check: de waarnemingen in de steekproef kunnen uit een normale verdeling komen (boxplot,
histogram, Q-Q-plot).
• De residuen (εi) hebben bij iedere waarde voor X dezelfde variantie.
Check: residuen plot.
• De X-variabele is een instelvariabele en heeft dus geen meetfout.
F-toets op de lineaire regressiecoëfficiënt
Formules F-toets op de lineaire regressiecoëfficiënt
De afwijking van een waarneming t.o.v. het overall gemiddelde (𝑌𝑖 − 𝑌̅) kan worden verklaard in twee
termen:
2