Wetenschappelijke kennis (2265) –
Seminar: Lineaire regressie
Enkelvoudige lineaire regressie
Doel: het voorspellen van de waarde van een uitkomstvariabele (Y) o.b.v. de waarde van een verklarende variabele X.
Enkelvoudig: één verklarende variabele
- Bij meervoudig is het bijvoorbeeld lengte verklaren aan de hand v bv. leeftijd/geslacht.
Lineair: de verwachte waarde van Y wordt uitgedrukt als een lineaire functie van X.
Y = continu. X = continu dan wel dichotoom of categorisch.
Statistisch model:
Yi = behaalde tentamencijfer door de i-de student in de steekproef.
𝜇! = verwachte tentamencijfer voor de i-de student in de steekproef.
𝜀! = afwijking tussen het behaalde en het verwachte tentamencijfer.
Aanname: de afwijkingen zijn normaal verdeeld met gemiddelde 0 en gelijke variantie 𝜎 " (homoscedasticiteit).
Grafiek
Stap 1 is altijd: situatie grafisch weergeven!
Strooidiagram: verband tussen aantal uren studeren (X) en tentamencijfer (Y)
Regressievergelijking
Algemeen: de regressievergelijking beschrijft de verwachte (of voorspelde) waarde van de uitkomstvariabele o.b.v. de waarden
van één of meer verklarende variabelen
Regressievergelijking
waarbij Xi staat voor het aantal uren dat de i-de student gestudeerd heeft (en 𝜇i voor het verwachte tentamencijfer).
Grafisch
,Residuen kwadratensom (SSR)
Residuen kwadratensom (SSR): som van de gekwadrateerde afwijkingen van de
door de regressievergelijking voorspelde tentamencijfers tot de geobserveerde
tentamencijfers.
Best passende regressielijn = de lijn waarvoor SSR het kleinst is.
Rode stukje in de afbeelding kwadrateer je.
Model kwadratensom (SSM)
Model kwadratensom (SSM): de som van de gekwadrateerde afwijkingen van de door
de regressievergelijking voorspelde tentamencijfers tot het gemiddelde
tentamencijfer.
• Gekwadrateerde afwijking van het gemiddelde
• Verschil tussen gemiddelde cijfer (horizontale lijn) en verwachte cijfer
(schuine lijn) à kwadrateren.
• Je pakt groene stuk en dat kwadrateer je.
SSR vs. SSM:
• Als er geen lineair verband is, dan zou de helling 0 moeten zijn à de lijn die nu diagonaal is zou dan samenvallen met
gemiddelde cijfer (horizontale lijn). De groene lijn reduceert dan helemaal naar 0, want die ligt op de lijn à SSM is 0.
• Als regressievergelijking perfect is à dan is de SSR = 0, SSM verklaart alles dan perfect.
Totale kwadratensom (SST)
Totale kwadratensom (SST): de som van de gekwadrateerde afwijkingen van de geobserveerde tentamencijfers tot het
gemiddelde cijfer.
Kan gesplitst worden in een gedeelte dat kan worden verklaard door de regressievergelijking (SSM) en een gedeelte dat
onverklaard blijft (SSR).
- Rood + groen à kwadrateren.
SST = SSM + SSR.
, Proportie verklaarde variantie
Proportie verklaarde variantie: R2 = SSM / SST = 130,,306 = 0,58
Interpretatie: hoeveelheid van de variatie in de behaalde tentamencijfers dat kan
worden toegeschreven door verschillen in het aantal uren studeren.
Regressievergelijking
B0 = constant (in SPSS)
Je kunt o.b.v. de tabel berekenen wat
het verwachte tentamencijfer is.
- Bv. verwachte cijfer na 24 uur
studeren: 3,05 + 0,14*24 = 6,4.
Je ziet ook p-waarden à er worden
verschillende hypothesen getoetst.
Vooral de hypothese op de tweede rij is interessant. Daar geldt: H0: 𝛽# = 0, ofwel als het aantal uren studeren geen invloed
heeft, zou de helling gelijk moeten zijn aan 0.
F-toets
Aannames
1. De waarnemingen zijn onafhankelijk
a. Deze is al snel waar. Als we te maken hebben met een cijfer van verschillende studenten wordt het al snel
onafhankelijk.
2. De residuen zijn normaal verdeeld
a. Histogram en P-P Plot
3. De spreiding (variantie) van de residuen is gelijk voor alle waarden van X (homoscedasticiteit)
a. Scatterplot
Seminar: Lineaire regressie
Enkelvoudige lineaire regressie
Doel: het voorspellen van de waarde van een uitkomstvariabele (Y) o.b.v. de waarde van een verklarende variabele X.
Enkelvoudig: één verklarende variabele
- Bij meervoudig is het bijvoorbeeld lengte verklaren aan de hand v bv. leeftijd/geslacht.
Lineair: de verwachte waarde van Y wordt uitgedrukt als een lineaire functie van X.
Y = continu. X = continu dan wel dichotoom of categorisch.
Statistisch model:
Yi = behaalde tentamencijfer door de i-de student in de steekproef.
𝜇! = verwachte tentamencijfer voor de i-de student in de steekproef.
𝜀! = afwijking tussen het behaalde en het verwachte tentamencijfer.
Aanname: de afwijkingen zijn normaal verdeeld met gemiddelde 0 en gelijke variantie 𝜎 " (homoscedasticiteit).
Grafiek
Stap 1 is altijd: situatie grafisch weergeven!
Strooidiagram: verband tussen aantal uren studeren (X) en tentamencijfer (Y)
Regressievergelijking
Algemeen: de regressievergelijking beschrijft de verwachte (of voorspelde) waarde van de uitkomstvariabele o.b.v. de waarden
van één of meer verklarende variabelen
Regressievergelijking
waarbij Xi staat voor het aantal uren dat de i-de student gestudeerd heeft (en 𝜇i voor het verwachte tentamencijfer).
Grafisch
,Residuen kwadratensom (SSR)
Residuen kwadratensom (SSR): som van de gekwadrateerde afwijkingen van de
door de regressievergelijking voorspelde tentamencijfers tot de geobserveerde
tentamencijfers.
Best passende regressielijn = de lijn waarvoor SSR het kleinst is.
Rode stukje in de afbeelding kwadrateer je.
Model kwadratensom (SSM)
Model kwadratensom (SSM): de som van de gekwadrateerde afwijkingen van de door
de regressievergelijking voorspelde tentamencijfers tot het gemiddelde
tentamencijfer.
• Gekwadrateerde afwijking van het gemiddelde
• Verschil tussen gemiddelde cijfer (horizontale lijn) en verwachte cijfer
(schuine lijn) à kwadrateren.
• Je pakt groene stuk en dat kwadrateer je.
SSR vs. SSM:
• Als er geen lineair verband is, dan zou de helling 0 moeten zijn à de lijn die nu diagonaal is zou dan samenvallen met
gemiddelde cijfer (horizontale lijn). De groene lijn reduceert dan helemaal naar 0, want die ligt op de lijn à SSM is 0.
• Als regressievergelijking perfect is à dan is de SSR = 0, SSM verklaart alles dan perfect.
Totale kwadratensom (SST)
Totale kwadratensom (SST): de som van de gekwadrateerde afwijkingen van de geobserveerde tentamencijfers tot het
gemiddelde cijfer.
Kan gesplitst worden in een gedeelte dat kan worden verklaard door de regressievergelijking (SSM) en een gedeelte dat
onverklaard blijft (SSR).
- Rood + groen à kwadrateren.
SST = SSM + SSR.
, Proportie verklaarde variantie
Proportie verklaarde variantie: R2 = SSM / SST = 130,,306 = 0,58
Interpretatie: hoeveelheid van de variatie in de behaalde tentamencijfers dat kan
worden toegeschreven door verschillen in het aantal uren studeren.
Regressievergelijking
B0 = constant (in SPSS)
Je kunt o.b.v. de tabel berekenen wat
het verwachte tentamencijfer is.
- Bv. verwachte cijfer na 24 uur
studeren: 3,05 + 0,14*24 = 6,4.
Je ziet ook p-waarden à er worden
verschillende hypothesen getoetst.
Vooral de hypothese op de tweede rij is interessant. Daar geldt: H0: 𝛽# = 0, ofwel als het aantal uren studeren geen invloed
heeft, zou de helling gelijk moeten zijn aan 0.
F-toets
Aannames
1. De waarnemingen zijn onafhankelijk
a. Deze is al snel waar. Als we te maken hebben met een cijfer van verschillende studenten wordt het al snel
onafhankelijk.
2. De residuen zijn normaal verdeeld
a. Histogram en P-P Plot
3. De spreiding (variantie) van de residuen is gelijk voor alle waarden van X (homoscedasticiteit)
a. Scatterplot