WCO5 beschrijvende statistiek – de regressietechniek
11.1) De regressielijn
11.1.1) Wat is de formule voor de regressielijn?
Bij lineaire regressie onderzoeken we een lineaire samenhang tussen 2 interval- of ratiovariabelen.
Doel = nagaan of 2 variabelen samenhangen + de ene variabele voorspellen obv de andere.
Vb: Kunnen we iemands punt op wiskunde voorspellen obv studietijd?
Afhankelijke en onafhankelijke variabele:
Criteriumvariabele (Y) Predictorvariabele (X)
= afhankelijke variabele = onafhankelijke variabele
= uitkomstvariabele = variabele waarmee we voorspellen
= variabele die we willen voorspellen
Bij regressie is de richting belangrijk:
➔ Regressie v Y op X ≠ regressie v X op Y → je kan niet zomaar de variabelen omwisselen. (Bij
correlatie is de relatie wél symmetrisch).
De regressielijn
Een regressielijn is de best passende rechte door een puntenwolk. Ze beschrijft de algemene trend in
de data. De formule vd regressielijn is:
𝒀 = 𝒂 + 𝒃𝑿
Waarbij:
• Y = voorspelde score vd afhankelijke variabele
• X = score op de onafh variabele
• a = intercept / constante
• b = slope / richtingscoëfficiënt / rico / regressiecoëfficiënt
Betekenis van a
• De constante / intercept
• De waarde v Y wanneer X = 0 → snijpunt met de Y-as
Het intercept = pos. als de rechte boven de oorsprong snijdt en neg. als ze onder de oorsprong snijdt
Vb: Y=4,05+1,71X
→ wanneer X = 0 studietijd, dan voorspellen we Y = 4,05 op wiskunde.
Betekenis van b
b geeft aan hoeveel Y gem. verandert wanneer X met 1 eenheid toeneemt. Interpretatie:
• b > 0 = stijgende rechte
• b < 0 = dalende rechte
Vb: Y=4,05+1,71X
→ Bij elke extra studietijd stijgt de verwachte score op wiskunde gem. met 1,71 punten.
29
, Voorbeeld van een regressievergelijking
𝒀𝒑𝒖𝒏𝒕 𝒘𝒊𝒔𝒌𝒖𝒏𝒅𝒆 = 𝟒, 𝟎𝟑 + 𝟏, 𝟕𝟏𝑿𝒔𝒕𝒖𝒅𝒊𝒆𝒕𝒊𝒋𝒅
Interpretatie = meer uur studietijd → gemiddeld hogere score op wiskunde
Voorspelling voor iemand met 2 voorbereidingen:
𝒀 = 𝟒, 𝟎𝟑 + 𝟏, 𝟕𝟏(𝟐) = 𝟕, 𝟒𝟓
Dus voorspelde score = 7,45
Hoe berekenen we a en b?
Best passende lijn voor het spreidingsdiagram – richtingscoëfficiënt b:
𝑺𝒀
𝒃𝒀𝑿 = 𝒓𝑿,𝒀 ×
𝑺𝑿
Waarbij:
• r = correlatie
• Sᵧ = standaarddeviatie v Y
• Sₓ = standaarddeviatie v X
Intercept a:
𝒂 = 𝒀ˉ − 𝒃𝒀𝑿 × 𝑿ˉ
Waarbij:
• Ȳ = gemiddelde van Y
• X̄ = gemiddelde van X
➔ Eens de regressievergelijking werd opgesteld, kunnen we voor elke score v X een voorspelling
voor Y berekenen.
In gedragswetenschappen is een perfecte samenhang zeldzaam. Dus de regressielijn geeft enkel een
tendens ➔ voorspellingen bevatten fouten / onnauwkeurigheden.
Daarom voegen we een foutterm toe:
𝒀 = 𝒂 + 𝒃𝑿 + 𝜺
Waarbij: ε (epsilon) = residu / voorspelfout
Residu = verschil tussen de werkelijke score en voorspelde score.
→ Multiple correlatie = omgekeerd evenredig met de variantie vd storingsterm.
• Grote residuen = slechtere voorspellingen
• Kleine residuen = betere voorspellingen
Methode van de kleinste kwadraten
De regressielijn wordt zo gekozen dat de voorspelfouten zo klein mogelijk zijn. Meer bepaald: de som
vd gekwadrateerde afstanden tussen punten en regressielijn wordt geminimaliseerd.
= de methode vd kleinste kwadraten
30
11.1) De regressielijn
11.1.1) Wat is de formule voor de regressielijn?
Bij lineaire regressie onderzoeken we een lineaire samenhang tussen 2 interval- of ratiovariabelen.
Doel = nagaan of 2 variabelen samenhangen + de ene variabele voorspellen obv de andere.
Vb: Kunnen we iemands punt op wiskunde voorspellen obv studietijd?
Afhankelijke en onafhankelijke variabele:
Criteriumvariabele (Y) Predictorvariabele (X)
= afhankelijke variabele = onafhankelijke variabele
= uitkomstvariabele = variabele waarmee we voorspellen
= variabele die we willen voorspellen
Bij regressie is de richting belangrijk:
➔ Regressie v Y op X ≠ regressie v X op Y → je kan niet zomaar de variabelen omwisselen. (Bij
correlatie is de relatie wél symmetrisch).
De regressielijn
Een regressielijn is de best passende rechte door een puntenwolk. Ze beschrijft de algemene trend in
de data. De formule vd regressielijn is:
𝒀 = 𝒂 + 𝒃𝑿
Waarbij:
• Y = voorspelde score vd afhankelijke variabele
• X = score op de onafh variabele
• a = intercept / constante
• b = slope / richtingscoëfficiënt / rico / regressiecoëfficiënt
Betekenis van a
• De constante / intercept
• De waarde v Y wanneer X = 0 → snijpunt met de Y-as
Het intercept = pos. als de rechte boven de oorsprong snijdt en neg. als ze onder de oorsprong snijdt
Vb: Y=4,05+1,71X
→ wanneer X = 0 studietijd, dan voorspellen we Y = 4,05 op wiskunde.
Betekenis van b
b geeft aan hoeveel Y gem. verandert wanneer X met 1 eenheid toeneemt. Interpretatie:
• b > 0 = stijgende rechte
• b < 0 = dalende rechte
Vb: Y=4,05+1,71X
→ Bij elke extra studietijd stijgt de verwachte score op wiskunde gem. met 1,71 punten.
29
, Voorbeeld van een regressievergelijking
𝒀𝒑𝒖𝒏𝒕 𝒘𝒊𝒔𝒌𝒖𝒏𝒅𝒆 = 𝟒, 𝟎𝟑 + 𝟏, 𝟕𝟏𝑿𝒔𝒕𝒖𝒅𝒊𝒆𝒕𝒊𝒋𝒅
Interpretatie = meer uur studietijd → gemiddeld hogere score op wiskunde
Voorspelling voor iemand met 2 voorbereidingen:
𝒀 = 𝟒, 𝟎𝟑 + 𝟏, 𝟕𝟏(𝟐) = 𝟕, 𝟒𝟓
Dus voorspelde score = 7,45
Hoe berekenen we a en b?
Best passende lijn voor het spreidingsdiagram – richtingscoëfficiënt b:
𝑺𝒀
𝒃𝒀𝑿 = 𝒓𝑿,𝒀 ×
𝑺𝑿
Waarbij:
• r = correlatie
• Sᵧ = standaarddeviatie v Y
• Sₓ = standaarddeviatie v X
Intercept a:
𝒂 = 𝒀ˉ − 𝒃𝒀𝑿 × 𝑿ˉ
Waarbij:
• Ȳ = gemiddelde van Y
• X̄ = gemiddelde van X
➔ Eens de regressievergelijking werd opgesteld, kunnen we voor elke score v X een voorspelling
voor Y berekenen.
In gedragswetenschappen is een perfecte samenhang zeldzaam. Dus de regressielijn geeft enkel een
tendens ➔ voorspellingen bevatten fouten / onnauwkeurigheden.
Daarom voegen we een foutterm toe:
𝒀 = 𝒂 + 𝒃𝑿 + 𝜺
Waarbij: ε (epsilon) = residu / voorspelfout
Residu = verschil tussen de werkelijke score en voorspelde score.
→ Multiple correlatie = omgekeerd evenredig met de variantie vd storingsterm.
• Grote residuen = slechtere voorspellingen
• Kleine residuen = betere voorspellingen
Methode van de kleinste kwadraten
De regressielijn wordt zo gekozen dat de voorspelfouten zo klein mogelijk zijn. Meer bepaald: de som
vd gekwadrateerde afstanden tussen punten en regressielijn wordt geminimaliseerd.
= de methode vd kleinste kwadraten
30