H4 - De analyse van continue uitkomstvariabelen
4.5 - Analyseren v/d relatie tussen een continue uitkomstvariabele en andere variabelen; lineaire regressieanalyse
4.5.1 - Inleiding
Lineaire regressieanalyse: techniek om continue uitkomstvariabelen (Y-waarden) + alle soorten determinanten (X-waarden) te
analyseren.
- bv. dichotome determinanten, dus 2 onafhankelijke groepen. Of categoriale
determinanten, dus meerdere groepen.
Doel: relatie tussen Y-variabele en X-variabele zo goed mogelijk beschrijven.
Vraag: Welke rechte lijn beschrijft het beste de relatie tussen X en Y?
Antwoord: De lijn waarvoor geldt dat de (verticale) afstand van de individuele
observaties tot de lijn zo klein mogelijk is (= de kleinstekwadratenmethode).
Residuen: de (verticale) afstanden tussen de geobserveerde punten en de geschatte regressielijn.
Enkelvoudige regressieanalyse (= met één determinant) à heeft resultaat dat bestaat uit:
1. Intercept/constante/bo/b0: waarde van de uitkomstvariabele (Y) als de waarde van de determinant (X) gelijk is aan 0.
a. Y = b0 + b1 × 0
2. Regressie-coëfficiënt/helling/slope/b1: Het verschil in uitkomstvariabele (Y) als de determinant (X) één eenheid
verschilt.
Je kunt de waarde van de regressiecoëfficiënten uitrekenen met:
4.5.2 – Lineaire regressieanalyse met een dichotome variant
Als de x-variabele maar 2 waarden kan aannemen (bv. vrouw = 0, man = 1), moet voor beide groepen het gemiddelde worden
bepaald. Want voor het gemiddelde van een groep geldt dat de afstand van de verschillende observaties tot dat punt zo klein
mogelijk is (= kleinstekwadratenmethode). De best passende lijn loopt dan door de punten van die 2 groepen.
• De gemiddelde y-waarde van de vrouwen = b0 + b1 x 0 = b0 (want vrouw = determinant 0)
• De gemiddelde y-waarde van de mannen = b0 + b1 x 1 = b0 + b1 (want man = determinant 1)
T-waarde berekenen = b1 (verschil tussen man en vrouw) – 0 (verwachte verschil bij H0) / sem.
- Aantal vrijheidsgraden (df) = n – 2
- P-waarde: de kans op b1 als H0 waar is.
95%-BI: met 95% zekerheid kan gesteld worden dat het werkelijke verschil in Y tussen mannen en vrouwen ligt tussen … en …
4.5.3 – Lineaire regressieanalyse met een categoriale variant
Vb. van x-variabele die 3 waarden aan kan nemen: niet-drinkers = 0, matige drinkers = 1, zware drinkers = 2.
• B0 = waarde van Y bij de determinant 0 (dus de Y van niet-drinkers).
• B1 = Y-waarde van matige drinkers (determinant 1) – Y-waarde van niet-drinkers (determinant 0).
Én: B1 = Y-waarde van zware drinkers (determinant 2) – Y-waarde van matige drinkers (determinant 1).
1
, Lineaire regressieanalyse à schatting van de beste rechte lijn door de geobserveerde punten.
- Als een scatterplot laat zien dat de relatie tussen X (in dit geval 3 waarden) en Y niet goed
beschreven kan worden met een rechte lijn (zoals te zien op afbeelding), dan lineaire
regressieanalyse uitvoeren d.m.v. dummyvariabelen.
Twee dummyvariabelen moeten altijd gezamenlijk worden geanalyseerd, want anders gaat de
interpretatie van de regressiecoëfficiënten voor beide dummyvariabelen afwijken.
Regressievergelijking:
Y = b0 + b1 x dummy1 + b2 x dummy2
Dummyvariabelen kunnen op verschillende manieren worden gecodeerd.
1. Klassieke codering
Afbeelding: gemiddelde cholesterolconcentratie
voor de 3 groepen, en de interpretatie van b1 (=
regressiecoëfficiënt dummy 1) en b2 (=
regressiecoëfficiënt dummy 2).
Eerst lees je in de tabel ‘coefficients’ (SPSS) af wat b0 (= regressiecoëfficiënt ‘constant’), b1 en b2 voor waarden hebben.
Vervolgens bereken je voor de drie groepen de Y-waarde.
2. Alternatieve manier
De regressiecoëfficiënt van de 2e
dummyvariabele is nu anders te
interpreteren dan bij de klassieke
codering.
4.5.4 – Lineaire regressieanalyse met een continue determinant
Vb. leeftijd en cholesterolconcentratie
De lineaire regressieanalyse (met resultaat = rechte lijn) houdt in dat het geen verschil zou maken welke leeftijden met elkaar
vergeleken zouden worden à ieder verschil van één eenheid (bv. 20 – 21 jaar, of 60 – 66 jaar, etc.) geeft een even groot verschil
in cholesterolconcentratie.
Voor een continue determinant zijn er diverse mogelijkheden om te onderzoeken of er sprake is van een lineair verband:
1. Relatie tussen continue uitkomstvariabele en continue determinant met een
andersoortige functie (bv. kwadratische functie (= hyperbool/parabool), of
logaritmische functie) beschrijven.
o Welke functie hangt af van de scatterplot.
§ Bv. rechter afbeelding: lijkt wel een lineair verband te
hebben, maar op hogere leeftijden een iets minder sterk
verband à onderzoeken of we voorkeur moeten geven aan
een kwadratisch verband.
§ Als de regressiecoëfficient voor de kwadraatterm (‘leeftijd
kwadraat’) in tabel 'coefficients’ (SPSS) niet significant is
(p > 0,05), is een lineair verband net zo goed als een
kwadratisch verband en zal de relatie tussen X en Y worden
beschreven d.m.v. een lineair verband.
2