Inleiding
Hiervoor: het beschrijven van een associaties tussen uitkomst Y en predictor X
➔ Maar 1 predictor
MAAR: het is vaak nuttig om de gem. uitkomst niet in termen van 1, maar 1+ predictoren simultaan te beschrijven
➔ voorbeelden hiervan:
1. Vaak is de associatie tussen een verklarende variabele X en een uitkomst Y verstoord als gevolg van een
confounder C
• Voorbeeld: bij het bepalen v/h effect van blootstelling aan absest (X) op de longfunctie (Y) zal de leeftijd een
cofounder (C). leeftijd beïnvloedt zowel de duur van blootstelling als de longfunctie
• Correctie: de associatie tussen X en Y afzonderlijk beschrijven voor mensen van dezelfde leeftijd
➔ opdelen op basis van C, en voor elke C-waarde een aparte lineaire regressie uitvoeren is meestal weinig
zinvol er zijn bv. maar weinig mensen met exacte dezelfde leeftijd n de studie opgenomen
2. In heel wat studies is men geïnteresseerd in welke van een groep variabelen een gegeven uitkomst het
meest beïnvloedt.
• Voorbeeld: Het begrijpen van welke aspecten van habitat en menselijke activiteit een voorname impact
hebben op de biodiversiteit in het regenwoud
➔ Men wilt niet alleen de grootte van het woud in rekening brengen, maar ook andere factoren, zoals de
ouderdom en hoogteligging van het woud, de nabijheid van andere wouden, …
• Een studie v/h simultane effect van die verschillende variabelen laat toe een beter inzicht te krijgen
3. Wanneer men een uitkomst wil voorspellen voor individuen, is het belangrijk om veel predicatieve
informatie voor hen beschikbaar te hebben en die informatie simultaan in een regressiemodel te kunnen
gebruiken.
• Voorbeeld: Na behandeling van patiënten met borstkanker is de prognose heel erg onzeker
➔ Op basis van gemeten predictoren voor en na de operatie kan men echter regressiemodellen opbouwen
die toelaten om in de toekomst voor elke patiënt, op basis van zijn/haar karakteristieken, de prognose te
voorspellen
• Verwachte predicties worden dagdagelijks gebruikt in eenheden intensieve zorgen om de ernst v/d patiënt
uit te drukken
➔ hoe groter het aantal predictoren simultaan in rekening worden gebracht, hoe betere predicties gemaakt
kunnen worden
In dit hoofdstuk wordt de enkelvoudige lineaire dataset (H6) uitgebreid door meerdere predictoren toe te laten
➔ Voorbeeld: prostaatkanker dataset
Prostaatkanker dataset
Studie: het niveau van het prostaat specific antigen (PSA) en een aantal klinische metingen bij 97 mannen waarvan
de prostaat werd verwijderd.
Doel: de associatie van de PSA bestuderen in functie van:
• Het tumorvolume (lcavol) • Indicator voor de aantasting van de zaadblaasjes (svi)
• Het gewicht van de prostaat (lweight) • Gleason score (gleason)
• De leeftijd (age) ➔ geeft de graad van kwaadaardigheid v/d kanker
• De goedaardige prostaathypertrofie weer (hoe hoger de score hoe minder de kankercellen
hoeveelheid (lbph) op normaal prostaatweefsel lijken)
• Capsulaire penetratie (lcp) • Het precentage gleason score 4/5 (pgg45)
➔ Geeft de proportie aan v/d de tumor die ingenomen
wordt door kankerweefsel van een hoge graad.
,De onderzoekers die de dataset verspreidden hebben het tumorvolume, het gewicht, de goedaardige prostaat
hypertrofie hoeveelheid en de capsulaire penetratie reeds log-getransformeerd.
In R:
De scatter matrix van de data
➔ suggereert dat de lpsa sterk positief gecorreleerd is met
het volume en svi.
➔ We zien verder dat:
• lcp en lbph links-gecensureerd lijken te zijn.
• Er lijkt een ondergrens/detectielimiet te zijn voor deze
metingen.
• Verder blijkt het merendeel van de gleason scores gelijk
te zijn aan 6 of 7.
De analyse in dit hoofdstuk blijft beperkt tot de
associatie van lpsa met het log-tumorvolume
(lcavol), het log-gewicht (lweight) en de
aantasting van de zaadblaasjes (svi)
Het additieve meervoudige lineaire regressie model
Afzonderlijke lineaire regressiemodellen laten enkel toe om de associatie tussen de prostaat specifieke antigeen
concentratie te evalueren op basis van 1 variabele
➔ vb.: log-tumorvolume – 𝐸(𝑌|𝑋𝑣 ) = 𝛼 + 𝛽𝑣 𝑋𝑣
* 𝛽𝑣 is het gem. verschil in log-psa voor patiënten die 1 eenheid in het log tumorvolume (lcavol) verschillen.
➔ Geen zuiver effect: Zelfs als lcavol niet is geassocieerd met het lpsa, dan nog kunnen patiënten met een groter
tumorvolume een hoger lpsa hebben omdat ze bijvoorbeeld een aantasting van de zaadblaasjes hebben.
Het spreekt voor zich dat meer accurate predicties kunnen bekomen worden door meerdere predictoren simultaan
in rekening te brengen.
Statisch model
Techniek voor het op natuurlijke wijze mogelijk maken van meervoudige lineaire regressiemodellen
➔ meervoudige lineaire regressie
,Stel: 𝑝 − 1 verklarende variabelen 𝑋1 , . . . , 𝑋𝑝−1en een uitkomst 𝑌 voor n subjecten
➔ Ook kan de gem. uitkomst beschreven worden i.f.v. verklarende variabelen:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 +. . . +𝛽𝑝−1 𝑋𝑖𝑝−1 + 𝜖𝑖
𝛽0 , 𝛽1 , . . . , 𝛽𝑝−1 : onbekende parameters
𝜖𝑖 : residuen die niet verklaard kunnen worden a.d.h.v. de predictoren
Het principe van de kleinste kwadratenmethode kan ook voor dit model worden gebruikt om schatters te bekomen
voor de onbekende parameters 𝛽0 , … , 𝛽𝑝−1
➔ De formules voor de schattingen zijn complexer, maar R kan die automatisch uitrekenen
Voor gegeven schattingen 𝛽̂0 , 𝛽̂1 , . . . , 𝛽̂𝑝−1 laat het lineaire regressiemodel toe om:
1. De verwachte uitkomst te voorspellen voor subjecten met geg. waarde 𝒙𝟏 , . . . , 𝒙𝒑−𝟏 voor de verklarende
variabelen
➔ 𝐸[𝑌|𝑋1 = 𝑥1 , … 𝑋𝑝−1 = 𝑥𝑝−1] = 𝛽̂0 + 𝛽̂1𝑥1 + . . . + 𝛽̂𝑝−1 𝑥𝑝−1
2. Na te gaan in welke mate de gem. uitkomst verschilt tussen 2 groepen subjecten met 𝜹 eenheden
verschil in een verklarende variabele 𝑿𝒋 met 𝒋 = 𝟏, … , 𝒑, maar met dezelfde waarden voor alle andere
variabelen {𝑿𝒌 , 𝒌 = 𝟏, . . . , 𝒑, 𝒌 ≠ 𝒋}
𝐸(𝑌|𝑋1 = 𝑥1 , . . . , 𝑋𝑗 = 𝑥𝑗 + 𝛿, . . . , 𝑋𝑝−1 = 𝑥𝑝−1 ) − 𝐸(𝑌|𝑋1 = 𝑥1 , . . . , 𝑋𝑗 = 𝑥𝑗 , . . . , 𝑋𝑝−1 = 𝑥𝑝−1 )
➔ = 𝛽0 + 𝛽1 𝑥1 +. . . +𝛽𝑗 (𝑥𝑗 + 𝛿)+. . . +𝛽𝑝−1 𝑥𝑝−1 − 𝛽0 − 𝛽1 𝑥1 −. . . −𝛽𝑗 𝑥𝑗 −. . . −𝛽𝑝−1 𝑥𝑝−1
= 𝛽𝑗 𝛿
Opm.: In het bijzonder kan 𝛽𝑗 geïnterpreteerd worden als het verschil in gemiddelde uitkomst tussen subjecten die 1
eenheid verschillen in de waarde van 𝑋𝑗 , maar dezelfde waarde hebben van de overige verklarende variabelen in het
model. Dit kan geschat worden als 𝛽 ̂𝑗.
Prostaatkanker-voorbeeld
BESLUIT: patiënten met een tumorvolume dat 1% hoger ligt, zullen gem. gezien een prostaat antigeen concentratie
hebben de ong. 0.72% hoger zal liggen.
voor deze interpretatie is er beroep gedaan op het feit dat beide variabelen log getransformeerd zijn.
Een analyse van het meervoudige lineaire regressiemodel met de predictoren lcavol (index v), lweight (index w) en
svi (index s):
, De R²-waarde (62,6%) geeft aan dat
62,6% v/d variabiliteit v/h log-PSA
verklaard kan worden d.m.v. het
tumorvolume, het prostaat gewicht en
de status van de zaadblaasjes.
De parameter bij lcavol geeft nu aan dat patiënten met een tumorvolume dat 1% hoger ligt, maar eenzelfde prostaat
gewicht en svi status hebben, een prostaat antigeen concentratie zullen hebben dat gem. slechts 0.55% hoger ligt.
➔ reden verschil: patiënten met een verschil in tumorvolume hebben vaak ook verschillen in prostaat gewicht en
svi status.
Interpretatie svi-parameter: de prostaat antigeen concentratie ligt gemiddeld een factor exp(0.666)=1.95 hoger voor
patiënten met invasie van de zaadblaasjes dan voor patiënten zonder invasie van de zaadblaasjes na correctie voor
het prostaat gewicht en het tumorvolume.
➔ de introductie van de factor svi i/h additieve model zal ervoor zorgen dat er 2 regressievlakken bekomen worden
die // zijn maar een verschillend intercept hebben
Fit van het additieve model met termen lcavol, lweight en svi. De figuur
geeft duidelijk weer dat de gemiddelde lpsa toeneemt i.f.v. het log-
tumorvolume, het log-prostaatgewicht en de invasie van de zaadblaasjes.
Merk op dat de fit resulteert in twee parallele vlakken, een regressievlak
voor patiënten zonder (blauw) en met invasie van de zaadblaasjes
(oranje).
Besluitvorming in regressiemodellen
Als de gegevens representatief zijn voor de populatie kan men in de meervoudige lineaire regressiecontext eveneens
aantonen dat de kleinste kwadraten schatters voor het intercept en de hellingen onvertekend zijn
➔ 𝐸[𝛽̂𝑗 ] = 𝛽𝑗 , 𝑗 = 0, … , 𝑝 − 1.
De schatters wijken gem. niet af v/d waarden in de populatie maar kunnen wel nog altijd rond die waarde variëren
Om inzicht te krijgen hoe dicht we de parameterschatters bij het werkelijke intercept 𝛽0 en de werkelijke
hellingen 𝛽𝑗 mogen verwachten, wensen we bijgevolg ook haar variabiliteit te kennen.