Lecture 5: Logistic regression
Relatie lineaire en logistieke regressie
Bij simpele lineaire regressie wordt aangenomen dat Y minimaal een interval schaal heeft. Maar wat
nou als y, de uitkomst, binair zou zijn en enkel waardes zoals 0 en 1 kan hebben? Dan is lineaire
regressie niet handig. Er is dan wriktie tussen de twee kanten van de formule. Een kans (de y waarde)
is altijd tussen de 0 en de 1. Echter, aan de x kant van de formule kunnen getallen worden ingevuld
die groter zijn dan 0 en 1.
Logistieke regressie
Mathematische aannames die nodig zijn voor de uitleg van logiste regressie model:
- e = 2.718, called Euler’s or the exponential number
- loge = ln, called natural logarithm
Een logistiek regressie model ziet er als volgt uit:
Aan beiden kanten van de formule heeft het enkel waardes tussen 0 en 1, ook aan de rechterkant!
Dit omdat het beiden binaire uitkomstmaten zijn.
, Hierdoor heeft de curve altijd een S-curve waardoor er nooit onder nul gedoken kan worden op de y-
as. Bij een lineair model zou er wel onder 0 en boven 1 y waardes kunnen zijn.
Binaire X&Y
VOORBEELD: relatie tussen mensen op dieet en carpaal tunnel syndroom.
Zowel x als y zijn binair.
De uitkomstmaat is binair, wel of niet een syndroom? En de predictor is ook binair, wel of niet dieet?
De relatie bekijken door de Odds te berekenen, als de OR 1 is dan is er geen relatie. Als de OR afwijkt
dan is er een associatie tussen dieet en het syndroom.
Is dit voldoende evidentie?
We kunnen het ook analyseren met logistieke regressie.
Op het einde lijkt het erg op een lineair regressie model. P(CTS =1| dieting) betekent de kans dat
iemand het syndroom krijgt gegeven de dieet score (kan 1 of 0 zijn). Echter, aan de Y kant staat de
logaritme (Ln) van de odds. De Ln odds kunnen weer alle waardes aannemen van – tot oneindig dus
niet alleen meer 0 tot 1.
Relatie lineaire en logistieke regressie
Bij simpele lineaire regressie wordt aangenomen dat Y minimaal een interval schaal heeft. Maar wat
nou als y, de uitkomst, binair zou zijn en enkel waardes zoals 0 en 1 kan hebben? Dan is lineaire
regressie niet handig. Er is dan wriktie tussen de twee kanten van de formule. Een kans (de y waarde)
is altijd tussen de 0 en de 1. Echter, aan de x kant van de formule kunnen getallen worden ingevuld
die groter zijn dan 0 en 1.
Logistieke regressie
Mathematische aannames die nodig zijn voor de uitleg van logiste regressie model:
- e = 2.718, called Euler’s or the exponential number
- loge = ln, called natural logarithm
Een logistiek regressie model ziet er als volgt uit:
Aan beiden kanten van de formule heeft het enkel waardes tussen 0 en 1, ook aan de rechterkant!
Dit omdat het beiden binaire uitkomstmaten zijn.
, Hierdoor heeft de curve altijd een S-curve waardoor er nooit onder nul gedoken kan worden op de y-
as. Bij een lineair model zou er wel onder 0 en boven 1 y waardes kunnen zijn.
Binaire X&Y
VOORBEELD: relatie tussen mensen op dieet en carpaal tunnel syndroom.
Zowel x als y zijn binair.
De uitkomstmaat is binair, wel of niet een syndroom? En de predictor is ook binair, wel of niet dieet?
De relatie bekijken door de Odds te berekenen, als de OR 1 is dan is er geen relatie. Als de OR afwijkt
dan is er een associatie tussen dieet en het syndroom.
Is dit voldoende evidentie?
We kunnen het ook analyseren met logistieke regressie.
Op het einde lijkt het erg op een lineair regressie model. P(CTS =1| dieting) betekent de kans dat
iemand het syndroom krijgt gegeven de dieet score (kan 1 of 0 zijn). Echter, aan de Y kant staat de
logaritme (Ln) van de odds. De Ln odds kunnen weer alle waardes aannemen van – tot oneindig dus
niet alleen meer 0 tot 1.