BIOSTATISTIEK
Inleiding
- Rekenmachine kopen
- Boek ‘fundamentals of biostatistics’ kopen
- Formularium staat op Ultra, zeker afprinten
R-studio is zelfstudie.
Op de slides staat er soms een QR-code met R-studio. Een handleiding adhv een filmpje.
Op dat moment in de cursus hebben we genoeg leerstof gezien om dat stukje van R-
studio te oefenen.
We starten bij CHAPTER 11 “Regression and Correlation Methods”, vorige hoofdstukken
dienen gekend te zijn.
Na elk hoofdstuk zijn er oefeningen, deze oefeningen moet je zelf oplossen. De oplossing
staat uitgebreid op toledo. Oefeningen zijn een ondersteuning om de leerstof beter te
begrijpen. Deze oefeningen behoren bij het examen van januari, niet december.
“Study Guide” is een samenvatting van elk hoofdstuk. Ook daar staan oefeningen bij.
www.pollev.com/jurgenvercau826 => website voor polls.
WERKZITTINGEN
➢ Naar Rstudio tegel, dit is voor 10/12. Om zelfstandig dus die “oefeningen” te maken.
Nog eens bekijken zal wss wel duidelijk worden tijdens de les wanneer dit te maken
valt.
➢ Commando’s zelf intypen in R-Studio op examen, er wordt daarvoor een formularium
gegeven. De commando’s die beschikbaar zijn op toledo in die tegel R-studio. Lijstje
met commando’s en die worden dus gegeven. Dat is het enige dat je mag gebruiken.
Je moet dus wel leren werken met toledo!
,HOOFDSTUK 11
“Regression and Correlation Methods”
2 variabele met elkaar in verband brengen, heel veel variabele zijn met elkaar in verband te
brengen. En vaak is het dat het één het andere veroorzaakt. Dat verband willen we
bestuderen, het oorzakelijk verband van één variabele op een andere variabele.
Doe je dat met één variabele op een andere variabele dan spreek je over eenvoudige
regressie.
We spreken over multiple regression, meervoudige regressie, als het meerdere veriabele zijn
die allemaal een effect kunnen hebben op die ene variabele.
Bv. we willen weten, wat beïnvloed het IQ van een persoon? Er zijn meerdere factoren die
het IQ kunnen beïnvloeden. En dat kunnen we ook in één model gaan bestuderen (multiple
regression).
In lineaire regressie, zal er altijd een lineaire relatie zijn tussen die variabele. Het zal een
rechte zijn.
Deze data bevat gegevens van 31 baby’s, deze
werden gewogen bij de geboorte “Birthweight”,
deze staat uitgedrukt in hectogram (*100 gram).
Estriol in miligram/ 24 u, estriol is een hormoon
geporduceerd door de moeder als ze nog
zwanger is, dus op het einde van de
zwangerschap wordt het estriol-niveau gemeten
bij 31 zwangere moeders nog voor de baby
geboren is en dat wordt uitgedrukt in mg/24u.
Hoeveel estriol een zwangere vrouw dus op 1
dag produceerd. M’n wil het verband
bestuderen tussen estriol en geboortegewicht.
M’n wil proberen om het geboortegewicht te gaan voorspellen aan de hand van het
hormoonniveau. Zodat m’n dus in de toekomst dit kan voorspellen. Dit is eventueel nodig om
de zwangerschap uit te stellen indien de baby te weinig zou wegen na 9 maanden.
X = de oorzaak, het hormoon niveau veroorzaakt het gewicht (onafhankelijke
variabele)
Y = geboortegewicht (afhankelijke variabele)
E = expected value (verwachte waarde), welke waarde verwacht je voor de y op basis
van een zekere x. wat verachten we voor y als we weten wat x is?
We verwachten dus voor y dat deze gelijk is aan 𝛼 + 𝛽* X (dit stelt een rechte voor).
𝜶 = intercept (wanneer je rechte zou doortrekken, de waarde die je afleest wanneer de recht
de y-as snijdt. dus de waarde voor Y als X = 0. (21,52 is de intercept hier)
𝜷 = rico = slope
, Elke punt staat voor een zwangere vrouw en haar baby’s
geboortegewicht.
Op de x-as lees je het hormoonniveau af.
Op de y-as lees je het geboortegewicht van de baby.
Als je die punten bekijkt dan willen we dus graag,
met regressie, een rechte door de punten trekken.
De rechte die het beste aansluit bij die punten.
Doen we niet met de losse hand, we gaan dus berekenen wat de intercept en de slope (rico)
moeten zijn van de rechte.
+ e, e staat voor de error term, de foute term.
Je neemt een punt van het geboortegewicht en
dan kijk je naar estriol niveau, maar dat punt
komt dus niet overeen met de rechte. Dus je
zou fout geschat hebben. Bijvoorbeeld een
hoger geboortegewicht inschatten. Dat is dus
de error term, kan klein zijn, wanneer deze
bijna perfect op de rechte lag. Maar kan ook
grote fout zijn.
Een bepaalde x-waarde heeft 3 verschillende niveau’s. bijvoorbeeld 8 zwangere vrouwen met
10 mg/ 24u. maar niet alle 8 deze baby’s hebben hetzelfde geboortegewicht, ookal hadden
alle moeders hetzelfde estriol.
Dus ja die 8 punten komen overeen met het ene punt op de rechte, het voorspelde
geboortegewicht. Dus we hebben voor hier 1 geboorte gewicht, 8 foute termen. En dan
ernaast ook weer foute termen voor 1 geboortegewicht en dan nogmaals.
Wat zegt regressie nu? Die 8 foute termen van elk van de 3 punten, deze vormen een
normale verdeling. Gegevens die we kunnen meten, vormen een bepaalde kans verdeling.
Het komt erop neer, dat wanneer je van de gegevens een histogram maakt, dus gegevens
rangschikken van klein naar groot.
Histogram: X-as verdelen in kleine intervallen, dan ga je meten hoeveel foute termen er
zitten tussen 0-0,1. Je telt deze en zet die uit op de y-as. En tekent een balkje, enzovoort.
En dan verschijnt er een bepaalde vorm, wanneer de piek van de histogram in het midden
ligt, is er een normale verdeling.
De kansverdeling: hoe zien je gegevens eruit als je deze uitzet in een histogram?
Histogram bepaald dus welk soort kansverdeling we hebben.
Bv. T-verdeling, R-verdeling, Z-verdeling... de gene dat we het meeste komen is de normale
verdeling.
Inleiding
- Rekenmachine kopen
- Boek ‘fundamentals of biostatistics’ kopen
- Formularium staat op Ultra, zeker afprinten
R-studio is zelfstudie.
Op de slides staat er soms een QR-code met R-studio. Een handleiding adhv een filmpje.
Op dat moment in de cursus hebben we genoeg leerstof gezien om dat stukje van R-
studio te oefenen.
We starten bij CHAPTER 11 “Regression and Correlation Methods”, vorige hoofdstukken
dienen gekend te zijn.
Na elk hoofdstuk zijn er oefeningen, deze oefeningen moet je zelf oplossen. De oplossing
staat uitgebreid op toledo. Oefeningen zijn een ondersteuning om de leerstof beter te
begrijpen. Deze oefeningen behoren bij het examen van januari, niet december.
“Study Guide” is een samenvatting van elk hoofdstuk. Ook daar staan oefeningen bij.
www.pollev.com/jurgenvercau826 => website voor polls.
WERKZITTINGEN
➢ Naar Rstudio tegel, dit is voor 10/12. Om zelfstandig dus die “oefeningen” te maken.
Nog eens bekijken zal wss wel duidelijk worden tijdens de les wanneer dit te maken
valt.
➢ Commando’s zelf intypen in R-Studio op examen, er wordt daarvoor een formularium
gegeven. De commando’s die beschikbaar zijn op toledo in die tegel R-studio. Lijstje
met commando’s en die worden dus gegeven. Dat is het enige dat je mag gebruiken.
Je moet dus wel leren werken met toledo!
,HOOFDSTUK 11
“Regression and Correlation Methods”
2 variabele met elkaar in verband brengen, heel veel variabele zijn met elkaar in verband te
brengen. En vaak is het dat het één het andere veroorzaakt. Dat verband willen we
bestuderen, het oorzakelijk verband van één variabele op een andere variabele.
Doe je dat met één variabele op een andere variabele dan spreek je over eenvoudige
regressie.
We spreken over multiple regression, meervoudige regressie, als het meerdere veriabele zijn
die allemaal een effect kunnen hebben op die ene variabele.
Bv. we willen weten, wat beïnvloed het IQ van een persoon? Er zijn meerdere factoren die
het IQ kunnen beïnvloeden. En dat kunnen we ook in één model gaan bestuderen (multiple
regression).
In lineaire regressie, zal er altijd een lineaire relatie zijn tussen die variabele. Het zal een
rechte zijn.
Deze data bevat gegevens van 31 baby’s, deze
werden gewogen bij de geboorte “Birthweight”,
deze staat uitgedrukt in hectogram (*100 gram).
Estriol in miligram/ 24 u, estriol is een hormoon
geporduceerd door de moeder als ze nog
zwanger is, dus op het einde van de
zwangerschap wordt het estriol-niveau gemeten
bij 31 zwangere moeders nog voor de baby
geboren is en dat wordt uitgedrukt in mg/24u.
Hoeveel estriol een zwangere vrouw dus op 1
dag produceerd. M’n wil het verband
bestuderen tussen estriol en geboortegewicht.
M’n wil proberen om het geboortegewicht te gaan voorspellen aan de hand van het
hormoonniveau. Zodat m’n dus in de toekomst dit kan voorspellen. Dit is eventueel nodig om
de zwangerschap uit te stellen indien de baby te weinig zou wegen na 9 maanden.
X = de oorzaak, het hormoon niveau veroorzaakt het gewicht (onafhankelijke
variabele)
Y = geboortegewicht (afhankelijke variabele)
E = expected value (verwachte waarde), welke waarde verwacht je voor de y op basis
van een zekere x. wat verachten we voor y als we weten wat x is?
We verwachten dus voor y dat deze gelijk is aan 𝛼 + 𝛽* X (dit stelt een rechte voor).
𝜶 = intercept (wanneer je rechte zou doortrekken, de waarde die je afleest wanneer de recht
de y-as snijdt. dus de waarde voor Y als X = 0. (21,52 is de intercept hier)
𝜷 = rico = slope
, Elke punt staat voor een zwangere vrouw en haar baby’s
geboortegewicht.
Op de x-as lees je het hormoonniveau af.
Op de y-as lees je het geboortegewicht van de baby.
Als je die punten bekijkt dan willen we dus graag,
met regressie, een rechte door de punten trekken.
De rechte die het beste aansluit bij die punten.
Doen we niet met de losse hand, we gaan dus berekenen wat de intercept en de slope (rico)
moeten zijn van de rechte.
+ e, e staat voor de error term, de foute term.
Je neemt een punt van het geboortegewicht en
dan kijk je naar estriol niveau, maar dat punt
komt dus niet overeen met de rechte. Dus je
zou fout geschat hebben. Bijvoorbeeld een
hoger geboortegewicht inschatten. Dat is dus
de error term, kan klein zijn, wanneer deze
bijna perfect op de rechte lag. Maar kan ook
grote fout zijn.
Een bepaalde x-waarde heeft 3 verschillende niveau’s. bijvoorbeeld 8 zwangere vrouwen met
10 mg/ 24u. maar niet alle 8 deze baby’s hebben hetzelfde geboortegewicht, ookal hadden
alle moeders hetzelfde estriol.
Dus ja die 8 punten komen overeen met het ene punt op de rechte, het voorspelde
geboortegewicht. Dus we hebben voor hier 1 geboorte gewicht, 8 foute termen. En dan
ernaast ook weer foute termen voor 1 geboortegewicht en dan nogmaals.
Wat zegt regressie nu? Die 8 foute termen van elk van de 3 punten, deze vormen een
normale verdeling. Gegevens die we kunnen meten, vormen een bepaalde kans verdeling.
Het komt erop neer, dat wanneer je van de gegevens een histogram maakt, dus gegevens
rangschikken van klein naar groot.
Histogram: X-as verdelen in kleine intervallen, dan ga je meten hoeveel foute termen er
zitten tussen 0-0,1. Je telt deze en zet die uit op de y-as. En tekent een balkje, enzovoort.
En dan verschijnt er een bepaalde vorm, wanneer de piek van de histogram in het midden
ligt, is er een normale verdeling.
De kansverdeling: hoe zien je gegevens eruit als je deze uitzet in een histogram?
Histogram bepaald dus welk soort kansverdeling we hebben.
Bv. T-verdeling, R-verdeling, Z-verdeling... de gene dat we het meeste komen is de normale
verdeling.