Inhoudsopgave
Hoofdstuk 1: inleiding.................................................................................................................................... 2
Hoofdstuk 2: Belangrijke concepten en conventies.........................................................................................4
Hoofdstuk 3: Studiedesign............................................................................................................................. 9
Hoofdstuk 4: Data exploratie en beschrijvende statistiek..............................................................................15
Hoofdstuk 5: Statistische besluitvorming...................................................................................................... 21
Hoofdstuk 6: Enkelvoudige lineaire regressie...............................................................................................36
Hoofdstuk 7: Variantieanalyse..................................................................................................................... 44
Hoofdstuk 8: Niet-parametrische statistiek.................................................................................................. 48
Hoofdstuk 9: Categorische data-analyse....................................................................................................... 53
Hoofdstuk 10: Algemeen lineair model......................................................................................................... 59
Biostatistiek
1
,Hoofdstuk 1: inleiding
1.1 De wetenschappelijke methode
Proefopzet
Data exploratie en beschrijvende statistiek
Statistische besluitvorming
1.3 Case study: oksel microbiome
1.3.1 Experimenteel design
Niet haalbaar om te evalueren voor de hele populatie
Ethisch niet verantwoord
Financieel en logistiek onmogelijk
Populatie bestaat nog niet volledig
Steekproef moet representatief zijn RANDOMISATIE!!!!
Populatie goed beschrijven scope van de studie
Wat kunnen we kwantificeren? Gemiddeld verschil in abundantie
Goede controlegroep nodig vergelijking of het al dan niet werkt
Vertaal onderzoeksvraag naar iets wat we kunnen kwantificeren!
1.3.2 Data exploratie en beschrijvende statistiek
Inzicht krijgen in data
Importeer de data
Inladen via Tidyverse
Regels inlezen via commando read_lines
Verschillende variabelen splitsen met komma
Beschrijvende statistiek
Gemiddelde en standaarddeviatie opslaan via apRelSum
Boxplot maken informatief
P-waarde berekenen kijken of er een toevallig effect is
1.3.3 Statistische besluitvorming
We kunnen nooit met 100% zekerheid de steekproef uitzetten op de populatie
onzekerheid
Met statistiek bewijzen hoe waarschijnlijk het is om in een random steekproef een verschil in
gemiddelde relatieve abundantie te zien is
We kunnen falsifiëren zeggen dat er geen verschil is
Niet kunnen aantonen dat de behandeling het werkt
Kans op toeval als er in een steekproef effect is maar in werkelijkheid niet p-waarde
1.3.3.1 Mogelijke fouten
P kleiner dan 5 kleiner dan 5: het is bijna niet mogelijk door toeval
1.4 Case Study: verschil in lengte tussen vrouwen en mannen
Door random steekproef onzekerheid
NHANES STUDY: sinds 1960 worden elk jaar mensen van alle leeftijden thuis geïnterviewd. Er
maakt ook een gezondheidsonderzoek deel uit van de studie. Mensen worden ad random in
Amerika geselecteerd en het heeft inzicht hoe de gegevens en resultaten van de analyse
zullen variëren van steekproef tot steekproef
We focussen op lengte
1.4.1 Experiment
5 mannen en 5 vrouwen Is er een lengteverschil?
2
, Als we een andere steekproef nemen is er een ander gemiddelde en een andere
standaarddeviatie zorgt ervoor dat conclusies ook onzeker zijn
We kunnen omgekeerde falsifiëren mannen = vrouwen
p-waarde: kans berekend om in een nieuwe random steekproef door toeval een effect te
vinden dat in absolute waarde minstens evengroot is als in onze geobserveerde steekproef
onder de aanname dat er in werkelijkheid geen verschil zou zijn in gemiddelde lengte tussen
vrouwen en mannen.
1.4.2 Herhaal het experiment opnieuw
Er is een beetje verschil tussen alle steekproeven
p>5 te grote kans om het door toeval te bereiken
1.4.4 Samenvatting
Met statistiek gaan we de kans op het trekken foute conclusies controleren.
1.4.5 Controle van de beslissingsfout
Grotere steekproef
Hoe meer gegevens hoe makkelijker we het verschil oppikken in de steekproef
In een grotere studie is er minder variabiliteit nauwkeuriger
Als we vrouwen met vrouwen zouden vergelijken lengte moet even groot zijn is niet
altijd zo populatie verhogen ook nog steeds een lengteverschil
1.4.5.1 Grotere steekproef?
We kunnen door grote vals negatieve resultaten verwerpen
1.4.5.2 Controle van vals positief
2x 5 vrouwen trekken gemiddeldes zouden hetzelfde moeten zijn, anders vals positief
1.4.6 Conclusies
In elke steekproef worden andere proefpersonen uit de populatie getrokken verschillen in
lengte en verschil van gemiddelde en standaarddeviatie conclusies zijn onzeker met
statistiek controleren we de kans op het trekken foute conclusies.
1.5 Case study: Salk vaccin
Je hebt een vergelijkingsbasis nodig
No consent -> Geen toestemming
Soms zijn groepen niet vergelijkbaar omdat de sociale achtergrond niet klopt
Confounding
De economische achtergrond van de kinderen zal bepalen of ze een
vaccin krijgen of niet, zo kunnen we niet het effect bepalen.
Daarna hebben ze mensen die geen vaccin mochten krijgen uit de studie
gelaten en dan mensen een gewoon of placebo behandeling kregen.
Dubbel geblindeerde studie: eerst gevraagd of ze mochten ingeënt worden werken met
placebo behandelingen artsen, ouders en kinderen niet op de hoogte welk vaccin ze
kregen
1.6 Rol van Statistiek
1. Proefopzet is essentieel
Het belangrijk is om de scope van de studie goed te specifiëren voor de start van het
experiment
3
, Randomisatie nodig is om een representatieve steekproef te nemen
Steekproefgrootte is heel belangrijk
We moeten ons bewust zijn van Confounding
Een goede controle is belangrijk
2. Data exploratie en beschrijvende statistiek:
Exploreren
Visualiseren
Samenvatten en beschrijven van geobserveerde data zodat relevante aspecten naar voor
komen.
3. Statistische besluitvorming: aan de hand van statistische modellen bestuderen in hoeverre
geobserveerde trends/effecten die geobserveerd worden in een steekproef veralgemeend kunnen
worden naar de algemene populatie.
Hoofdstuk 2: Belangrijke concepten en conventies
2.1 Inleiding
Populaties goed definiëren
Randomisatie
NHANES STUDIE: allemaal variabelen meten
Variabele kan andere eigenschappen hebben
Kwalitatief 2 verschillende variabelen
2.2. Variabelen
Kwalitatief: categorieën
Nominaal: geen orde, naam geslacht
Ordinaal: orde BMI-categorieën
Kwantitatief: numeriek
Continu: alle mogelijke waarden lengte
Discreet: je kan geen halve waarden hebben leeftijd
2.3 Populatie
=de groep van proefpersonen waar we onze conclusie willen veralgemenen
Doel van wetenschappelijke studie: uitspraken over algemene niveau
Populatie is een theoretisch concept veranderd continu mee
Ook interesse theoretisch concept
Kan oneindig groot worden
Populatie omschrijven met inclusiecriteria: voorwaarden om bij de populatie te horen
Populatie omschrijven met exclusiecriteria: mensen uit de populatie gaan sluiten
2.4 Toevalsveranderlijken (of toevallig veranderlijken) hoofdletter
Veranderlijke van een random individu uit de populatie
Variabelen variëren in de populatie van subject tot subject
Variabelen zijn random aangezien hun waarde veranderlijk is in de populatie
Spreiding op gegevens speelt cruciale rol
2.4.1. Conventie
4
Hoofdstuk 1: inleiding.................................................................................................................................... 2
Hoofdstuk 2: Belangrijke concepten en conventies.........................................................................................4
Hoofdstuk 3: Studiedesign............................................................................................................................. 9
Hoofdstuk 4: Data exploratie en beschrijvende statistiek..............................................................................15
Hoofdstuk 5: Statistische besluitvorming...................................................................................................... 21
Hoofdstuk 6: Enkelvoudige lineaire regressie...............................................................................................36
Hoofdstuk 7: Variantieanalyse..................................................................................................................... 44
Hoofdstuk 8: Niet-parametrische statistiek.................................................................................................. 48
Hoofdstuk 9: Categorische data-analyse....................................................................................................... 53
Hoofdstuk 10: Algemeen lineair model......................................................................................................... 59
Biostatistiek
1
,Hoofdstuk 1: inleiding
1.1 De wetenschappelijke methode
Proefopzet
Data exploratie en beschrijvende statistiek
Statistische besluitvorming
1.3 Case study: oksel microbiome
1.3.1 Experimenteel design
Niet haalbaar om te evalueren voor de hele populatie
Ethisch niet verantwoord
Financieel en logistiek onmogelijk
Populatie bestaat nog niet volledig
Steekproef moet representatief zijn RANDOMISATIE!!!!
Populatie goed beschrijven scope van de studie
Wat kunnen we kwantificeren? Gemiddeld verschil in abundantie
Goede controlegroep nodig vergelijking of het al dan niet werkt
Vertaal onderzoeksvraag naar iets wat we kunnen kwantificeren!
1.3.2 Data exploratie en beschrijvende statistiek
Inzicht krijgen in data
Importeer de data
Inladen via Tidyverse
Regels inlezen via commando read_lines
Verschillende variabelen splitsen met komma
Beschrijvende statistiek
Gemiddelde en standaarddeviatie opslaan via apRelSum
Boxplot maken informatief
P-waarde berekenen kijken of er een toevallig effect is
1.3.3 Statistische besluitvorming
We kunnen nooit met 100% zekerheid de steekproef uitzetten op de populatie
onzekerheid
Met statistiek bewijzen hoe waarschijnlijk het is om in een random steekproef een verschil in
gemiddelde relatieve abundantie te zien is
We kunnen falsifiëren zeggen dat er geen verschil is
Niet kunnen aantonen dat de behandeling het werkt
Kans op toeval als er in een steekproef effect is maar in werkelijkheid niet p-waarde
1.3.3.1 Mogelijke fouten
P kleiner dan 5 kleiner dan 5: het is bijna niet mogelijk door toeval
1.4 Case Study: verschil in lengte tussen vrouwen en mannen
Door random steekproef onzekerheid
NHANES STUDY: sinds 1960 worden elk jaar mensen van alle leeftijden thuis geïnterviewd. Er
maakt ook een gezondheidsonderzoek deel uit van de studie. Mensen worden ad random in
Amerika geselecteerd en het heeft inzicht hoe de gegevens en resultaten van de analyse
zullen variëren van steekproef tot steekproef
We focussen op lengte
1.4.1 Experiment
5 mannen en 5 vrouwen Is er een lengteverschil?
2
, Als we een andere steekproef nemen is er een ander gemiddelde en een andere
standaarddeviatie zorgt ervoor dat conclusies ook onzeker zijn
We kunnen omgekeerde falsifiëren mannen = vrouwen
p-waarde: kans berekend om in een nieuwe random steekproef door toeval een effect te
vinden dat in absolute waarde minstens evengroot is als in onze geobserveerde steekproef
onder de aanname dat er in werkelijkheid geen verschil zou zijn in gemiddelde lengte tussen
vrouwen en mannen.
1.4.2 Herhaal het experiment opnieuw
Er is een beetje verschil tussen alle steekproeven
p>5 te grote kans om het door toeval te bereiken
1.4.4 Samenvatting
Met statistiek gaan we de kans op het trekken foute conclusies controleren.
1.4.5 Controle van de beslissingsfout
Grotere steekproef
Hoe meer gegevens hoe makkelijker we het verschil oppikken in de steekproef
In een grotere studie is er minder variabiliteit nauwkeuriger
Als we vrouwen met vrouwen zouden vergelijken lengte moet even groot zijn is niet
altijd zo populatie verhogen ook nog steeds een lengteverschil
1.4.5.1 Grotere steekproef?
We kunnen door grote vals negatieve resultaten verwerpen
1.4.5.2 Controle van vals positief
2x 5 vrouwen trekken gemiddeldes zouden hetzelfde moeten zijn, anders vals positief
1.4.6 Conclusies
In elke steekproef worden andere proefpersonen uit de populatie getrokken verschillen in
lengte en verschil van gemiddelde en standaarddeviatie conclusies zijn onzeker met
statistiek controleren we de kans op het trekken foute conclusies.
1.5 Case study: Salk vaccin
Je hebt een vergelijkingsbasis nodig
No consent -> Geen toestemming
Soms zijn groepen niet vergelijkbaar omdat de sociale achtergrond niet klopt
Confounding
De economische achtergrond van de kinderen zal bepalen of ze een
vaccin krijgen of niet, zo kunnen we niet het effect bepalen.
Daarna hebben ze mensen die geen vaccin mochten krijgen uit de studie
gelaten en dan mensen een gewoon of placebo behandeling kregen.
Dubbel geblindeerde studie: eerst gevraagd of ze mochten ingeënt worden werken met
placebo behandelingen artsen, ouders en kinderen niet op de hoogte welk vaccin ze
kregen
1.6 Rol van Statistiek
1. Proefopzet is essentieel
Het belangrijk is om de scope van de studie goed te specifiëren voor de start van het
experiment
3
, Randomisatie nodig is om een representatieve steekproef te nemen
Steekproefgrootte is heel belangrijk
We moeten ons bewust zijn van Confounding
Een goede controle is belangrijk
2. Data exploratie en beschrijvende statistiek:
Exploreren
Visualiseren
Samenvatten en beschrijven van geobserveerde data zodat relevante aspecten naar voor
komen.
3. Statistische besluitvorming: aan de hand van statistische modellen bestuderen in hoeverre
geobserveerde trends/effecten die geobserveerd worden in een steekproef veralgemeend kunnen
worden naar de algemene populatie.
Hoofdstuk 2: Belangrijke concepten en conventies
2.1 Inleiding
Populaties goed definiëren
Randomisatie
NHANES STUDIE: allemaal variabelen meten
Variabele kan andere eigenschappen hebben
Kwalitatief 2 verschillende variabelen
2.2. Variabelen
Kwalitatief: categorieën
Nominaal: geen orde, naam geslacht
Ordinaal: orde BMI-categorieën
Kwantitatief: numeriek
Continu: alle mogelijke waarden lengte
Discreet: je kan geen halve waarden hebben leeftijd
2.3 Populatie
=de groep van proefpersonen waar we onze conclusie willen veralgemenen
Doel van wetenschappelijke studie: uitspraken over algemene niveau
Populatie is een theoretisch concept veranderd continu mee
Ook interesse theoretisch concept
Kan oneindig groot worden
Populatie omschrijven met inclusiecriteria: voorwaarden om bij de populatie te horen
Populatie omschrijven met exclusiecriteria: mensen uit de populatie gaan sluiten
2.4 Toevalsveranderlijken (of toevallig veranderlijken) hoofdletter
Veranderlijke van een random individu uit de populatie
Variabelen variëren in de populatie van subject tot subject
Variabelen zijn random aangezien hun waarde veranderlijk is in de populatie
Spreiding op gegevens speelt cruciale rol
2.4.1. Conventie
4