Wiskunde 3: inleiding tot de Biostatistiek
1 INLEIDING
De meeste vragen in de levenswetenschap kunnen pas beantwoord worden als door gegevens te verzamelen
en analyseren
Voorbeelden van dit soort vragen:
• Voor welke genen verschilt het expressieniveau in kanker en normaal weefsel?
• Kwaliteitscontrole: wijkt de concentratie van een chemisch product af van wat er op het label wordt
vermeld?
• Wat is de invloed van regelmatig joggen op bloeddruk?
• Is er een relatie tussen zweetgeur en de samenstelling van de microbiële gemeenschap onder de
oksel?
Maar bij dit soort onderzoek is het belangrijk te weten dat het resultaat aan variatie onderhevig is.
➔ er zijn verschillen tussen de individuen
Doel v/d statistiek: orde scheppen in de chaos die door de variatie optreedt en duidelijk te maken hoeveel
variatie op de gegevens toe te schrijven aan systematische verschillen, en hoeveel aan toeval of biologische
variatie
Statistiek: de wetenschap rond het verzamelen, exploreren en analyseren van data
➔ deze wetenschap laat toe:
➢ Een goede proefopzet te bekomen
➢ De data goed te bestuderen
➢ De variabiliteit en onzekerheid te kwantificeren, controleren, rapporteren
➢ Modellen op een formele wijze op te stellen en te toetsen aan de data
1.1 DE WETENSCHAPPELIJKE METHODE
Doel v/d wetenschap: het begrijpen van de natuur
➔ van klein naar groot, van vroeger tot de toekomst
Wetenschappelijke methode: de methodiek die gebruikt wordt om zaken te onderzoeken
➔ Is gebaseerd op 2 belangrijke pijlers: theorie en observatie
Wetenschappelijke theorie: voorspelling van hoe een natuurlijk proces zich gedraagt
Observatie: bevestigen/ontkrachten de theorie
Opmerking een wetenschappelijke theorie kan nooit bewezen worden, enkel ontkracht
Schematische weergave wetenschappelijke methode
, • De Natuur: het universum, de wereld, de werkelijkheid = de waarheid
➔ het gedeelte waarover de mens kennis wil verzamelen
• Het model/theorie: een denkbeeld van een aspect v/d natuur
➔ voorspellingen (=predicties) over het gedrag van een aspect v/d natuur
(Niet per se een mathematisch model, maar kan ook een kwalitatieve beschrijving
zijn van een aspect v/d natuur)
• Wetenschappelijk experiment: de data worden uit de natuur gehaald
➔ data vormen een manifestatie v/h werkelijk gedrag v/d natuur
➔ Dit moet representatief en reproduceerbaar zijn
• Statische besluitvorming: de brug tussen het model en de data v/d natuur
➔ laat toe op een formele wijze het model te toetsen aan de data en te besluiten in
welke mate de wetenschappelijke gemeenschap de theorie en het model voor waar
mag aannemen
Het inroepen van statistiek
Statistiek wordt ingeroepen omdat de wetenschappelijke methode niet zonder doel gebruikt wordt
➔ We hebben gedeeltelijke kennis v/d natuur via een aantal modellen/theorieën, wat nieuwe vragen doet
ontstaan ➔ ontstaan nieuwe onderzoeksvraag, die dan weer leidt tot een hypothese, …
Statistiek treedt op in 3 domeinen:
1. Proefopzet (“Experimental Design”): het ontwerpen van het experiment
2. Data-exploratie en beschrijvende statistiek (“Data-exploration and Descriptive Statistics”): het
exploreren, samenvatten en visualiseren van de data en
3. Statistische besluitvorming (“Statistical Inference”): het veralgemenen van de resultaten in de
steekproef naar de populatie toe.
1.2 CASE STUDIE: DE OKSEL
➢ Probleem: hinderlijke zweetgeur door een bepaalde bacterie
➢ Meting: hoe aanwezig zijn de bacteriën?
Populatie: mensen die last hebben van de bacteriën
Sample: ad random selectie van een bepaald aantal mensen uit de populatie
➔ worden opnieuw ad random opgedeeld in 2 groepen, waarvan 1 groep een
transplantatie krijgt, en de andere groep enkel placebo
Opm.: beide groepen zullen een antibiotica behandeling krijgen
➔ de verhouding v/d bacteriën tussen de 2 groepen na verloop van tijd vergelijken
Na de behandeling is de eerste stap voor het leren uit data, data exploratie
Data exploratie:
1. De data importeren (in R)
➔ Opslaan onder een naam (hier ap), waardoor het ordelijker is dan met de funtir
2.
,2 kolommen: eentje die weergeeft of het gaat om een transplantatie of placebo, eentje die de hoeveelheid
bacteriën na behandeling weergeeft
➔ deze datastructuur noemt men ‘tidy data’
Deze data zullen nog verwerkt en gevisualiseerd worden, om de structuren en patronen te zien.
➔ visualisatie: gemiddelde en standaardafwijking
Bijhorende code:
• Data samenvatten
➔ gemiddelde en standaarddeviatie berekenen, op volgende manier:
• Een tabel in de pdf kan geïntegreerd worden via het commando kable v/h knitr pakker
Interpretatie: De boxplot geeft ons al veel meer informatie dan de barplot. Het bereik van de data wordt
weergegeven door de wiskers (eindpunten van de verticale lijnen in het midden van de boxplot). De box in de
boxplot geeft het 25%, 50% en 75% percentiel weer.
➔ Merk op dat er geen outliers zijn. Er worden geen individuele punten weergegeven in de plot
, Placebogroep
Gemiddelde
Elk ‘deeltje’ bevat 25%, hoe kleiner, hoe
denser de gegevens
Een nog informatievere versie: met datapunten:
Dit is een informatieve plot! Het toont de data zo ruw mogelijk weer. De plot is toch nog goed leesbaar en toont
duidelijk aan dat de relatieve abundanties bij bijna alle proefpersonen in de transplantatie groep hoger is dan
deze voor de placebogroep.