Methodologie en biostatistiek II
Premaster Gezondheidswetenschappen
,Inleiding in de toegepaste biostatistiek
Hoofdstuk 1 – inleiding
1.1 Onderzoekvormen binnen het medisch wetenschappelijk onderzoek
Verschillende soorten onderzoek in het medisch wetenschappelijk onderzoek:
Medisch
wetenschappelijk
onderzoek
Observationeel Experimenteel
onderzoek onderzoek
Case-control
Cohort onderzoek Cohort onderzoek
onderzoek
Prospectief Retrospectief Retrospectief
Transversaal
Retrospectief
1.2 Soorten variabelen
- Continue variabelen variabelen die in theorie een oneindig aantal waarden kunnen
aannemen, zoals lichaamsgewicht en lichaamslengte.
- Dichotome variabelen die kunnen maar twee waarden aannemen, wel of niet. De patiënt is
bijvoorbeeld of wel ziek of niet ziek.
- Ordinale categoriale variabele bestaat de variabele niet uit twee maar uit meer dan twee
groepen, dan is het een categoriale variabele, bijvoorbeeld ondergewicht, normaal gewicht,
overgewicht, obesitas. In dit geval is het één meer of minder dan het ander en dus ordinaal.
- Nominale categoriale variabele er zit geen ordening in de categorieën, bijvoorbeeld beroep.
De variabele waar de onderzoeker een uitspraak over wil doen is de uitkomstvariabele, de
afhankelijke variabele. Alle andere variabelen zijn de onafhankelijke variabelen, ook wel
determinanten, verklarende variabelen, voorspellers, predictors of covariaten genoemd.
1.3 Beschrijvende versus verklarende statistiek
- Beschrijvende statistiek komt in principe neer op het overzichtelijk samenvatten van de
onderzoeksgegevens, zonder te kijken naar mogelijke verbanden of relaties tussen
verschillende variabelen.
- Verklarende statistiek houdt zich bezig met het schatten van effecten en relaties en het
schatten van betrouwbaarheid van deze effecten en relaties en het zo nodig berekenen van p-
waarden.
,Hoofdstuk 2 – Beschrijvende statistiek
2.1 Inleiding
Beschrijvende statistiek heeft tot doel de gegevens overzichtelijk samen te vatten. Dit kan grafisch of
numeriek. Welke gekozen wordt hangt af van het doel van de samenvatting (congres/
wetenschappelijk artikel). Voordeel van numerieke presentatie is dat de informatie compacter en
preciezer kan worden weergegeven.
2.2 Grafische weergave van onderzoeksgegevens
Een continue variabele kan worden weergegeven met behulp van een histogram. Het alternatief
hiervoor is een stem and leaf plot.
Dichotome en categoriale variabelen kunnen grafisch worden weergegeven met behulp van een
staafdiagram.
2.3 Numerieke weergave van onderzoeksgegevens
Ook bij numerieke gegevens speelt de soort variabele een rol. Het is gewoonlijk om dichotome of
categoriale variabelen weer te geven met behulp van een frequentietabel. Hierin worden de volgende
gegevens weergegeven:
- Frequency – aantal
- Percentage
- Valid percentage – waarin de missende waarden niet worden meegenomen
- Cummulative percentage – waarbij de percentages worden opgeteld
Voor continue variabelen wordt meestal gebruik gemaakt van samenvattingsmaten. De meest
gebruikte samenvattingsmaat is het gemiddelde. Daarbij is het van belang om ook iets te zeggen over
de spreiding van de observaties, weergegeven met de standaarddeviatie (sd). Dit kan ongeveer
gezien worden als het gemiddelde verschil tussen de waardes en het gemiddelde. Het gemiddelde
van de gekwadrateerde verschillen wordt de variantie genoemd en de wortel hieruit is de
standaarddeviatie.
Een andere samenvattingsmaat is de mediaan, deze is gebaseerd op zogeheten percentielpunten. De
mediaan is de waarde van de observaties, waarvan 50% boven deze waarde ligt en 50% eronder.
Daarnaast wordt ook nog gebruik gemaakt van het 25 e en het 75e percentielpunt. Voor het 25e
percentielpunt geldt dat 25% van de observaties kleiner is dan die waarde. Voor het 75 e percentielpunt
geldt dat 25% van de observaties groter is dan die waarde.
Er is nog een andere veelgebruikte manier om een continue variabele weer te geven en dat is de
zogenaamde box plot, ook wel box and whisker plot genoemd. Dit is een combinatie van grafisch en
numeriek, omdat het weergegeven wordt in een figuur waarbij gebruik wordt gemaakt van
samenvattingsmaten. De box plot bestaat uit twee delen: in de eerste plaats de box waarbij het 25 e en
het 75e percentielpunt als afkapwaarde gebruikt worden en ten tweede de strepen aan de boven- en
onderkant (in SPSS is dit de minimale en de maximale waarde). De streep in het midden van de box is
de mediaan. In de box worden de uitbijters dus niet meegenomen. Uitbijters zijn de waarden die meer
dan anderhalf maal de boxhoogte afwijken van de boven- en of ondergrens van de box.
2.4 De normale verdeling
Één van de doelen van het overzichtelijk weergeven van continue variabelen is om te controleren of
ze normaal verdeeld zijn. Dit is belangrijk, omdat alle statistische technieken die gebruikt kunnen
worden ervan uitgaan dat de variabele ongeveer normaal verdeeld is. Bij een perfecte normale
verdeling is de mediaan gelijk aan het gemiddelde, omdat de verdeling van de observaties dan
symmetrisch is. Om te kijken of gegevens normaal verdeeld zijn, kan dus allereerst gekeken worden
of het gemiddelde en de mediaan dicht bij elkaar liggen.
De eigenschap dat 95% van de observaties ligt tussen +/-2SD, kan alleen gebruikt worden bij een
variabele die alleen maar positieve waarden kan hebben.
Echter een continue variabele die alleen maar positieve waarden kan hebben, waarbij het gemiddelde
en de standaarddeviatie ongeveer gelijk zijn, kan onmogelijk normaal verdeeld zijn (bijvoorbeeld
wanneer gemiddelde en standaarddeviatie van 10, dat betekent dat 95% van de observaties ligt
tussen het gemiddelde 10 +/- 2SD, dus tussen de -10 en de +30, dit is onmogelijk wanneer er alleen
positieve waarden zijn).
, In de praktijk wordt er op drie manieren gekeken naar de standaardverdeling:
- Observeren van het histogram
- Het vergelijken van de gemiddelde en de mediaan
- Het vergelijken van de gemiddelde en de standaarddeviatie
De meest voorkomende niet-normale verdeling is de scheef naar rechts verdeling, waarbij het grootste
gedeelte van de populatie een normale waarde heeft en een deel van de populatie een extreem hoge
waarde heeft. Dit komt met name voor bij bloedparameters. Ook is er een scheef naar links verdeling
mogelijk, deze komt veel minder vaak voor en hebben vaak te maken met een bepaalde tijdsduur,
bijvoorbeeld zwangerschap.
Soort variabele Dichotome variabele Continue variabele
Normaal Niet normaal
Numeriek Frequentietabel Gemiddelde en Mediaan en
standaarddeviati 25e en 75e
e percentiel
Grafisch Staafdiagram Histogram
Taartdiagram Stem and leaf plot
Box and whisker plot