2025-2026
Studiepunten 4
Prof Geert Molenberghs
Geert Verbeke
Examen EXAMEN
- 13 werkziHngen biostaIsIek
- 27 theorie biostaIsIek
40 meerkeuzevragen met 4 antwoordmogelijkheden met giscorrecIe
Omdat het examen een meerkeuzevorm aanneemt, wordt er niet verwacht te
programmeren maar er zullen wel vragen zijn waarbij een soPware output wordt
getoond als onderdeel van de opgave van de vraag
Aanpak Hoorcolleges en werkziHngen
1
,Woordenlijst
- Count = aantal
- Range = bereik
- Confidence interval = betrouwbaarheidsinterval
- Bias = vertekening
- ConIngency table = kruistabel
- Degrees-of-freedom = vrijheidsgraden
- Denominator = noemer
- (to) draw from = trekken uit
- Mean = gemiddelde
- Slope = helling
- Repeated measures = herhaalde meIngen
- InterquarIle range = interkwarIelafstand
- QuanIle = kwanIel
- QuarIle = kwarIel
- Median = mediaan
- Missing data = ontbrekende gegevens
- Offspring = nakomeling(en)
- Numerator = teller
- Survival = overleving
- Power = vermogen
- Sample = steekproef
- Sample size = steekproefgroo_e
- Skew = scheef
- Standard error = standaardfout
- Test staIsIc = toetsstaIsIek (beter: het toetsen van hypothesen)
2
,Deel 1: Fundamentele concepten
H5: Wat is sta1s1ek?
5.1. Voorbeeld: captopril data
- 15 paIënten met hypertensie
- De respons die van belang is, is de bloeddruk in rugligging, voor en na de behandeling met captopril
Onderzoeksvraag: hoe beïnvloedt de behandeling de bloeddruk?
- Ze dalen alle twee gemiddeld
- Diastolisch gemiddelde: 112 à 103
- Systolisch gemiddelde: 176,9 à 158
Het zou interessant zijn om te weten hoe waarschijnlijk het is dat de waargenomen verandering in bloeddruk
door puur toeval optreden
Als dit zeer onwaarschijnlijk is, leveren de bovenstaande gegevens bewijs dat de bloeddruk inderdaad afneemt
na behandeling met captopril. Voor de overige leveren de bovenstaande gegevens geen bewijs voor de
werkzaamheid van captopril.
Het is duidelijk dat we niet geïnteresseerd zijn in het trekken van conclusies over enkel en alleen de 15
geobserveerde paIënten. In plaats daarvan willen we conclusies trekken over het effect van captopril op de totale
populaIe van alle hypertensieve paIënten
Conclusie
StaIsIek is bedoeld om conclusies te trekken over een bepaalde populaIe, op basis van wat er in de
willekeurige steekproef is waargenomen.
3
,5.2. Popula5e versus random steekproe
Popula.e:
HypotheIsche groep van huidige en toekomsIge proefpersonen, met een specifieke aandoening, waarover
conclusies moeten worden getrokken
Steekproef:
Subgroep uit de populaIe waarop observaIes zullen worden gedaan om ervoor te zorgen dat de in de
steekproef waargenomen effecten kunnen worden veralgemeend naar de totale populaIe, moet de steekproef
willekeurig worden opgenomen.
5.3. Het doel van sta5s5ek
Het doel van staIsIek is tweeledig
Beschrijvende sta.s.ek Inferen.ële sta.s.ek
Het samenva_en en beschrijven van waargenomen Bestuderen in hoeverre waargenomen
gegevens zodat de relevante aspecten expliciet trends/effecten kunnen worden gegeneraliseerd
worden gemaakt naar een algemene (oneindige) populaIe
Tabellen, grafieken, berekening van gemiddelden Sterke band tussen de steekproef en populaIe
waarover men conclusies wil trekken
- Correcte staIsIsche methodologie
- Correcte intepretaIe van resultaten!
H6: Samenva8ende sta1s1eken
6.1. Inleiding
A en B hebben dezelfde
locaIe maar een
verschillende spreiding
A en C hebben dezelfde
spreiding maar een andere
locaIe
!! EXAMEN: standaarddeviaIe en standaardfout!!
4
,6.2. Loca5ematen
LocaIe meet
Waar bevinden de waarnemingen zich meer of minder?
Steekproefgemiddelde (sample mean):
1 + 3 + 3 + 4 + 5 + 14 𝑥! + ⋯ + 𝑥"
𝑥¯ = = =5
6 𝑛
De steekproefmediaan is de middelste observaIe:
1 3 3 4 5 14
3+4
= 3,5
2
De steekproefmodus is de waarde die het vaakst voorkomt:
1, 3, 3, 4, 5, 14 à 3
Merk op dat het steekproefgemiddelde erg gevoelig is voor uitschieters (outliers):
1, 3, 3, 4, 5, 14 ⟶ 5
1, 3, 3, 4, 5, 20 ⟶ 6
1, 3, 3, 4, 5, 26 ⟶ 7
Dit is niet het geval voor de steekproefmediaan:
1, 3, 3, 4, 5, 14 ⟶ 3,5
1, 3, 3, 4, 5, 20 ⟶ 3,5
1, 3, 3, 4, 5, 26 ⟶ 3,5
De modus is niet alIjd informaIef.
5
, Symmetrisch Scheef verdeeld
Mediaan = gemiddelde RECHTS scheef à gemiddelde > mediaan
LINKS scheef à gemiddelde < mediaan
Zelfs bij symmetrische data kunnen uitschieters een Gemiddelde kan sterk worden beïnvloed door de
sterke impact hebben op het gemiddelde, waardoor willekeurige aanwezigheid van één of enkele
sommige mensen de mediaan prefereren. extremen
Om toch een goed idee te krijgen van de ligging
(locaIe) van de data, verkiest men in zulke gevallen
vaak het gebruik van de mediaan boven het
gemiddelde.
Bij scheef verdeelde data geven gemiddelde en
mediaan verschillende, maar complementaire,
informaIe.
6.3. Voorbeeldvraag
Vraag: Welke bewering is juist?
A. Het gemiddelde is alIjd gelijk aan de mediaan
B. Het gemiddelde is alIjd groter dan de mediaan
C. Het gemiddelde is alIjd kleiner dan de mediaan
D. Het gemiddelde kan groter, kleiner of gelijk zijn aan de mediaan
6
,6.4. Spreidingsmaten
De spreidingsmaten
Hoe gelijk zijn de observaIes?
Voorbeeld: herbekijk de kleine steekproef:
1, 3, 3, 4, 5, 14
Gemiddelde afwijking van het gemiddelde: (is alIjd 0)
"
1 −4 − 2 − 2 − 1 + 0 + 9 0
0( 𝑥# − 𝑥¯) = = =0
𝑛 6 6
#$!
Kwadra.sche gemiddelde afwijking van het gemiddelde:
"
1 (−4)% + (−2)% + (−2)% + (−1)% + 0% + 9% 106
0( 𝑥# − 𝑥¯)% = = = 17,67
𝑛 6 6
#$!
Als n groot is, dan maakt het niet uit of je deelt door n of door n-1 enzovoort, voor een kleine steekproef deel je
wel door n-1
Steekproefvarian.e:
"
%
1 (−4)% + (−2)% + (−2)% + (−1)% + 0% + 9% 106
𝑠 = 0( 𝑥# − 𝑥¯)% = = = 21,2
𝑛−1 5 5
#$!
Merk op dat de eenheden van de steekproefvarianIe en de kwadraIsche gemiddelde afwijking de
gekwadrateerde eenheden van de oorspronkelijke observaIes zijn.
7
,Steekproefstandaarddevia.e:
"
1
𝑠=8 0( 𝑥# − 𝑥¯)% = 921,2 = 4,60
𝑛−1
#$!
SteekproeMereik (range):
𝑅 = max 𝑥# − min 𝑥# = 14 − 1 = 13
# #
Merk op dat het bereik sterk aqangt van de steekproefgroo_e 𝑛: grotere steekproeven beva_en vaker extreme
observaIes, en zullen dus vaker een groter bereik hebben.
Omdat we willen dat onze maat voor spreiding de variaIe in de populaIe weerspiegelt, verkiezen we een maat
die niet aqankelijk is van de steekproefgroo_e.
Steekproef-interkwar.elafstand (IQR):
De interkwarIelafstand is de afstand verkregen na het verwijderen van de hoogste 25% en de laagste 25% van
de waarden in de steekproef (eventueel naar beneden afgerond):
1, 3, 3, 4, 5, 14 → 3, 3, 4, 5 → IQR = 5 − 3 = 2
De interkwarIelafstand hangt niet af van de steekproefgroo_e 𝑛,
omdat in grotere steekproeven een groter aantal observaIes wordt verwijderd.
De varianIe (en dus ook de kwadraIsche gemiddelde afwijking en de standaarddeviaIe) en het bereik zijn zeer
gevoelig voor uitschieters:
1, 3, 3, 4, 5, 14 → 𝑠 % = 21,2, 𝑅 = 13
1, 3, 3, 4, 5, 20 → 𝑠 % = 48,8, 𝑅 = 19
1, 3, 3, 4, 5, 26 → 𝑠 % = 88,4, 𝑅 = 25
Dit is niet het geval voor de interkwarIelafstand:
1, 3, 3, 4, 5, 14 → IQR = 2
1, 3, 3, 4, 5, 20 → IQR = 2
8
,1, 3, 3, 4, 5, 26 → IQR = 2
Bij scheef verdeelde data kan de standaarddeviaIe sterk beïnvloed worden door één of meerdere extreme
observaIes.
Om toch een goed beeld te krijgen van de variaIe in de data, verkiest men dan het gebruik van de
interkwarIelafstand boven de standaarddeviaIe.
Bij symmetrische data geven IQR en standaarddeviaIe gelijkaardige informaIe (zonder idenIek te moeten zijn).
Zelfs bij symmetrische data kunnen uitschieters de standaarddeviaIe sterk beïnvloeden, maar de IQR veel
minder.
Bij asymmetrische data zullen IQR en standaarddeviaIe doorgaans verschillende, maar complementaire
informaIe opleveren.
Opmerking: StandaarddeviaIes vormen de basis voor de construcIe van betrouwbaarheidsintervallen (zie
verder).
6.5. Percentages
TradiIoneel worden meIngen samengevat met een maat voor ligging (locaIe) en een maat voor spreiding.
Stel echter dat de variabele van interesse ‘ziekteverzuim’ is.
Voor elk individu 𝑖 in de steekproef definiëren we 𝑥# als:
1 als individu 𝑖 afwezig was wegens ziekte
𝑥# = B
0 anders
Het steekproefgemiddelde is gelijk aan:
𝑥! + 𝑥% + ⋯ + 𝑥" Aantal mensen met ziekteverzuim
𝑥¯ = =
𝑛 𝑛
Het gemiddelde is dus gelijk aan het geobserveerde aandeel (percentage) mensen met ziekteverzuim.
Merk op dat, zodra het gemiddelde gekend is, ook het aantal nullen en enen bekend is, en dus ook de
variabiliteit.
Men kan aantonen dat de varianIe wordt gegeven door:
𝑛
𝑠% = 𝑥¯(1 − 𝑥¯)
𝑛−1
9
, Omdat de varianIe rechtstreeks volgt uit het gemiddelde, wordt enkel het gemiddelde gerapporteerd; er is
geen aparte maat voor spreiding nodig.
Bijvoorbeeld, de variabele ‘ziekteverzuim’ kan als volgt worden samengevat:
Variabele (n = 256)
Ziekte: Ja 103 (40.23%)
Ziekte: Nee 153 (59.77%)
6.6. Voorbeeld uit de biomedische literatuur
10