SAMENVATTING BIOSTATISTIEK
Korte inhoud:
BASISBEGRIPPEN
Standaardout
Betrouwbaarheidsinterval
Soorten variabelen
Clustering & stratificatie
Placebo & opstarten studie
Mixed Models (missing data & longitudinale data)
Cross-over studies
Sampling
THEORIE TESTKEUZE & UITLEG PER TEST
Ongepaarde t-test
Gepaarde t-test
ANOVA-1way
Chi-kwadraattoets & fishers exact
McNemar
Lineaire regressie
Logistische regressie
Survival
Tabel overzicht
ASSUMPTIES
, 2
BASISBEGRIPPEN:
STANDAARDFOUT EN BETROUWBAARHEIDSINTERVAL VAN EEN STEEKPROEF:
Met een steekproef stel je een betrouwbaarheidsinterval op voor het effect van bv een
medicament in de populatie. Als dat betrouwbaarheidsinterval breed is ben je onzekerder
over het effect van het medicament.
Je stelt het betrouwbaarheidsinterval op met je standaardfout die je berekent hebt uit de
steekproef.
Als 0 (of 1 bij OR/HR) in het betrouwbaarheidsinterval ligt, kan je uit de steekproef niet
besluiten dat het effect verschilt van “geen effect”. De data sluiten 0 als effect niet uit. De
steekproef levert onvoldoende bewijs voor een effect.
STANDAARDFOUT
Wat betekent SE?
SE = Standard Error
In het Nederlands: standaardfout
De SE zegt hoe onnauwkeurig je schatting is
Of anders gezegd: hoe onzeker je bent over het gemiddelde / verschil / β
1)Wat is het probleem?
Je meet iets (bv. BMI) bij een steekproef, niet bij iedereen ter wereld.
Dus het gemiddelde dat jij berekent is niet exact het echte gemiddelde van de populatie: het is
een schatting
De SE zegt:
, 3
“Als ik dit experiment opnieuw en opnieuw zou uitvoeren, hoeveel zou mijn
geschatte gemiddelde gemiddeld schommelen?”
2)Verschil tussen SD en SE
Standaarddeviatie (SD)
● Gaat over de spreiding van de data
● Vraag:
“Hoe verschillend zijn de effecten tussen elke deelnemer?”
Standaardfout (SE)
● Gaat over de onzekerheid van je schatting
● Vraag:
“Hoe precies ken ik het de parameter die ik geschat heb?” (gemiddelde/verschil/Béta)
SD = spreiding van personen (= vierkantswortel van variantie; later)
SE = onzekerheid van het gemiddelde
3)De formule
Voor een gemiddelde is SE:
→ SE = s/ √n
● s = standaarddeviatie (SD) (spreiding van de data)
● n = steekproefgrootte (hoeveel mensen deelnemen a/d steekproef)
Wat betekent dit intuïtief?
● Meer spreiding (grote s) → SE (standaarderror) groter → meer onzekerheid
● Meer mensen (grote n) → meer info → SE (standaarderror) kleiner → meer zekerheid
Daarom:
● met veel data wordt je schatting nauwkeuriger
● zelfs als de spreiding (standaarddeviatie SD) hetzelfde blijft
, 4
4)Concreet voorbeeld
Stel:
● Gemiddeld BMI = 25
● SD = 4
● n = 100
Dan: SE = 0,4
Dat betekent:
“Onze schatting (die we met de steekproefanalyse gemaakt hebben) van het
gemiddelde BMI van de populatie zit typisch ongeveer 0,4 BMI‑punt van het echte
populatiegemiddelde naast.”
→ Zonder SE weet je niet of een effect betrouwbaar is. (zie later)
BETROUWBAARHEIDSINTERVAL
1) Wat zit er in een betrouwbaarheidsinterval (BI)?
● BI weerspiegelt het waarschijnlijke bereik/de onzekerheid rond de
populatieparameter (bv. μ), die je met je schatting (bv xˉ) probeert te benaderen.
(*populatieparameter : μ, β, OR, HR).
● Met 95%‑BI bedoelen we: als je dit heel vaak zou herhalen, zou in ongeveer 95% van
de keren dit betrouwbaarheidsinterval het ware μ (Populatiegemiddelde) bevatten.
Dus:
● Het BI gaat niet over “zit mijn individuele gemeten waarde (de data) in het BI?” of “is
mijn individuele waarde juist?”.
● Het BI gaat wel over “welke μ‑waarden zijn plausibel gegeven mijn data en SE?”.
, 5
2) SE en betrouwbaarheidsinterval (BI)
→ Waarvoor dient de SE hierin?
● SE (= standaardfout) nodig voor het opstellen van het betrouwbaarheidsinterval rond je
schatting voor de populatieparameter.
→ Voor een 95%‑BI:
● Formule BI = schatting uit analyse +- 1,96×SE
→ SE klein ⇒ smal BI ⇒ parameter (μ) is preciezer gelokaliseerd. (bv bij grotere
steekproef)
→ SE groot ⇒ breed BI ⇒ parameter is onzekerder gelokaliseerd.
→ Kort: de SE bepaalt hoe breed je BI wordt, en dus hoe nauwkeurig je parameterinschatting
is.
3) Hoe beslis je “betrouwbaarheid”/significantie met een BI?
● Voor verschillen/β: kijk of 0 in het BI ligt.
○ 0 niet in BI → effect statistisch significant (op het gekozen niveau, bv. 5%).
● Voor OR/HR: kijk of 1 in het BI ligt.
○ 1 niet in BI → significant.
→ Dit zegt iets over statistische betrouwbaarheid (vraag: zou dit effect door
toeval kunnen komen? = niet-significant), niet automatisch over klinische
relevantie (vraag: is dit effect groot genoeg om medisch belangrijk te zijn?).
“Het effect” is de geschatte grootte van het verschil of verband (bv. verschil in
gemiddelden, β, OR). (verandering/associatie die je onderzoekt)
Het BI toont of dit effect statistisch significant verschilt van ‘geen effect’ (0 of 1),
maar zegt op zich niets over klinische relevantie.
Situatie die mogelijk is
, 6
● 95% BI:
[0.2;1.5]⇒ 0 zit niet in BI ⇒ significant
● 99% BI:
[−0.1;1.8]⇒ 0 zit wel in BI ⇒ onsignificant
→ Significant op 5% maar niet op 1%
→ De significantie hangt af van het gekozen betrouwbaarheidsniveau; hoger
betrouwbaarheidsniveau = ‘’strenger’’ voor significantie; een schatting kan dus significant zijn bij
95% maar niet bij 99%, omdat het betrouwbaarheidsinterval breder wordt bij hogere
betrouwbaarheid.
4) SE en significant vs niet‑significant:
Stel:
● verschil in gemiddelden = 2
● SE = 0,5
Dan:
● 95%‑BI = 2 ± 1,96×0,5 ≈ [1,02 ; 2,98]
● 0 zit niet in BI → het verschil in gemiddelden tussen bv 2 groepen is statistisch
significant.
Maar als:
● SE = 1,5 (en verschil in gemiddelden = 2)
Dan:
● 95%‑BI ≈ [‑0,94 ; 4,94]
● 0 zit wél in BI → niet significant verschil tussen de gemiddelden