BIOSTATISTIEK
Chapter 3: What is statistics?
Inleiding
Population – sample = We kunnen een oneindige/eindige populatie kiezen. Een welgedefinieerde
eindige populatie is bijvoorbeeld alle inwoners van België of alle inwoners van Europa. Indien
oneindig kunnen we maar een beperkte steekproef nemen en daar komt ruis bij kijken.
Metingen die onderhevig zijn aan schommelingen moeten een grotere steekproefgrootte krijgen!
Random variability = ruis, de prijs die we moeten bepalen voor het generaliseren van de
steekproef naar de populatie.
3.1 Captopril Data
We hebben 15 patiënten met hypertensie en testen de werking van een medicijn. Captopril zou
de bloeddruk verlagen. Belangrijk is: wanneer definiëren we iemand met hypertensie?
Hoe gaat de behandeling de bloeddruk beïnvloeden?
Opzet experiment:
We meten de effecten van een behandeling door een voor en na studie te doen in dezelfde
persoon. We meten de DBP en SBP voor en na een behandeling. DBP en SBP bevatten informatie
op zich, maar hangen ook samen waardoor we ze apart kunnen bekijken, maar ook de
samenhang tussen DBP en SBP.
In deze studie hebben we een situatie waarbij we binnen een persoon gaan vergelijken en 2
waarnemingen gaan koppelen.
Gepaarde T-toets
We zien dat de bloeddruk mooi daalt na behandeling <-> MAAR hoe waarschijnlijk is het dat de
waargenomen veranderingen in de bloeddruk door puur toeval ontstaan?
Als deze uitkomst is ontstaan door pure toeval hebben we dus geen bewijs voor de
doeltreffendheid voor de werking van Captopril.
In de statistiek willen we niet enkel conclusies trekken over 15 patiënten, maar willen we het
effect van Captopril toeschrijven aan de totale populatie van hypertensiepatiënten.
,Statistieken hebben tot doel conclusies te trekken over een bepaalde populatie, op basis van
wat is waargenomen in een willekeurige steekproef.
3.2 Population versus random sample
Doel statistiek = een conclusie trekken over een bepaalde populatie op basis van wat is
waargenomen in een willekeurige steekproef.
Populatie: Hypothetische groep van huidige en toekomstige proefpersonen, met een specifieke
conditie, waarover conclusies moeten worden getrokken
Steekproef: Subgroep van de populatie waarop observaties worden uitgevoerd
Om ervoor te zorgen dat de effecten die in de steekproef worden waargenomen,
generaliseerbaar zijn naar de totale populatie, moet de steekproef willekeurig worden genomen.
3.3 The aim of statistics
Het doel van de statistiek is tweezijdig
1) Beschrijvende statistiek: Samenvatten en beschrijven van waargenomen gegevens,
zodat de relevante aspecten expliciet worden gemaakt = Visualisatie populatie
Voorbeelden: tabellen, grafieken, berekeningen, gemiddelden
2) Inferentiële statistieken: Onderzoeken in hoeverre waargenomen trends/effecten kunnen
worden gegeneraliseerd naar een algemene (oneindige) populatie
Grote link tussen de steekproef en de populatie waar we conclusies uit wensen te
trekken
Extrapolatie = overstap steekproef naar de populatie waarover je een uitspraak wilt
doen
Voorbeelden: correcte statistische methodologie en correcte interpretatie van resultaten
Schatter μ = best mogelijke uitspraak over de populatie op basis van de steekproef
(=niet met zekerheid)
Chapter 4 Summary statistics
Geven aanleiding tot de inferentiële statistiek. We berekenen bijvoorbeeld een gemiddeld aan de
hand van een steekproef en willen een uitspraak doen over de populatie: dan gaan we het
gemiddelde gebruiken om de populatieparameter μ te schatten. Schatters maken dus gebruik
van de beschrijvende statistiek.
,4.2 Measures of location
Steekproefgemiddelde x →
Steekproefmediaan: middelste getal van de observatie →
Steekproefmodus: de waarde dat we het meest observeren →
Opmerkingen:
- Het gemiddelde is zeer gevoelig aan grote uitschieters <-> mediaan geeft dan een beter
idee over de ligging van de observaties
- Bij een symmetrische of normaalverdeling zijn de modus, mediaan en het gemiddelde
gelijk <-> scheve verdelingen
- In een scheve verdeling is de modus de piek
- Voor symmetrische verdelingen kiezen we best het gemiddelde en voor scheve
verdelingen best de mediaan als locatiemaat (ivm uitschieters)
4.3 Measures of spread
Gemiddelde afwijking van het gemiddelde →
Gemiddelde kwadratische afwijking van het gemiddelde →
Steekproef variantie →
Steekproef standaarddeviatie →
Range →
Interkwartielafstand: de range na het verwijderen van de 25% hoogste en 25% kleinste waarden
→
Opmerkingen:
- De gemiddelde afwijking van het gemiddelde is altijd 0 ≠ goede spreidingsmaat
- We zouden dan de absolute waardes kunnen nemen, maar dan krijgen we veel
wiskundige problemen en sprongen. We kunnen dan beter het kwadraat nemen.
, - De variantie is een wiskundige handige maat. We delen hier door n-1 want je kan altijd 1
onafhankelijke halen uit je andere bekenden.
- Belangrijk is het kwadraat van de variantie zodat onze eenheden terug kloppen in het
experiment. (We willen bv. Geen mmHg in het kwadraat)
- Standaardeviatie ≠ standaardfout (er is nu eenmaal een verschil in bloeddruk in de
populatie)
- De range is zeer afhankelijk van de sample size n ≠ interkwartielafstand
- Een grotere populatiegrootte heeft een grotere kans om extreme waarden te bevatten
- De variantie, standaarddeviatie en de range zijn zeer gevoelig aan uitschieters <->
interkwartielafstand
- Bij symmetrische data gebruiken we de standaard deviatie en voor scheve verdelingen
de interkwartielafstand om de spreiding te bepalen
4.4 Percentages
Percentage →
Hervorming variantie →
Proportie is equivalent aan percentage, maar ligt tussen 0 en 1
Opmerkingen:
- In sommige gevallen berekenen we de proportie
- We berekenen dan enkel het gemiddelde: hoe groot de afwijking is, is dan minder van
belang aangezien we enkel de waarde 0 en 1 kunnen bekomen
Chapter 5: Confidence intervals & hypothesis testing
5.1 Random variability
Captopril experiment:
Captopril is een geneesmiddel dat de bloeddruk zou moeten verlagen. We testen dit op een
steekproef van n=15. We merken op dat er een gemiddelde afname is van 9.27 mmHg is obv het
experiment (=beschrijvende statistiek) MAAR indien we een andere steekproef zouden nemen,
zouden we dan dezelfde uitkomst bekomen of een andere gemiddelde afname of zelfs toename
bekomen? We wensen de Δ van de populatie.
Vraag: Volstaat onze 9.27 mmHg daling als bewijs dat de behandeling effect heeft op de BD?
Oplossing: We nemen 9.27 als onze schatter voor µ en moeten nu voldoende bewijs verzamelen
door betrouwbaarheidsintervallen en hypothesen
Is de µ significant verschillend van 0? We zouden zeggen van wel met onze bekomen waarde van
9.27 mmHg, maar dit is een waarde obv de steekproef. We willen een corresponderende
populatiewaarde?
DUS hoe zal het dan in de populatie zijn?
,5.2 The confidence interval
Betrouwbaarheidsniveau: het percentage 95% → dit wordt traditioneel gebruikt!
Betrouwbaarheidsinterval: het interval van de schatter voor µ die waarschijnlijk het onbekende
populatiegemiddelde µ bevat
BI van onze studie:
Met 95% zekerheidheid ligt de werkelijke populatieparameter tussen 4.91 en 13.63 dus zelfs in
het meest pessimistische scenario hebben we nogsteeds een reductie van de BP ( geen – getal)
Opmerkingen:
- Een 100% betrouwbaarheidsinterval biedt formeel de hoogste zekerheid, maar de
waarden liggen dan tussen -∞ en +∞ en zijn dus niet bruikbaar
- Hoe groter het niveau: hoe groter het BI
- Stel dat je niet wilt afwijken van je 95% BI, maar een kleiner interval wilt dan gaan we over
naar een grotere steekproefgrootte => heb je in de hand
- Meer observaties geven ons een betere, preciezere schatting van μ, wat resulteert in een
kleinere standaardfout en een smaller betrouwbaarheidsinterval
Conclusie: Een praktisch interval moet een balans vinden tussen voldoende betrouwbaarheid
(bijvoorbeeld 95%) en een beheersbare intervalgrootte – iets wat kan worden bereikt door de
steekproefomvang te vergroten. (Meer geld om de studie op te zetten)
Intuïtief:
- Grotere BI: meer kans om de onbekende populatieparameter μ te bevatten
- De grootte van het BI verkleint met een toenemende steekproefgrootte n
- Meer observaties/meer steekproeven leidt tot meer precisie
5.3 Interpretation of the confidence interval
Interpretatie: voor een specifieke dataset kan het betrouwbaarheidsgeval wel of niet µ bevatten.
Het is echter zeer waarschijnlijk dat het µ bevat, aangezien slechts 5 van de 100 datasets
zouden leiden tot een interval dat geen µ bevat. (95% betrouwbaarheidsinterval)
Dit is echter bij een populatie BI. We zien dat als we de steekproeven met grote precisie heel veel
keer opnieuw herhalen, dat bij 95% van de gevallen de waarden ertussen liggen.
5.4 Hypothesis testing
Belangrijk om te herinneren dat μ nooit geweten zal zijn, maar we kunnen wel onze steekproef
gebruiken om meer te weten over μ!!!
,Als de behandeling geen effect zou hebben dan zou de gemiddelde µ = 0 zijn. Indien we kunnen
bewijzen dat dit niet zo is, kunnen we besluiten dat de behandeling de bloeddruk beïnvloedt.
MAAR µ = 9,27 kan ook door puur toeval zijn
Oplossing: hypothesetesten
In een hypothesetest toetsen we de nulhypothese H0:μ=0 (de behandeling heeft geen effect)
tegen de alternatieve hypothese H1:μ≠0 (de behandeling heeft wel effect). Op basis van onze
waargenomen gegevens zullen we onderzoeken of H0 kan worden verworpen ten gunste van HA
(=alternatieve hypothese)
Als dat niet het geval is, wordt de nulhypothese H0 geaccepteerd en besluit men dat de
behandeling niet effectief was
! Heel vaak ga je dus datgene dat je wilt weten omgekeerd formuleren
Verwerpen/accepteren van hypothesen → p-waarden
Significantieniveau α (type I fout): typische kleine waarde vooraf bepaald → typisch α = 0.05/5%
p<α =⇒ reject H0
p≥α =⇒ accept H0
Opmerkingen:
- Zeer kleine p-waarde: extreme waarden waarbij H0 waar is = H0 verwerpen
- Grote p-waarde: de bekomen waarde is in lijn met wat we verwachten = H0 accepteren
5.5 Hypothesis testing versus confidence intervals
Opmerkingen:
- Het betrouwbaarheidsinterval en het significantieniveau zijn complementair aan elkaar
- Een 95% C.I. is de verzameling van alle nulhypothesen die zouden worden geaccepteerd
in een statistische test
- C.I.'s > statistische tests → geven de effectgrootte + de precisie van de schatting
- Nadeel p-waarde: dimensieloos en zegt weinig over de resultaten
- BI is veel makkelijker te hanteren: behoudt de eenheden in de medische wereld
Level of Confidence level (1
significance α − α)100%
0.05 95%
0.10 90%
0.01 99%
,5.7 Enkele verdere beschouwingen bij het toetsen van hypothesen
Een resultaat, om zinvol te zijn, moet “twee barrières” nemen
1) Het resultaat moet significant zijn: zo weten we dat we wel degelijk naar signaal kijken,
eerder dan ruis.
2) Het resultaat moet (klinisch, epidemiologisch, psychologisch, tandheelkundig,. . . )
relevant zijn.
5.8 Overzicht: Standaarddeviatie, standaardfout, p-waarde en betrouwbaarheidsinterval
Normaal verdeelde veranderlijke:
- σ2 is de theoretische populatie-variantie
- σ is de theoretische standaardeviatie
Opmerkingen:
- De random variabiliteit wordt gevat in de grootheid σ2 → hoe groter, hoe meer
variabiliteit tussen de waarnemingen
Normaal verdeelde veranderlijke met een steekproef n: →
- σ2 /n: de theoretische steekproef-variantie
- σ/√ n: de theoretische standaardfout
Opmerkingen:
- µ is het gemiddelde voor de hele populatie en is de schatting, gebaseerd op een
steekproef
- σ grootheden vervangen door s indien we spreken over een steekproef
Z-scores
Z-scores worden gebruikt om percentielen te berekenen binnen een normaalverdeling. een Z-
score van 1,96 (bij een 95% betrouwbaarheidsniveau) betekent dat 95% van de gegevens binnen
1,96 standaardafwijkingen van het gemiddelde ligt.
Betrouwbaarheidsinterval obv de steekproef:
Opmerkingen:
- De nulhypothese wordt verworpen als het geschat verschil groter is dan twee keer de
standaardfout in absolute waarde:
- Schatter = bv. verschil in gemiddelde tussen behandelde en placebo patiënten
- Geldt enkel bij een normaalverdeling
- Het betrouwbaarheidsinterval is tweezijdig: we sluiten waarde uit die zeer ver beneden
en zeer ver boven het gemiddelde liggen.
,Standaardiseren
Door te standaardiseren krijgen data een gemiddelde van 0 en een standaardafwijking van 1, wat
het eenvoudiger maakt om ze te interpreteren en te vergelijken
Opmerkingen:
- Als Z groter wordt, daalt de p-waarde: ze wordt significant & de nulhypothese ligt buiten
het betrouwbaarheidsinterval
➔ minder waarschijnlijk dat de waargenomen waarde onder de nulhypothese is
verkregen
- Als Z kleiner wordt, stijgt de p-waarde: ze wordt niet-significant & de nulhypothese ligt
binnen het betrouwbaarheidsinterval.
➔ waargenomen verschil waarschijnlijker toe te schrijven aan toeval
Wat indien de gegevens niet-normaal verdeeld zijn?
Door de ‘wet van de grote getallen’ en de ‘centrale limiet stelling’ geldt dat (in heel veel gevallen)
ongeveer normaal verdeeld is, ook al zijn de individuele datapunten dat niet. Maar dan moet
de steekproef wel “groot genoeg” zijn!
Opmerking:
- σ is niet gekend maar wordt geschat op basis van de gegevens →
5.10 Nog enkele beschouwingen over het design
2-groepsexperiment: bv. 15 mensen krijgen placebo en een andere groep van 15 mensen krijgen
de actieve behandeling toegediend <-> Captopril data observeert dezelfde mensen voor
behandeling (placebo) en na actieve behandeling.
Strikt genomen kunnen we geen definitieve conclusies trekken uit het verschil tussen
voor- en nameting. Immers, het verschil kan in principe zowel aan natuurlijke evolutie als
effect van behandeling te wijten zijn.
Het is wel zo dat in natuurlijke omstandigheden bloeddruk eerder gaat stijgen met de
leeftijd, of over kortere periodes zo goed als constant blijft. Het feit dat we toch een
daling zien kunnen we dus op basis van klinische expertise wel aan de behandeling
toeschrijven.
Oplossing: cross-over studies, waar sommige mensen eerst placebo krijgen en dan de
actieve behandeling en omgekeerd.
,Chapter 6: Use and misuse of statistics
6.1 Possible errors in decision making
Statistieken kunnen alles bewijzen <-> Absolute zekerheid over populatiekenmerken kan niet
worden verkregen op basis van een eindige steekproef van observaties
Bv. Captopril-behandeling, verkregen we p = 0,001: verwerping van de nulhypothese van geen
behandelingseffect MAAR zelfs als de behandeling helemaal geen effect heeft, zou een
steekproef als de onze eenmaal elke 1000 keer voorkomen.
Hypothese verwerpen wil niet zeggen dat de behandeling werkt!
Omgekeerd: indien we een p-waarde bekomen van 0.98 betekent het niet dat de nulhypothese
waar is. Het betekent dat de kans bijzonder groot is dat de nulhypothese waar is, maar ook
theoretisch mogelijk dat het andere gebeurt.
Evidentie aanbrengen ≠ bewijs leveren dat dingen juist zijn
6.2 Two types of error
Type I-fout α : H0 wordt onterecht afgewezen ➔ Je hebt corona, maar de test zegt van niet
Type II-fout β: H0 wordt onterecht geaccepteerd ➔ Je hebt geen corona, maar de test zegt van
wel
Opmerkingen:
- De kans op het maken van een type I-fout = significantieniveau α
- α = 5% dus in 5% van de gevallen kan een type I-fout worden gemaakt
- We willen de 2 fouten zo klein mogelijk, maar verkleinen van de ene gaat ten koste van de
andere fout
- Oplossing om ze allebei te verbeteren = steekproefgroottes vergroten
- Voor een vast α-niveau kunnen we de kans op een type II fout berekenen INDIEN
voldoende grote steekproef! ➔ steekproefgrootteberekeningen of powerberekeningen
6.3 Nominaal niveau, Power & type II fout
Power: kans op het correct verwerpen van H0 (1 - kans op het maken van een type II-fout)
oftewel de kans dat je de alternatieve hypothese terecht aanneemt en dus de sterkte om de
nulhypothese te verwerpen.
Power = vermogen → 1 – β
We willen de power groot en de type II fout dus klein
Nominaal niveau: ander woord voor de type I fout die we voorop stellen
, 6.4 Multiple testing
Hoe meer tests iemand uitvoert, hoe groter de waarschijnlijkheid dat iets door puur toeval wordt
gedetecteerd.
Als men heel veel testen doet is het zeer waarschijnlijk dat er enkele significanten zijn. Dit kan
men misbruiken in artikels of onderzoeken. We onderzoeken dan puur ruis.
Meervoudige correctie nodig
6.5 Verdere beschouwingen omtrent “Multiple Comparisons
Multiple testing: meermaals toetsen/meerdere toetsen uitvoeren
Opmerking:
- Per toets is de kans dat je enkel juiste testresultaten verkrijgt kleiner →
met k = uitgevoerde toetsen
- Voor zeer veel toetsen, zijn we dus bijna zeker dat we fouten maken
- Voor elke test moeten we strenger zijn zodat we globaal uitkomen op een foutenmarge
van 5% ( = veel duurdere en langere studie)
Conclusie: Er is controle van de type I fout nodig →
6.6 Equivalence tests
Equivalentie test: In plaats van de klassieke hypothese H0: µ = 0, te verwerpen, willen we bij
deze test de H0 hypothese accepteren. Er mag dus geen belangrijke verbetering of
verslechtering zijn binnen een bepaald marge. We gaan hierbij een omgekeerde hypothese
formuleren want de H0 hypothese is de uitkomst die je niet wilt.
! Belangrijk is dat we het verschil bepalen voor dat we de testen doen. Baken een
tolerantiegebied af, bijvoorbeeld [−∆, +∆] waarbinnen het verschil als niet-bestaand wordt
beschouwd. Als we een verschil daarbuiten vinden spreken we van niet-equivalentie. Een
significant resultaat komt dus overeen met equivalentie.
H₀ = er is een groot verschil, H₁ = er is geen voldoende groot verschil.
Bv. We testen 2 geneesmiddelen A en B met elkaar. Ze MOETEN evengoed werken dus µ = 0
willen we aannemen.
Non-Inferiority test: Indien het nieuwe geneesmiddel beter werkt is dat ook goed.
6.9 Overzicht m.b.t. de vier toetsingssituaties Vier toetsingssituaties:
Klassieke tweezijdige toets → H₀ = beide middelen zijn gelijk, H₁ = er is een verschil.
Klassieke eenzijdige toets → H₀ = het nieuwe middel is niet beter, H₁ = het nieuwe middel is
beter.
Chapter 3: What is statistics?
Inleiding
Population – sample = We kunnen een oneindige/eindige populatie kiezen. Een welgedefinieerde
eindige populatie is bijvoorbeeld alle inwoners van België of alle inwoners van Europa. Indien
oneindig kunnen we maar een beperkte steekproef nemen en daar komt ruis bij kijken.
Metingen die onderhevig zijn aan schommelingen moeten een grotere steekproefgrootte krijgen!
Random variability = ruis, de prijs die we moeten bepalen voor het generaliseren van de
steekproef naar de populatie.
3.1 Captopril Data
We hebben 15 patiënten met hypertensie en testen de werking van een medicijn. Captopril zou
de bloeddruk verlagen. Belangrijk is: wanneer definiëren we iemand met hypertensie?
Hoe gaat de behandeling de bloeddruk beïnvloeden?
Opzet experiment:
We meten de effecten van een behandeling door een voor en na studie te doen in dezelfde
persoon. We meten de DBP en SBP voor en na een behandeling. DBP en SBP bevatten informatie
op zich, maar hangen ook samen waardoor we ze apart kunnen bekijken, maar ook de
samenhang tussen DBP en SBP.
In deze studie hebben we een situatie waarbij we binnen een persoon gaan vergelijken en 2
waarnemingen gaan koppelen.
Gepaarde T-toets
We zien dat de bloeddruk mooi daalt na behandeling <-> MAAR hoe waarschijnlijk is het dat de
waargenomen veranderingen in de bloeddruk door puur toeval ontstaan?
Als deze uitkomst is ontstaan door pure toeval hebben we dus geen bewijs voor de
doeltreffendheid voor de werking van Captopril.
In de statistiek willen we niet enkel conclusies trekken over 15 patiënten, maar willen we het
effect van Captopril toeschrijven aan de totale populatie van hypertensiepatiënten.
,Statistieken hebben tot doel conclusies te trekken over een bepaalde populatie, op basis van
wat is waargenomen in een willekeurige steekproef.
3.2 Population versus random sample
Doel statistiek = een conclusie trekken over een bepaalde populatie op basis van wat is
waargenomen in een willekeurige steekproef.
Populatie: Hypothetische groep van huidige en toekomstige proefpersonen, met een specifieke
conditie, waarover conclusies moeten worden getrokken
Steekproef: Subgroep van de populatie waarop observaties worden uitgevoerd
Om ervoor te zorgen dat de effecten die in de steekproef worden waargenomen,
generaliseerbaar zijn naar de totale populatie, moet de steekproef willekeurig worden genomen.
3.3 The aim of statistics
Het doel van de statistiek is tweezijdig
1) Beschrijvende statistiek: Samenvatten en beschrijven van waargenomen gegevens,
zodat de relevante aspecten expliciet worden gemaakt = Visualisatie populatie
Voorbeelden: tabellen, grafieken, berekeningen, gemiddelden
2) Inferentiële statistieken: Onderzoeken in hoeverre waargenomen trends/effecten kunnen
worden gegeneraliseerd naar een algemene (oneindige) populatie
Grote link tussen de steekproef en de populatie waar we conclusies uit wensen te
trekken
Extrapolatie = overstap steekproef naar de populatie waarover je een uitspraak wilt
doen
Voorbeelden: correcte statistische methodologie en correcte interpretatie van resultaten
Schatter μ = best mogelijke uitspraak over de populatie op basis van de steekproef
(=niet met zekerheid)
Chapter 4 Summary statistics
Geven aanleiding tot de inferentiële statistiek. We berekenen bijvoorbeeld een gemiddeld aan de
hand van een steekproef en willen een uitspraak doen over de populatie: dan gaan we het
gemiddelde gebruiken om de populatieparameter μ te schatten. Schatters maken dus gebruik
van de beschrijvende statistiek.
,4.2 Measures of location
Steekproefgemiddelde x →
Steekproefmediaan: middelste getal van de observatie →
Steekproefmodus: de waarde dat we het meest observeren →
Opmerkingen:
- Het gemiddelde is zeer gevoelig aan grote uitschieters <-> mediaan geeft dan een beter
idee over de ligging van de observaties
- Bij een symmetrische of normaalverdeling zijn de modus, mediaan en het gemiddelde
gelijk <-> scheve verdelingen
- In een scheve verdeling is de modus de piek
- Voor symmetrische verdelingen kiezen we best het gemiddelde en voor scheve
verdelingen best de mediaan als locatiemaat (ivm uitschieters)
4.3 Measures of spread
Gemiddelde afwijking van het gemiddelde →
Gemiddelde kwadratische afwijking van het gemiddelde →
Steekproef variantie →
Steekproef standaarddeviatie →
Range →
Interkwartielafstand: de range na het verwijderen van de 25% hoogste en 25% kleinste waarden
→
Opmerkingen:
- De gemiddelde afwijking van het gemiddelde is altijd 0 ≠ goede spreidingsmaat
- We zouden dan de absolute waardes kunnen nemen, maar dan krijgen we veel
wiskundige problemen en sprongen. We kunnen dan beter het kwadraat nemen.
, - De variantie is een wiskundige handige maat. We delen hier door n-1 want je kan altijd 1
onafhankelijke halen uit je andere bekenden.
- Belangrijk is het kwadraat van de variantie zodat onze eenheden terug kloppen in het
experiment. (We willen bv. Geen mmHg in het kwadraat)
- Standaardeviatie ≠ standaardfout (er is nu eenmaal een verschil in bloeddruk in de
populatie)
- De range is zeer afhankelijk van de sample size n ≠ interkwartielafstand
- Een grotere populatiegrootte heeft een grotere kans om extreme waarden te bevatten
- De variantie, standaarddeviatie en de range zijn zeer gevoelig aan uitschieters <->
interkwartielafstand
- Bij symmetrische data gebruiken we de standaard deviatie en voor scheve verdelingen
de interkwartielafstand om de spreiding te bepalen
4.4 Percentages
Percentage →
Hervorming variantie →
Proportie is equivalent aan percentage, maar ligt tussen 0 en 1
Opmerkingen:
- In sommige gevallen berekenen we de proportie
- We berekenen dan enkel het gemiddelde: hoe groot de afwijking is, is dan minder van
belang aangezien we enkel de waarde 0 en 1 kunnen bekomen
Chapter 5: Confidence intervals & hypothesis testing
5.1 Random variability
Captopril experiment:
Captopril is een geneesmiddel dat de bloeddruk zou moeten verlagen. We testen dit op een
steekproef van n=15. We merken op dat er een gemiddelde afname is van 9.27 mmHg is obv het
experiment (=beschrijvende statistiek) MAAR indien we een andere steekproef zouden nemen,
zouden we dan dezelfde uitkomst bekomen of een andere gemiddelde afname of zelfs toename
bekomen? We wensen de Δ van de populatie.
Vraag: Volstaat onze 9.27 mmHg daling als bewijs dat de behandeling effect heeft op de BD?
Oplossing: We nemen 9.27 als onze schatter voor µ en moeten nu voldoende bewijs verzamelen
door betrouwbaarheidsintervallen en hypothesen
Is de µ significant verschillend van 0? We zouden zeggen van wel met onze bekomen waarde van
9.27 mmHg, maar dit is een waarde obv de steekproef. We willen een corresponderende
populatiewaarde?
DUS hoe zal het dan in de populatie zijn?
,5.2 The confidence interval
Betrouwbaarheidsniveau: het percentage 95% → dit wordt traditioneel gebruikt!
Betrouwbaarheidsinterval: het interval van de schatter voor µ die waarschijnlijk het onbekende
populatiegemiddelde µ bevat
BI van onze studie:
Met 95% zekerheidheid ligt de werkelijke populatieparameter tussen 4.91 en 13.63 dus zelfs in
het meest pessimistische scenario hebben we nogsteeds een reductie van de BP ( geen – getal)
Opmerkingen:
- Een 100% betrouwbaarheidsinterval biedt formeel de hoogste zekerheid, maar de
waarden liggen dan tussen -∞ en +∞ en zijn dus niet bruikbaar
- Hoe groter het niveau: hoe groter het BI
- Stel dat je niet wilt afwijken van je 95% BI, maar een kleiner interval wilt dan gaan we over
naar een grotere steekproefgrootte => heb je in de hand
- Meer observaties geven ons een betere, preciezere schatting van μ, wat resulteert in een
kleinere standaardfout en een smaller betrouwbaarheidsinterval
Conclusie: Een praktisch interval moet een balans vinden tussen voldoende betrouwbaarheid
(bijvoorbeeld 95%) en een beheersbare intervalgrootte – iets wat kan worden bereikt door de
steekproefomvang te vergroten. (Meer geld om de studie op te zetten)
Intuïtief:
- Grotere BI: meer kans om de onbekende populatieparameter μ te bevatten
- De grootte van het BI verkleint met een toenemende steekproefgrootte n
- Meer observaties/meer steekproeven leidt tot meer precisie
5.3 Interpretation of the confidence interval
Interpretatie: voor een specifieke dataset kan het betrouwbaarheidsgeval wel of niet µ bevatten.
Het is echter zeer waarschijnlijk dat het µ bevat, aangezien slechts 5 van de 100 datasets
zouden leiden tot een interval dat geen µ bevat. (95% betrouwbaarheidsinterval)
Dit is echter bij een populatie BI. We zien dat als we de steekproeven met grote precisie heel veel
keer opnieuw herhalen, dat bij 95% van de gevallen de waarden ertussen liggen.
5.4 Hypothesis testing
Belangrijk om te herinneren dat μ nooit geweten zal zijn, maar we kunnen wel onze steekproef
gebruiken om meer te weten over μ!!!
,Als de behandeling geen effect zou hebben dan zou de gemiddelde µ = 0 zijn. Indien we kunnen
bewijzen dat dit niet zo is, kunnen we besluiten dat de behandeling de bloeddruk beïnvloedt.
MAAR µ = 9,27 kan ook door puur toeval zijn
Oplossing: hypothesetesten
In een hypothesetest toetsen we de nulhypothese H0:μ=0 (de behandeling heeft geen effect)
tegen de alternatieve hypothese H1:μ≠0 (de behandeling heeft wel effect). Op basis van onze
waargenomen gegevens zullen we onderzoeken of H0 kan worden verworpen ten gunste van HA
(=alternatieve hypothese)
Als dat niet het geval is, wordt de nulhypothese H0 geaccepteerd en besluit men dat de
behandeling niet effectief was
! Heel vaak ga je dus datgene dat je wilt weten omgekeerd formuleren
Verwerpen/accepteren van hypothesen → p-waarden
Significantieniveau α (type I fout): typische kleine waarde vooraf bepaald → typisch α = 0.05/5%
p<α =⇒ reject H0
p≥α =⇒ accept H0
Opmerkingen:
- Zeer kleine p-waarde: extreme waarden waarbij H0 waar is = H0 verwerpen
- Grote p-waarde: de bekomen waarde is in lijn met wat we verwachten = H0 accepteren
5.5 Hypothesis testing versus confidence intervals
Opmerkingen:
- Het betrouwbaarheidsinterval en het significantieniveau zijn complementair aan elkaar
- Een 95% C.I. is de verzameling van alle nulhypothesen die zouden worden geaccepteerd
in een statistische test
- C.I.'s > statistische tests → geven de effectgrootte + de precisie van de schatting
- Nadeel p-waarde: dimensieloos en zegt weinig over de resultaten
- BI is veel makkelijker te hanteren: behoudt de eenheden in de medische wereld
Level of Confidence level (1
significance α − α)100%
0.05 95%
0.10 90%
0.01 99%
,5.7 Enkele verdere beschouwingen bij het toetsen van hypothesen
Een resultaat, om zinvol te zijn, moet “twee barrières” nemen
1) Het resultaat moet significant zijn: zo weten we dat we wel degelijk naar signaal kijken,
eerder dan ruis.
2) Het resultaat moet (klinisch, epidemiologisch, psychologisch, tandheelkundig,. . . )
relevant zijn.
5.8 Overzicht: Standaarddeviatie, standaardfout, p-waarde en betrouwbaarheidsinterval
Normaal verdeelde veranderlijke:
- σ2 is de theoretische populatie-variantie
- σ is de theoretische standaardeviatie
Opmerkingen:
- De random variabiliteit wordt gevat in de grootheid σ2 → hoe groter, hoe meer
variabiliteit tussen de waarnemingen
Normaal verdeelde veranderlijke met een steekproef n: →
- σ2 /n: de theoretische steekproef-variantie
- σ/√ n: de theoretische standaardfout
Opmerkingen:
- µ is het gemiddelde voor de hele populatie en is de schatting, gebaseerd op een
steekproef
- σ grootheden vervangen door s indien we spreken over een steekproef
Z-scores
Z-scores worden gebruikt om percentielen te berekenen binnen een normaalverdeling. een Z-
score van 1,96 (bij een 95% betrouwbaarheidsniveau) betekent dat 95% van de gegevens binnen
1,96 standaardafwijkingen van het gemiddelde ligt.
Betrouwbaarheidsinterval obv de steekproef:
Opmerkingen:
- De nulhypothese wordt verworpen als het geschat verschil groter is dan twee keer de
standaardfout in absolute waarde:
- Schatter = bv. verschil in gemiddelde tussen behandelde en placebo patiënten
- Geldt enkel bij een normaalverdeling
- Het betrouwbaarheidsinterval is tweezijdig: we sluiten waarde uit die zeer ver beneden
en zeer ver boven het gemiddelde liggen.
,Standaardiseren
Door te standaardiseren krijgen data een gemiddelde van 0 en een standaardafwijking van 1, wat
het eenvoudiger maakt om ze te interpreteren en te vergelijken
Opmerkingen:
- Als Z groter wordt, daalt de p-waarde: ze wordt significant & de nulhypothese ligt buiten
het betrouwbaarheidsinterval
➔ minder waarschijnlijk dat de waargenomen waarde onder de nulhypothese is
verkregen
- Als Z kleiner wordt, stijgt de p-waarde: ze wordt niet-significant & de nulhypothese ligt
binnen het betrouwbaarheidsinterval.
➔ waargenomen verschil waarschijnlijker toe te schrijven aan toeval
Wat indien de gegevens niet-normaal verdeeld zijn?
Door de ‘wet van de grote getallen’ en de ‘centrale limiet stelling’ geldt dat (in heel veel gevallen)
ongeveer normaal verdeeld is, ook al zijn de individuele datapunten dat niet. Maar dan moet
de steekproef wel “groot genoeg” zijn!
Opmerking:
- σ is niet gekend maar wordt geschat op basis van de gegevens →
5.10 Nog enkele beschouwingen over het design
2-groepsexperiment: bv. 15 mensen krijgen placebo en een andere groep van 15 mensen krijgen
de actieve behandeling toegediend <-> Captopril data observeert dezelfde mensen voor
behandeling (placebo) en na actieve behandeling.
Strikt genomen kunnen we geen definitieve conclusies trekken uit het verschil tussen
voor- en nameting. Immers, het verschil kan in principe zowel aan natuurlijke evolutie als
effect van behandeling te wijten zijn.
Het is wel zo dat in natuurlijke omstandigheden bloeddruk eerder gaat stijgen met de
leeftijd, of over kortere periodes zo goed als constant blijft. Het feit dat we toch een
daling zien kunnen we dus op basis van klinische expertise wel aan de behandeling
toeschrijven.
Oplossing: cross-over studies, waar sommige mensen eerst placebo krijgen en dan de
actieve behandeling en omgekeerd.
,Chapter 6: Use and misuse of statistics
6.1 Possible errors in decision making
Statistieken kunnen alles bewijzen <-> Absolute zekerheid over populatiekenmerken kan niet
worden verkregen op basis van een eindige steekproef van observaties
Bv. Captopril-behandeling, verkregen we p = 0,001: verwerping van de nulhypothese van geen
behandelingseffect MAAR zelfs als de behandeling helemaal geen effect heeft, zou een
steekproef als de onze eenmaal elke 1000 keer voorkomen.
Hypothese verwerpen wil niet zeggen dat de behandeling werkt!
Omgekeerd: indien we een p-waarde bekomen van 0.98 betekent het niet dat de nulhypothese
waar is. Het betekent dat de kans bijzonder groot is dat de nulhypothese waar is, maar ook
theoretisch mogelijk dat het andere gebeurt.
Evidentie aanbrengen ≠ bewijs leveren dat dingen juist zijn
6.2 Two types of error
Type I-fout α : H0 wordt onterecht afgewezen ➔ Je hebt corona, maar de test zegt van niet
Type II-fout β: H0 wordt onterecht geaccepteerd ➔ Je hebt geen corona, maar de test zegt van
wel
Opmerkingen:
- De kans op het maken van een type I-fout = significantieniveau α
- α = 5% dus in 5% van de gevallen kan een type I-fout worden gemaakt
- We willen de 2 fouten zo klein mogelijk, maar verkleinen van de ene gaat ten koste van de
andere fout
- Oplossing om ze allebei te verbeteren = steekproefgroottes vergroten
- Voor een vast α-niveau kunnen we de kans op een type II fout berekenen INDIEN
voldoende grote steekproef! ➔ steekproefgrootteberekeningen of powerberekeningen
6.3 Nominaal niveau, Power & type II fout
Power: kans op het correct verwerpen van H0 (1 - kans op het maken van een type II-fout)
oftewel de kans dat je de alternatieve hypothese terecht aanneemt en dus de sterkte om de
nulhypothese te verwerpen.
Power = vermogen → 1 – β
We willen de power groot en de type II fout dus klein
Nominaal niveau: ander woord voor de type I fout die we voorop stellen
, 6.4 Multiple testing
Hoe meer tests iemand uitvoert, hoe groter de waarschijnlijkheid dat iets door puur toeval wordt
gedetecteerd.
Als men heel veel testen doet is het zeer waarschijnlijk dat er enkele significanten zijn. Dit kan
men misbruiken in artikels of onderzoeken. We onderzoeken dan puur ruis.
Meervoudige correctie nodig
6.5 Verdere beschouwingen omtrent “Multiple Comparisons
Multiple testing: meermaals toetsen/meerdere toetsen uitvoeren
Opmerking:
- Per toets is de kans dat je enkel juiste testresultaten verkrijgt kleiner →
met k = uitgevoerde toetsen
- Voor zeer veel toetsen, zijn we dus bijna zeker dat we fouten maken
- Voor elke test moeten we strenger zijn zodat we globaal uitkomen op een foutenmarge
van 5% ( = veel duurdere en langere studie)
Conclusie: Er is controle van de type I fout nodig →
6.6 Equivalence tests
Equivalentie test: In plaats van de klassieke hypothese H0: µ = 0, te verwerpen, willen we bij
deze test de H0 hypothese accepteren. Er mag dus geen belangrijke verbetering of
verslechtering zijn binnen een bepaald marge. We gaan hierbij een omgekeerde hypothese
formuleren want de H0 hypothese is de uitkomst die je niet wilt.
! Belangrijk is dat we het verschil bepalen voor dat we de testen doen. Baken een
tolerantiegebied af, bijvoorbeeld [−∆, +∆] waarbinnen het verschil als niet-bestaand wordt
beschouwd. Als we een verschil daarbuiten vinden spreken we van niet-equivalentie. Een
significant resultaat komt dus overeen met equivalentie.
H₀ = er is een groot verschil, H₁ = er is geen voldoende groot verschil.
Bv. We testen 2 geneesmiddelen A en B met elkaar. Ze MOETEN evengoed werken dus µ = 0
willen we aannemen.
Non-Inferiority test: Indien het nieuwe geneesmiddel beter werkt is dat ook goed.
6.9 Overzicht m.b.t. de vier toetsingssituaties Vier toetsingssituaties:
Klassieke tweezijdige toets → H₀ = beide middelen zijn gelijk, H₁ = er is een verschil.
Klassieke eenzijdige toets → H₀ = het nieuwe middel is niet beter, H₁ = het nieuwe middel is
beter.