Hoofdstuk 1: fundamentele concepten ........................................................................ 4
1.1. Introducerend materiaal .................................................................................. 4
1.2. Wat is statistiek?............................................................................................ 4
1.3. Samenvattende statistiek ................................................................................ 5
1.4. Betrouwbaarheidsinterval & hypothese testing .................................................. 7
1.5. Gebruik en fout gebruik van de statistiek ........................................................ 11
1.6. data structuren en types ................................................................................ 15
Hoofdstuk 2: kruistabellen ....................................................................................... 20
2.1. Parametrische en niet-parametrische methoden................................................ 20
2.2. Kruistabellen .............................................................................................. 20
2.3. 𝜒2-test voor kruistabellen ............................................................................. 21
2.4. Fisher’s exact test ........................................................................................ 24
2.5. Schatting voor de associatie .......................................................................... 25
2.6. R x C kruistballen........................................................................................ 25
2.7. Mantel-Heanszel statistiek ............................................................................ 25
Hoofdstuk 3: t-test ................................................................................................... 27
3.1. Voorbeeld: captopril data .............................................................................. 27
3.2. Two-sample t-test ........................................................................................ 27
3.3. Gepaarde t-test ............................................................................................ 28
3.4. De rol van de t-verdeling .............................................................................. 28
3.5. Effect van positieve correlatie bij gepaarde metingen ....................................... 28
3.6. Enkele opmerkingen over de t-test ................................................................. 29
Hoofdstuk 4: lineaire regressie.................................................................................. 30
4.1. Introductie tot lineaire regressie..................................................................... 30
4.2. Eenvoudige lineaire regressie ........................................................................ 31
4.2.5. Het lineaire regressiemodel ....................................................................... 34
4.3. Modeldiagnostiek ........................................................................................ 37
4.4. Invloedrijke observaties ............................................................................... 43
Hoofdstuk 5: analyse van variantie (ANOVA) ........................................................... 46
5.1. Voorbeeld ................................................................................................... 46
, 5.2. Paiwise t-test .............................................................................................. 46
5.3. One-way ANOVA ....................................................................................... 46
5.4. Modeldiagnostiek ........................................................................................ 48
5.5. Invloedrijke observaties ............................................................................... 49
Hoofdstuk 6: logistische regressie ............................................................................. 50
6.1. Inleiding..................................................................................................... 50
6.2. gebruik van logistische regressie ................................................................... 52
6.3. Case study: Ille-et-Vilaine ............................................................................ 54
Hoofdstuk 7: surveys – de belgische gezondheisenquête ............................................. 60
7.1. Achtergrond................................................................................................ 60
7.2. Verschillen in categorieën ............................................................................. 60
7.3. Onderzoeksopzet ......................................................................................... 60
7.4. Regionale en provinciale stratificatie.............................................................. 61
7.5. Overzicht van stratificatie ............................................................................. 62
7.6. Multi-stage sampling ................................................................................... 62
7.7. Overzicht van multi-stage sampling en clustering ............................................ 63
7.8. Gewichten .................................................................................................. 64
7.9. Analyse van de resultaten ............................................................................. 64
7.10. Grootte van steekproeven in deelgebieden ................................................... 64
Hoofdstuk 8: klinisch onderzoek ............................................................................... 66
8.1. statistishe methoden in geneesmiddelenontwikkeling ....................................... 66
8.2. Cross-over studies ....................................................................................... 72
Hoofdstuk 9: herhaalde metingen ............................................................................. 75
9.1. Introductie en voorbeelden van herhaalde metingen ......................................... 75
9.2. Het concept van longitudinale studies ............................................................ 77
9.3. Cross-sectionele vs longitudinale data ............................................................ 79
9.4. Een geschikt hulpmiddel: het lineaire gemengde model .................................... 80
Hoofdstuk 10: ontbrekende data ............................................................................... 84
10.1. Voorbeeld: age-related macular degeneration trial ........................................ 84
10.2. Notatie ................................................................................................... 84
10.3. Mechanismen van missingness .................................................................. 84
10.4. Modellen voor missing data ...................................................................... 85
, 10.5. Terminologie en structuur ......................................................................... 86
Hoofdstuk 11: overlevingsanalyse .......................................................................... 87
11.1. Overlevingsanalyse zonder censoring ...................................................... 87
11.2. Overlevingsanalyse met censuur (censoring) ........................................... 87
11.3. Regressiemodellen voor survival data ...................................................... 88
Hoofdstuk 12: Concepten van experimenten: test op homeopathie ............................. 90
12.1. Blinding ................................................................................................. 90
12.2. Placebo................................................................................................... 90
12.3. Het ultieme experiment............................................................................. 91
12.4. De statistieken ......................................................................................... 91
12.5. Errors in statistiek .................................................................................... 92
,Hoofdstuk 1: fundamentele concepten
1.1. Introducerend materiaal
Ø Motivatie
- Statistiek in de (bio)medische literatuur
- Correct analyseren van de verzamelde data
- Correcte interpretatie van de resultaten
1.2. Wat is statistiek?
1.2.1. Captopril data
ð 15 patiënten met hypertensie
ð We willen graag de verandering bloeddruk weten voor en na de behandeling
met captopril
ð Onderzoeksvraag: welke invloed heeft de behandeling op de bloeddruk
ð We hebben voor alle 15 patiënten 4 metingen
- Diastolische bloeddruk voor de behandeling
- Systolische bloeddruk voor de behandeling
- Diastolische bloeddruk na de behandeling
- Systolische bloeddruk na de behandeling
ð We nemen voor elk van deze bovenstaande metingen het gemiddelde
ð We zien bij iedere patiënt eenzelfde dalende trend
- Veel variatie tussen mensen onderling = ruis = natuurlijke variabiliteit
- Trend over tijd is wel vrij stabiel
ð Hoe waarschijnlijk is het dat deze verandering is ontstaan door toevalligheden
(en dus niet door het toegediende middel)?
- Wanneer dit zeer onwaarschijnlijk is, kunnen we hieruit concluderen dat de
bloeddruk daalt na het toedienen van captotril
- Wanneer dit niet zo onwaarschijnlijk is, kunnen we hieruit niks
concluderen
ð We voeren herhaalde metingen uit
ð Statistiek streeft ernaar om conclusies te trekken over de populatie gebaseerd
op de conclusie die getrokken is uit een random steekproef
- Steekproef moet dus representatief zijn!
- De steekproef moet de populatie zo goed mogelijk representeren
1.2.2. Populatie vs steekproef
ð Populatie = groep waar we een uitspraak over willen doen
ð Steekproef = subgroep van de populatie waarop observaties zullen worden
uitgevoerd
- Steekproef moet willekeurig zijn!
, 1.2.3. Het doel van de statistiek
ð Twee doelen
- Beschrijvende statistiek = het samenvatten en beschrijven van de
geobserveerde data
- Inferentiële statistiek = Het maken van voorspellingen of generalisaties
over een populatie op basis van een steekproef van die populatie (=
extrapolatie)
1.3. Samenvattende statistiek
Ø Bij kwantitatieve data gebruikt men dikwijls kengetallen die welbepaalde
karakteristieken van de datasets resumeren
- Kengetallen voor locatie
- Kengetallen voor spreiding
1.3.1. Kengetallen voor locatie
ð We willen de karakteristiek ‘plaats’ van een dataset resumeren door één enkel
getal
ð Het gemiddelde
- Is een voor de hand gelegen methode om het centrum van een dataset te
kenmerken
- Nadeel: wordt heel sterk beïnvloed door de aanwezigheid van uitschieters
ð De mediaan
- Is een betere manier om juist het centrum van een dataset te kenmerken,
het is tijdrovend bij meer data gegevens
= Het middelste getal, indien n oneven is
= Het rekenkundig gemiddelde van twee getallen, indien n oneven is
- Bij gegroepeerde waarnemingsgetallen kunnen we de definitie van een
mediaan niet direct toepassen aangezien het middelste getal verborgen zit
in een klasse
ð Bij een normaalverdeling mediaan = gemiddelde
ð Bij een scheve verdeling mediaan ≠ gemiddelde
- Gemiddelde ligt meer in de richting van de lange staart
ð Modus
- Het getal wat het meest voorkomt
- Bij een goede normaalverdeling is deze gelijk aan het gemiddelde en de
mediaan
- Niet altijd informatief
ð Bij symmetrische verdelingen geven we de voorkeur aan het gemiddelde
ð Bij scheve verdelingen geven we de voorkeur aan de mediaan
1.3.2. Kengetallen voor spreiding
ð Spreiding kwantificeren
ð Verschillende datasets (eventueel met hetzelfde gemiddelde) vergelijken
, ð Gemiddelde van de afwijkingen
- Wanneer we willen weten hoe sterk de data van hun centrale waarde 𝑥̅
afwijken dan moeten we vooreerst alle afwijkingen bekijken van elke xi ten
opzichte van 𝑥̅
!
- ∑"#$!(𝑥# − 𝑥̅ )
"
- Deze kan niet dienen als maat voor spreiding à is gelijk aan 0
ð Gemiddelde van de kwadratische afwijkingen
- Om alle afwijkingen als positieve getallen weer te geven neemt men het
kwadraat van de afwijkingen
!
- ∑"#$!(𝑥# − 𝑥̅ ) %
"
ð Variantie s2
- Als maat voor spreiding kan men dan het gemiddelde nemen van deze
kwadratische afwijkingen
- Om deze reden wordt er niet gedeeld door n maar wel door n-1
!
- s2 = "&! ∑"#$!(𝑥# − 𝑥̅ ) %
ð Standaardafwijkingen s
- Is het getal gegeven door de positieve vierkantswortel uit de variantie
!
- s = *"&! ∑"#$!(𝑥# − 𝑥̅ ) %
-
Standaardafwijking ≠ standaardfout!
Standaardafwijking = natuurlijke spreiding in populatie
Standaardfout = wanneer we waarden schatten met fouten
ð Sample range
- Grootste – kleinste waarde
- Sterk afhankelijk van de steekproefgrootte n
- Grote steekproeven hebben meer kans om outliers te bevatten
ð Interkwartielafstand IQR = Q3 - Q1
"'!
- Het eerste kwartiel Q1 is het getal met rangnummer (
(25% laagste gegevens)
"'!
- Het tweede kwartiel Q2 is het getal met rangnummer %
(mediaan)
"'!
- Het derde kwartiel Q3 is het getal met rangnummer 3 (
(25% grootste gegevens)
- IQR is niet afhankelijk van de steekproef grootte n
ð Bij symmetrische verdelingen geven we de voorkeur aan de
standaardafwijking s
ð Bij scheve verdelingen geven we de voorkeur aan de IQR
1.3.3. Percentages
ð Classificaties maken
ð Het gemiddelde van deze classificaties = fractie (percentage)