Evidence based medicine &
statistiek 1
Les 1: inleidende begrippen
Statistiek
- Inductieve statistiek = inferentiële statistiek (populatieparameters schatten; hypotheses testen)
- Beschrijvende statistiek = descriptieve statistiek -> data analyseren door analyse van een steekproef
(gegevens sorteren, …)
➔ Inferenties maken over populatie
➔ Inductieve: schatten van populatieparameters of toetsen van populatie
- Biostatistiek -> toepassing op biologische signalen, data van patiënten
- Welke test toepassen in een artikel? (Goed over nadenken)
- Steekproef uit populatie waarin we geïnteresseerd zijn -> adhv steekproef iets te weten komen over
populatie
Populatie
- = verzameling van entiteiten (hoeven geen personen te zijn) die op zijn minst 1 karakteristiek of eigenschap
gemeen hebben
- Vb. Belgische kinesitherapeuten of lichaamslengte van 1ste jaarstudenten REVAKI
- N = doorgaans onbeperkt groot (niet altijd gekend)
- Moet duidelijk gedefinieerd worden (geen discussie mogelijk)
Steekproef
- Deelverzameling van entiteiten (toevallig) getrokken uit de studiepopulatie
- n = steekproefgrootte (altijd gekend)
- Steekproef moet representatief zijn voor populatie (op basis van steekproef iets
kunnen zeggen over populatie) (vermijden van bias)
- Toeval speelt een rol (moet)
- Gebruiken voor het schatten van populatieparameters en testen van hypothesen
Inductieve statistiek
- Nadenken over welke hypotheses worden geformuleerd
- Hypotheses kunnen verwerpen of aanvaarden
- Proces waarbij men veralgemeent van steekproef naar populatie wordt statistische
, inductie genoemd
- Inductie is altijd onderhevig aan onzekerheid
- Berekenen hoe groot de kans is op discrepanties tussen steekproef en populatie
Variabelen
- Karakteristiek van populatie die verschillende waarden (attributen) kan aannemen
➔ Attribuut: specifieke waarde die men aan een variabele toekent
• Onafhankelijke variabele: independent variable – explanatory variable – predictor
o Beïnvloedt of veroorzaakt de studievariabelen (=onafhankelijke variabele)
o Vb. geslacht
• Afhankelijke variabele: dependent variable – outcome variable
o Wordt beïnvloedt door andere variabelen
o Vb. spierkracht
- Vb. spierkracht mannen en vrouwen 🡪 v1 geslacht? (onafhankelijke) V2
spierkracht (afhankelijke)
- Vb. variabele (hoofdletter): bv. leeftijd
X= leeftijd
x1=18
x2=18
x3=19
Attribuut: ^18, 18, 19, …
!!! Meetniveau variabele DIA 7 -> Heel belangrijk!! (bepaalt welke richting we uit gaan in analyses)
- Legt verschillende meetniveaus uit
- Meetniveau bepaald alles !
- Nominaal
Variabele die in antwoord categorieën wordt uitgedrukt en die MUTUEEL
EXCLUSIEF (de categorieën sluiten elkaar wederzijds uit; je kan niet in 2
verschillende categorieën tegelijk zitten) zijn
Bv. Geslacht, bloedgroep, haarkleur, ja-nee vraag, …
Er kan GEEN RANGORDE worden aangenomen !
- Ordinaal
Categorieën met mutuele exclusiviteit MAAR WEL een rangorde
Bv. Leeftijdsklasse (iemand in categorie 1 is ouder dan iemand in categorie 2; LT1: <18, LT2: 18-25,
LT3: >25),
Bloeddruk (verhoogde, verlaagde, normale),
Medailles (goud, zilver, brons),
Graad van letsel (bv. stadium van kanker),
Inkomstniveau,
VAS-score (0-10)
➔ Nominale + ordinale zijn categorische variabelen -> hoeven we niet uit te drukken in
numerieke waarden (bv. Man of vrouw) Maar kan ook numeriek zijn (bv. Geslacht man
= 1 geslacht vrouw = 2) -> rangorde moet gerespecteerd blijven (3, 9, 15 ipv 9, 3, 15)
- Interval
Numerieke variabelen
Geen absoluut nulpunt (bv. Temperatuur in C°)
ABSOLUUT NULPUNT = het ontbreken van iets (wil dus niet zeggen dat er geen T is)
, Gelijke verschillen op meetschaal duiden op gelijke verschillen = 10 C° en 20 C° is even
groot als verschil tussen 30C° en 40 C°
Men mag niet spreken in vormen van ratio want er is geen absoluut nulpunt
- Ratio
Heeft een absoluut nulpunt (bv. Temperatuur in Kelvin)
Verschil tussen 60 en 70 = verschil tussen 90 en 100
Men mag zeggen dat 20K het dubbele is van 10 K want 0 K is het absoluut nulpunt
Bv. Lichaamslengte in cm/M, spierkracht in N, bloeddruk in cm/Hg druk, VAS score (met
streepje op schaal van 0 tot 10
! Leeftijd uitgedrukt in jaren MAAR kan ook een ordinale variabele zijn
➔ Interval en ratiovariabelen -> cijfers hebben wel een betekenis -> numerieke variabelen
- Herleiden tot variabelen kan leiden tot informatie verlies (bv. Leeftijdsklasse 25, iemand
kan 26 jr zijn of 40)
- Voor analyse zal er meestal geen onderscheiding gemaakt worden tussen interval en ratio
(3 klassen)
- Discrete (aftelbaar -> je kan het tellen bv. aantal kinderen in gezin -> niet 3,4)
VS Continue variabelen (kan continu variëren bv. lichaamsgewicht in kilo -> afh. van weegschaal, …)
- Kwalitatief (nominaal en ordinaal) = Categorisch
VS Kwantitatief (interval en ratio) = Numeriek
- Dichotome variabele = categorische variabele die wordt uitgedrukt in slecht 2
antwoordcategorieën (bv. Geslacht, pijn of geen pijn, kanker of geen kanker)
- Binaire variabele = is een voorbeeld van een dichotome variabele en het antwoord
wordt uitgedrukt in 0 of 1 (bv. Leven = 1, dood = 0)
- Soms kunnen we een variabele hercoderen naar ander meetniveau (bv. eerst leeftijd in
categorieën -> niet goed -> precieze leeftijd (of omgekeerd)
Variabele
- Karakteristiek van de studiepopulatie 🡪 X
- Wordt gemeten of waargenomen
- Kwantitatief of kwalitatief
- Variabelen moeten duidelijk gedefinieerd worden (bv. Bloeddruk meten of
- Variabele kan geclassificeerd worden als discrete - of continue variabelen
- Discreet= discreet aftelbaar 🡪 geen tussenliggende waarden mogelijk (bv. Aantal kinderen
in een gezin 2 of 3 niet 2,3)
➔ Meestal tellingen
- Continu = variabele die continu varieert 🡪 tussen 2 willekeurige waarden is steeds
een tussenliggende waarde mogelijk (bv. Lichaamslengte, kommagetallen)
, Frequentieverdeling
- Tabel bestaande uit minstens 2 kolommen
- 1ste kolom = verschillende mogelijke waarden
- 2de kolom = telling, frequentie
- Pariteit is aantal bevallingen
- 6 vrouwen 1x bevallen
- 4 vrouwen 2x bevallen
- Missing values = ontbrekende waarden (valid %)
- Cumulatief % = 1ste percentage optellen bij 2de -> laatste percentage is 100%
➔ Kan handig zijn 75% vrouwen pariteit (aantal bevallingen) 3 of minder
- Valid percentage: nog niet kennen
Kruistabellen
- Matrix
- Classificeren van items ahv 2 kwalitatieve variabelen (=categorische variabelen)
- Contingetietabel (r (rij) x k (kolom))
- Aantal of frequentie weergeven
- Percentage: rijpercentage, kolompercentage en totaalpercentage
- Totale rij- of kolomfrequenties = Marginaal totaal
2x2 tabel
- Kruistabel: nominale of ordinale variabele
- Rijvariabelen: leeftijd (ordinaal)
- Kolomvariabele: geslacht (nominaal)
- Marginaal kolomtotaal (vrouwen) 226 en 382
- Marginaal rijtotaal (mensen jonger dan 50 of ouder dan 50) 285 en 323
- n = 608
3
statistiek 1
Les 1: inleidende begrippen
Statistiek
- Inductieve statistiek = inferentiële statistiek (populatieparameters schatten; hypotheses testen)
- Beschrijvende statistiek = descriptieve statistiek -> data analyseren door analyse van een steekproef
(gegevens sorteren, …)
➔ Inferenties maken over populatie
➔ Inductieve: schatten van populatieparameters of toetsen van populatie
- Biostatistiek -> toepassing op biologische signalen, data van patiënten
- Welke test toepassen in een artikel? (Goed over nadenken)
- Steekproef uit populatie waarin we geïnteresseerd zijn -> adhv steekproef iets te weten komen over
populatie
Populatie
- = verzameling van entiteiten (hoeven geen personen te zijn) die op zijn minst 1 karakteristiek of eigenschap
gemeen hebben
- Vb. Belgische kinesitherapeuten of lichaamslengte van 1ste jaarstudenten REVAKI
- N = doorgaans onbeperkt groot (niet altijd gekend)
- Moet duidelijk gedefinieerd worden (geen discussie mogelijk)
Steekproef
- Deelverzameling van entiteiten (toevallig) getrokken uit de studiepopulatie
- n = steekproefgrootte (altijd gekend)
- Steekproef moet representatief zijn voor populatie (op basis van steekproef iets
kunnen zeggen over populatie) (vermijden van bias)
- Toeval speelt een rol (moet)
- Gebruiken voor het schatten van populatieparameters en testen van hypothesen
Inductieve statistiek
- Nadenken over welke hypotheses worden geformuleerd
- Hypotheses kunnen verwerpen of aanvaarden
- Proces waarbij men veralgemeent van steekproef naar populatie wordt statistische
, inductie genoemd
- Inductie is altijd onderhevig aan onzekerheid
- Berekenen hoe groot de kans is op discrepanties tussen steekproef en populatie
Variabelen
- Karakteristiek van populatie die verschillende waarden (attributen) kan aannemen
➔ Attribuut: specifieke waarde die men aan een variabele toekent
• Onafhankelijke variabele: independent variable – explanatory variable – predictor
o Beïnvloedt of veroorzaakt de studievariabelen (=onafhankelijke variabele)
o Vb. geslacht
• Afhankelijke variabele: dependent variable – outcome variable
o Wordt beïnvloedt door andere variabelen
o Vb. spierkracht
- Vb. spierkracht mannen en vrouwen 🡪 v1 geslacht? (onafhankelijke) V2
spierkracht (afhankelijke)
- Vb. variabele (hoofdletter): bv. leeftijd
X= leeftijd
x1=18
x2=18
x3=19
Attribuut: ^18, 18, 19, …
!!! Meetniveau variabele DIA 7 -> Heel belangrijk!! (bepaalt welke richting we uit gaan in analyses)
- Legt verschillende meetniveaus uit
- Meetniveau bepaald alles !
- Nominaal
Variabele die in antwoord categorieën wordt uitgedrukt en die MUTUEEL
EXCLUSIEF (de categorieën sluiten elkaar wederzijds uit; je kan niet in 2
verschillende categorieën tegelijk zitten) zijn
Bv. Geslacht, bloedgroep, haarkleur, ja-nee vraag, …
Er kan GEEN RANGORDE worden aangenomen !
- Ordinaal
Categorieën met mutuele exclusiviteit MAAR WEL een rangorde
Bv. Leeftijdsklasse (iemand in categorie 1 is ouder dan iemand in categorie 2; LT1: <18, LT2: 18-25,
LT3: >25),
Bloeddruk (verhoogde, verlaagde, normale),
Medailles (goud, zilver, brons),
Graad van letsel (bv. stadium van kanker),
Inkomstniveau,
VAS-score (0-10)
➔ Nominale + ordinale zijn categorische variabelen -> hoeven we niet uit te drukken in
numerieke waarden (bv. Man of vrouw) Maar kan ook numeriek zijn (bv. Geslacht man
= 1 geslacht vrouw = 2) -> rangorde moet gerespecteerd blijven (3, 9, 15 ipv 9, 3, 15)
- Interval
Numerieke variabelen
Geen absoluut nulpunt (bv. Temperatuur in C°)
ABSOLUUT NULPUNT = het ontbreken van iets (wil dus niet zeggen dat er geen T is)
, Gelijke verschillen op meetschaal duiden op gelijke verschillen = 10 C° en 20 C° is even
groot als verschil tussen 30C° en 40 C°
Men mag niet spreken in vormen van ratio want er is geen absoluut nulpunt
- Ratio
Heeft een absoluut nulpunt (bv. Temperatuur in Kelvin)
Verschil tussen 60 en 70 = verschil tussen 90 en 100
Men mag zeggen dat 20K het dubbele is van 10 K want 0 K is het absoluut nulpunt
Bv. Lichaamslengte in cm/M, spierkracht in N, bloeddruk in cm/Hg druk, VAS score (met
streepje op schaal van 0 tot 10
! Leeftijd uitgedrukt in jaren MAAR kan ook een ordinale variabele zijn
➔ Interval en ratiovariabelen -> cijfers hebben wel een betekenis -> numerieke variabelen
- Herleiden tot variabelen kan leiden tot informatie verlies (bv. Leeftijdsklasse 25, iemand
kan 26 jr zijn of 40)
- Voor analyse zal er meestal geen onderscheiding gemaakt worden tussen interval en ratio
(3 klassen)
- Discrete (aftelbaar -> je kan het tellen bv. aantal kinderen in gezin -> niet 3,4)
VS Continue variabelen (kan continu variëren bv. lichaamsgewicht in kilo -> afh. van weegschaal, …)
- Kwalitatief (nominaal en ordinaal) = Categorisch
VS Kwantitatief (interval en ratio) = Numeriek
- Dichotome variabele = categorische variabele die wordt uitgedrukt in slecht 2
antwoordcategorieën (bv. Geslacht, pijn of geen pijn, kanker of geen kanker)
- Binaire variabele = is een voorbeeld van een dichotome variabele en het antwoord
wordt uitgedrukt in 0 of 1 (bv. Leven = 1, dood = 0)
- Soms kunnen we een variabele hercoderen naar ander meetniveau (bv. eerst leeftijd in
categorieën -> niet goed -> precieze leeftijd (of omgekeerd)
Variabele
- Karakteristiek van de studiepopulatie 🡪 X
- Wordt gemeten of waargenomen
- Kwantitatief of kwalitatief
- Variabelen moeten duidelijk gedefinieerd worden (bv. Bloeddruk meten of
- Variabele kan geclassificeerd worden als discrete - of continue variabelen
- Discreet= discreet aftelbaar 🡪 geen tussenliggende waarden mogelijk (bv. Aantal kinderen
in een gezin 2 of 3 niet 2,3)
➔ Meestal tellingen
- Continu = variabele die continu varieert 🡪 tussen 2 willekeurige waarden is steeds
een tussenliggende waarde mogelijk (bv. Lichaamslengte, kommagetallen)
, Frequentieverdeling
- Tabel bestaande uit minstens 2 kolommen
- 1ste kolom = verschillende mogelijke waarden
- 2de kolom = telling, frequentie
- Pariteit is aantal bevallingen
- 6 vrouwen 1x bevallen
- 4 vrouwen 2x bevallen
- Missing values = ontbrekende waarden (valid %)
- Cumulatief % = 1ste percentage optellen bij 2de -> laatste percentage is 100%
➔ Kan handig zijn 75% vrouwen pariteit (aantal bevallingen) 3 of minder
- Valid percentage: nog niet kennen
Kruistabellen
- Matrix
- Classificeren van items ahv 2 kwalitatieve variabelen (=categorische variabelen)
- Contingetietabel (r (rij) x k (kolom))
- Aantal of frequentie weergeven
- Percentage: rijpercentage, kolompercentage en totaalpercentage
- Totale rij- of kolomfrequenties = Marginaal totaal
2x2 tabel
- Kruistabel: nominale of ordinale variabele
- Rijvariabelen: leeftijd (ordinaal)
- Kolomvariabele: geslacht (nominaal)
- Marginaal kolomtotaal (vrouwen) 226 en 382
- Marginaal rijtotaal (mensen jonger dan 50 of ouder dan 50) 285 en 323
- n = 608
3