SAMENVATTING STATISTIEK
Toegepaste statistiek = analyseren van data om wetenschappelijke vraag te beantwoorden
Data Observaties/waarnemingen/metingen op variabelen
Variabelen Kenmerken die worden gemeten/geobserveerd
Steekproef Onderzoekspopulatie, die zoveel mogelijk gelijkt op de doelpopulatie
Doelpopulatie Ruimere populatie waarover we uitspraak willen doen
Onderzoeksvormen van medisch wetenschappelijk onderzoek:
1) Observationeel = enkel observaties, metingen op de proefpersonen geen interventie
Observationeel cohort = observatie van een groep ptn
Restrospectief, transversaal (cross-sectioneel) of prospectief
Case-control = groep ptn met bep aandoeningen vergelijken met controlepersonen
Retrospectief
2) Experimenteel = onderzoeker onderneemt interventie effect evalueren
Experimenteel cohort = volgen van 2 groepen (interventiegroep & controlegroep)
Altijd prospectief
Afhankelijke (uitkomst)variabele Willen we voorspellen of verklaren
Onafhankelijke variabele Determinanten, verklarende variabelen, voorspellers,
predictoren
Categorische/categoriale/kwalitatieve var - Nominaal = niet geordend, exclusief
- Ordinaal = geordend, exclusief
= var dat bepaald # uitkomsten/categorieën kan
- Dichotoom = 2 categorieën
hebben
dummy codering (1 & 0)
Numerieke/kwantitatieve var - Discreet = gehele getallen/aantallen
- Continu = oneindig # waarden
- interval = elk interval zelfde waarde
= Cijfers/berekeningen - ratio = natuurlijk nulpunt
Hercoderen = omzetten van numerieke var naar categorische var (niet omgekeerd)
Soorten statistiek:
1) Beschrijvende statistiek = overzichtelijk samenvatten v data, zonder te kijken nr mogelijke verbanden
of relaties
2) Verklarende/inferentiële statistiek = schatten van effecten/relaties
Schatten van betrouwbaarheid v/d onderzoeksresultaten, p-waarde
Hypothesen testen
1
,H2: BESCHRIJVENDE STATISTIEK
Tabel 1: Grafische weergave binnen beschrijvende statistiek
Soort variabele Dichotoom/categoriaal Continu/numeriek
Normaal Niet-normaal
Numeriek Frequentietabel Gemiddelde Mediaan
- Frequentie SD P25 & P75
- Percentage
- Valide %
- Cumulatief %
- Missende
waarden
Grafisch Staafdiagram Histogram
Bij 2 var: geclusterd Bij 2 var: puntenwolk (scatterplot)
Taartdiagram “Stem & leaf”-plot of “Box & whisker”-plot
Tabel 2: Numerieke weergave van continue variabelen (centrummaten)
Centrummaten = meest typische/centrale waarden
Modus = meest voorkomende waarde in dataset:
Voordeel = makkelijk bepaald voor categorische/continue var
Nadeel = negeert meeste data (weinig informatief), niet wiskundig berekend
Rekenkundig gemiddelde = meest gebruikt:
n
∑ xi som van alle waarden
x= i=1 =
n aantal waarden
Voordeel = gebruikt alle data, wiskundig berekend
Nadeel = beïnvloed door uitschieters & scheve verdelingen enkel bij normale verdeling!
Mediaan = 50e percentiel (P50):
Alle waarden ordenen van laag nr hoog middelste waarde
Voordeel = niet beïnvloed door uitschieters & scheve verdelingen
Nadeel = negeert meeste data, niet wiskundig berekend
Geometrisch gemiddelde:
geometrisch gemiddelde=e gemiddelde ( ln ( xi) )
Transformatie niet-normaal verdeelde (rechts-scheve) var naar normaal verdeelde var:
Natuurlijk logaritme nemen v elke waarde gemiddelde hiervan nemen
Terug transformeren: inverse v natuurlijk logaritme (opnieuw oorspronkelijke eenheid)
Voordeel = voor terug-transformatie zelfde voordelen als gemiddelde
Nadeel = enkel nuttig als natuurlijk logaritme normale verdeling teweeg brengt
Normale verdeling: symmetrisch gemiddelde = mediaan:
Klokvorm = 95% vd waarnemingen tssn gem +/- 2*SD
Niet normale-verdeling: asymmetrisch gemiddelde ≠ mediaan (uitschieters):
1) Scheef naar rechtse verdeling = positive skew:
Gemiddelde > mediaan (uitschieters rechts)
# mensen rechts, merendeel links
2) Scheef naar linkse verdeling = negative skew:
Gemiddelde < mediaan (uitschieters links)
2
, # mensen links, merendeel rechts
Tabel 3: Numerieke weergave van continue variabelen (spreidingsmaten)
Spreidingsmaten = zit iedereen rond gemiddelde?
Variantie
Voordeel = gebruikt elke observatie, wiskundig berekend
Nadeel = eenheid kwadraat van eenheid var, gevoelig vr uitschieters, niet voor scheve data
Standaarddeviatie = gemiddelde afstand v elke observatie tot het gemiddelde
Voordeel = elke observatie, wiskundig, zelfde eenheid als var, makkelijk geïnterpreteerd
Nadeel = gevoelig vr uitschieters, niet voor scheve data
Range = (minimum, maximum)
Voordeel = makkelijk te bepalen
Nadeel = bekijkt maar 2 waarden, beïnvloed door uitschieters/grotere steekproeven
Interkwartiel-range = (P25, P75) = middelste 50% van de observaties
Voordeel = niet beïnvloed door uitschieters, onafhankelijk van n, goed voor scheve data
Nadeel = moeilijk te berekenen, niet te berekenen voor kleine steekproeven, slechts 2 waarden,
niet wiskundig berekend
Box-and-whisker plot = box-plot:
Uitbijters = waarden die meer dan 1,5x de boxhoogte afwijken
vd boven- of ondergrens van de box
Symmetrie = als snorharen ± even lang zijn
Geen symmetrie = als snorharen verschillend zijn
Normaliteit nagaan van continue variabelen belang vr keuze
beschrijvende/verklarende statistiek:
1) Observeren histogram = visuele inspectie
2) Vergelijken gemiddelde en mediaan = hoe ver van elkaar?
3) Vergelijken gemiddelde en SD (klokvorm?) = ligt ong. 95% binnen 2SD onder/boven gem?
Kan enkel bij var die alleen maar pos waarden kan hebben
Gem ~ SD bij var die enkel pos waarden kan hebben onmogelijk normaal verdeeld
H3: VERKLARENDE STATISTIEK
Doelpopulatie populatieparameters niet berekenen afleiden uit steekproefresultaten
Onderzoekspopulatie = steekproef steekproefresultaten of puntschattingen
In hoeverre generaliseren naar de doelpopulatie?
3
Toegepaste statistiek = analyseren van data om wetenschappelijke vraag te beantwoorden
Data Observaties/waarnemingen/metingen op variabelen
Variabelen Kenmerken die worden gemeten/geobserveerd
Steekproef Onderzoekspopulatie, die zoveel mogelijk gelijkt op de doelpopulatie
Doelpopulatie Ruimere populatie waarover we uitspraak willen doen
Onderzoeksvormen van medisch wetenschappelijk onderzoek:
1) Observationeel = enkel observaties, metingen op de proefpersonen geen interventie
Observationeel cohort = observatie van een groep ptn
Restrospectief, transversaal (cross-sectioneel) of prospectief
Case-control = groep ptn met bep aandoeningen vergelijken met controlepersonen
Retrospectief
2) Experimenteel = onderzoeker onderneemt interventie effect evalueren
Experimenteel cohort = volgen van 2 groepen (interventiegroep & controlegroep)
Altijd prospectief
Afhankelijke (uitkomst)variabele Willen we voorspellen of verklaren
Onafhankelijke variabele Determinanten, verklarende variabelen, voorspellers,
predictoren
Categorische/categoriale/kwalitatieve var - Nominaal = niet geordend, exclusief
- Ordinaal = geordend, exclusief
= var dat bepaald # uitkomsten/categorieën kan
- Dichotoom = 2 categorieën
hebben
dummy codering (1 & 0)
Numerieke/kwantitatieve var - Discreet = gehele getallen/aantallen
- Continu = oneindig # waarden
- interval = elk interval zelfde waarde
= Cijfers/berekeningen - ratio = natuurlijk nulpunt
Hercoderen = omzetten van numerieke var naar categorische var (niet omgekeerd)
Soorten statistiek:
1) Beschrijvende statistiek = overzichtelijk samenvatten v data, zonder te kijken nr mogelijke verbanden
of relaties
2) Verklarende/inferentiële statistiek = schatten van effecten/relaties
Schatten van betrouwbaarheid v/d onderzoeksresultaten, p-waarde
Hypothesen testen
1
,H2: BESCHRIJVENDE STATISTIEK
Tabel 1: Grafische weergave binnen beschrijvende statistiek
Soort variabele Dichotoom/categoriaal Continu/numeriek
Normaal Niet-normaal
Numeriek Frequentietabel Gemiddelde Mediaan
- Frequentie SD P25 & P75
- Percentage
- Valide %
- Cumulatief %
- Missende
waarden
Grafisch Staafdiagram Histogram
Bij 2 var: geclusterd Bij 2 var: puntenwolk (scatterplot)
Taartdiagram “Stem & leaf”-plot of “Box & whisker”-plot
Tabel 2: Numerieke weergave van continue variabelen (centrummaten)
Centrummaten = meest typische/centrale waarden
Modus = meest voorkomende waarde in dataset:
Voordeel = makkelijk bepaald voor categorische/continue var
Nadeel = negeert meeste data (weinig informatief), niet wiskundig berekend
Rekenkundig gemiddelde = meest gebruikt:
n
∑ xi som van alle waarden
x= i=1 =
n aantal waarden
Voordeel = gebruikt alle data, wiskundig berekend
Nadeel = beïnvloed door uitschieters & scheve verdelingen enkel bij normale verdeling!
Mediaan = 50e percentiel (P50):
Alle waarden ordenen van laag nr hoog middelste waarde
Voordeel = niet beïnvloed door uitschieters & scheve verdelingen
Nadeel = negeert meeste data, niet wiskundig berekend
Geometrisch gemiddelde:
geometrisch gemiddelde=e gemiddelde ( ln ( xi) )
Transformatie niet-normaal verdeelde (rechts-scheve) var naar normaal verdeelde var:
Natuurlijk logaritme nemen v elke waarde gemiddelde hiervan nemen
Terug transformeren: inverse v natuurlijk logaritme (opnieuw oorspronkelijke eenheid)
Voordeel = voor terug-transformatie zelfde voordelen als gemiddelde
Nadeel = enkel nuttig als natuurlijk logaritme normale verdeling teweeg brengt
Normale verdeling: symmetrisch gemiddelde = mediaan:
Klokvorm = 95% vd waarnemingen tssn gem +/- 2*SD
Niet normale-verdeling: asymmetrisch gemiddelde ≠ mediaan (uitschieters):
1) Scheef naar rechtse verdeling = positive skew:
Gemiddelde > mediaan (uitschieters rechts)
# mensen rechts, merendeel links
2) Scheef naar linkse verdeling = negative skew:
Gemiddelde < mediaan (uitschieters links)
2
, # mensen links, merendeel rechts
Tabel 3: Numerieke weergave van continue variabelen (spreidingsmaten)
Spreidingsmaten = zit iedereen rond gemiddelde?
Variantie
Voordeel = gebruikt elke observatie, wiskundig berekend
Nadeel = eenheid kwadraat van eenheid var, gevoelig vr uitschieters, niet voor scheve data
Standaarddeviatie = gemiddelde afstand v elke observatie tot het gemiddelde
Voordeel = elke observatie, wiskundig, zelfde eenheid als var, makkelijk geïnterpreteerd
Nadeel = gevoelig vr uitschieters, niet voor scheve data
Range = (minimum, maximum)
Voordeel = makkelijk te bepalen
Nadeel = bekijkt maar 2 waarden, beïnvloed door uitschieters/grotere steekproeven
Interkwartiel-range = (P25, P75) = middelste 50% van de observaties
Voordeel = niet beïnvloed door uitschieters, onafhankelijk van n, goed voor scheve data
Nadeel = moeilijk te berekenen, niet te berekenen voor kleine steekproeven, slechts 2 waarden,
niet wiskundig berekend
Box-and-whisker plot = box-plot:
Uitbijters = waarden die meer dan 1,5x de boxhoogte afwijken
vd boven- of ondergrens van de box
Symmetrie = als snorharen ± even lang zijn
Geen symmetrie = als snorharen verschillend zijn
Normaliteit nagaan van continue variabelen belang vr keuze
beschrijvende/verklarende statistiek:
1) Observeren histogram = visuele inspectie
2) Vergelijken gemiddelde en mediaan = hoe ver van elkaar?
3) Vergelijken gemiddelde en SD (klokvorm?) = ligt ong. 95% binnen 2SD onder/boven gem?
Kan enkel bij var die alleen maar pos waarden kan hebben
Gem ~ SD bij var die enkel pos waarden kan hebben onmogelijk normaal verdeeld
H3: VERKLARENDE STATISTIEK
Doelpopulatie populatieparameters niet berekenen afleiden uit steekproefresultaten
Onderzoekspopulatie = steekproef steekproefresultaten of puntschattingen
In hoeverre generaliseren naar de doelpopulatie?
3