Biostatistiek
Beschrijvende statistiek
Soorten variabelen:
Categorisch: populatie verdelen in categorieën
- Zonder orde, nominaal vb. bloedgroep (geen volgorde)
- Met orde, ordinaal vb. schaal met 5 niveaus
Numeriek: kwantitatief
- Discreet, geteld aantal (gehele getallen) vb. aantal ongelukken
- Continu (komma’s) vb. gewicht
Centrale locatie:
rekenkundig gemiddelde
- symmetrische verdeling
- gevoelig voor outliers
- alle info
mediaan
- verdeling niet symmetrisch
- ongevoelig voor outliers
- niet alle info
Spreiding:
variantie = gemiddelde kwadratische afwijking gemiddelde
standaardafwijking
- symmetrische verdeling
- gevoelig voor outliers
- alle info
interkwartiel afstand:
- hoeft niet symmetrisch
- ongevoelig voor outliers
- niet alle info
asymmetrische spreiding:
Range
Percentielen: p% van alle observaties kleiner
- Mediaan = p50 (50ste percentiel)
- Kwartielen: p25 en p75
- Decielen: p10, p20, p30
Box-whisker plot
Grafieken: snelle date visualizatie -> detectie afwijkende/foute metingen soort variabele bepaalt
type grafiek
Histogram: continue verdeling
Scatterplot: 2 continue variabelen
, Hoofdstuk 3: steekproef versus populatie
Sample = steekproef -> enige gegevens -> conclusie trekken over populatie = inferentie
Wenselijke eigenschappen:
Willekeurig
Onafhankelijk
Representatief
Onvertekend
Accuraat
Steekproef: geobserveerde data – beperkt – willekeurig uit populatie gehaald – beschrijvende
statistiek
Populatie: onbekend – oneindig – inferentiele statistiek
Inferentiele statistiek:
Onderliggende parameters afleiden op basis van steekproef
Onzekerheid op schatting
Theoretische verdeling variabelen
Hoofdstuk 4: Theoretische verdelingen
Data beschrijven adhv verdelingen
Random veranderlijke RV = variabele waarvan waarde afhangt van toevalsvariatie
Verschillende soorten:
Uniforme verdeling
Normale verdeling
Standaardnormale verdeling
Poisson verdeling
Binomiale verdeling
Xi = waarde variabele voor i-de experiment waarschijnlijkheidsdichtheidsfuncties
= gedrag Xi in populatie
geeft kans dat Xi de waarde x aanneemt vb: munstuk f(x) = P(X=x)
kan discreet of continu zijn
som alle kansen = 1
uniforme verdeling: kans is overal hetzelfde vb: kop of munt gooien
poisson verdeling: parameters landa = gemiddelde vb: aantal sexpartners -> landa = 1
normale verdeling: symmetrisch rondom gemiddelde, gemiddelde komt meeste voor, wordt
volledig gevormd rond gemiddelde met de standaardafwijking vb: lichaamslengte
Functie met parameters: soms theoretische bekend (dobbelsteen, munstuk), soms schatten uit
experiment (lichaamslengte, sexpartners)
Grafische weergave: oppervlakte onder de curve = 1, interval a-b = kans dat variabele waarde
aanneemt tussen a en b
Beschrijvende statistiek
Soorten variabelen:
Categorisch: populatie verdelen in categorieën
- Zonder orde, nominaal vb. bloedgroep (geen volgorde)
- Met orde, ordinaal vb. schaal met 5 niveaus
Numeriek: kwantitatief
- Discreet, geteld aantal (gehele getallen) vb. aantal ongelukken
- Continu (komma’s) vb. gewicht
Centrale locatie:
rekenkundig gemiddelde
- symmetrische verdeling
- gevoelig voor outliers
- alle info
mediaan
- verdeling niet symmetrisch
- ongevoelig voor outliers
- niet alle info
Spreiding:
variantie = gemiddelde kwadratische afwijking gemiddelde
standaardafwijking
- symmetrische verdeling
- gevoelig voor outliers
- alle info
interkwartiel afstand:
- hoeft niet symmetrisch
- ongevoelig voor outliers
- niet alle info
asymmetrische spreiding:
Range
Percentielen: p% van alle observaties kleiner
- Mediaan = p50 (50ste percentiel)
- Kwartielen: p25 en p75
- Decielen: p10, p20, p30
Box-whisker plot
Grafieken: snelle date visualizatie -> detectie afwijkende/foute metingen soort variabele bepaalt
type grafiek
Histogram: continue verdeling
Scatterplot: 2 continue variabelen
, Hoofdstuk 3: steekproef versus populatie
Sample = steekproef -> enige gegevens -> conclusie trekken over populatie = inferentie
Wenselijke eigenschappen:
Willekeurig
Onafhankelijk
Representatief
Onvertekend
Accuraat
Steekproef: geobserveerde data – beperkt – willekeurig uit populatie gehaald – beschrijvende
statistiek
Populatie: onbekend – oneindig – inferentiele statistiek
Inferentiele statistiek:
Onderliggende parameters afleiden op basis van steekproef
Onzekerheid op schatting
Theoretische verdeling variabelen
Hoofdstuk 4: Theoretische verdelingen
Data beschrijven adhv verdelingen
Random veranderlijke RV = variabele waarvan waarde afhangt van toevalsvariatie
Verschillende soorten:
Uniforme verdeling
Normale verdeling
Standaardnormale verdeling
Poisson verdeling
Binomiale verdeling
Xi = waarde variabele voor i-de experiment waarschijnlijkheidsdichtheidsfuncties
= gedrag Xi in populatie
geeft kans dat Xi de waarde x aanneemt vb: munstuk f(x) = P(X=x)
kan discreet of continu zijn
som alle kansen = 1
uniforme verdeling: kans is overal hetzelfde vb: kop of munt gooien
poisson verdeling: parameters landa = gemiddelde vb: aantal sexpartners -> landa = 1
normale verdeling: symmetrisch rondom gemiddelde, gemiddelde komt meeste voor, wordt
volledig gevormd rond gemiddelde met de standaardafwijking vb: lichaamslengte
Functie met parameters: soms theoretische bekend (dobbelsteen, munstuk), soms schatten uit
experiment (lichaamslengte, sexpartners)
Grafische weergave: oppervlakte onder de curve = 1, interval a-b = kans dat variabele waarde
aanneemt tussen a en b