Lijn veterinaire professional: Statistiek
Elise van Gool; Diergeneeskunde UU, jaar 2, sem. 1
Versie 1.0
,Elise van Gool
2024
1 INHOUD
2 definities __________________________________________________________________ 3
3 onderzoeksopzet en mate van bewijs _______________________________________ 6
4 kansrekenen _______________________________________________________________ 8
4.1 optelling (+) ___________________________________________________________________ 8
4.2 vermenigvuldiging (×) __________________________________________________________ 8
5 diagrammen _______________________________________________________________ 9
5.1 staafdiagram / bar graph ______________________________________________________ 9
5.2 histogram _____________________________________________________________________ 9
5.3 cirkel diagram / pie chart ______________________________________________________ 9
5.4 spreidingsdiagram / scatterplot ______________________________________________ 10
5.5 cumulatieve frequentie polygoon _____________________________________________ 10
5.6 lijn diagram __________________________________________________________________ 10
5.7 boxplot ______________________________________________________________________ 11
6 hypothesen _______________________________________________________________ 12
6.1 nulhypothese en alternatieve hypothese ______________________________________ 12
6.2 fouten _______________________________________________________________________ 12
6.3 sample size __________________________________________________________________ 12
6.4 betrouwbaarheidsinterval ____________________________________________________ 12
7 t-toets 1 groep (test 1) _____________________________________________________ 13
8 t-toets 2 groepen (test 2) ___________________________________________________ 15
9 gepaarde t-toets (test 4) ___________________________________________________ 16
10 proportietoets (test 6) ___________________________________________________ 17
11 chi-kwadraat toets (test 8) _______________________________________________ 18
12 mc-nemar toets (test 9) __________________________________________________ 19
13 toetsoverzicht __________________________________________________________ 20
Pagina 2 van 23
, Elise van Gool
2024
2 DEFINITIES
- Variabele = een kenmerk dat variërende waardes aan kan nemen
o Kwalitatieve variabele = Categorische variabele =
▪ Nominaal = categorieën die niet op volgorde kunnen worden gezet
▪ Ordinaal = categorieën die wel op volgorde kunnen worden gezet
▪ Binair = twee categorieën mogelijk
o Kwantitatieve variabele = numerieke variabele =
▪ Discreet/discontinu = de data kan maar specifieke (hele) waarden
aannemen
▪ Continu = de data kan alle mogelijke waarden aannemen (alleen
misschien gelimiteerd met een bovenste en onderste limiet)
- Populatie = alle representatieven van je vraagstelling
- Steekproef = sample = een subgroep van de populatie, die zo representatief mogelijk is
voor de gehele populatie
o Random sampling = onafhankelijke trekkingen voor je steekproef: een gekozen
individu beïnvloedt niet de kans dat een ander individu wordt gekozen; alle
individuen in de populatie hebben dezelfde kans op gekozen te worden.
- Diagrammen
o Staafdiagram = gebruik je voor categorische gegevens, zowel ordinaal als
nominaal
o Histogram = gebruik je voor numerieke continue gegevens
o Cirkeldiagram = gebruik je voor categorische nominale gegevens
o Scatterplot = spreidingsdiagram = gebruik je voor continue numerieke gegevens
o Cumulatieve frequentiepolygoon = gebruik je voor continue numerieke gegevens
o Lijndiagram = gebruik je voor continue numerieke gegevens
o Boxplot = gebruik je voor continue numerieke gegevens
- Centrummaat = measure of location = een indicatie van waar het "centrum" van een
dataset ligt. Het is een waarde die de typische of gemiddelde positie van de gegevens
weergeeft, en wordt vaak gebruikt om een samenvattend cijfer te geven van een dataset.
o Rekenkundig gemiddelde = arithmic mean = de som van alle waarden delen door
het aantal waarden in de dataset. Het geeft een goed overzicht van het centrum
van de gegevens, maar is gevoelig voor uitschieters
o Mediaan = median = de middelste waarde wanneer de data op volgorde is gezet.
De mediaan is robuust tegen uitschieters en geeft een beter beeld van het
centrum als de data scheef verdeeld is.
o Modus = mode = de waarde die het vaakst voorkomt in de dataset. Het is vooral
handig bij categorische data of bij datasets waarin bepaalde waarden vaak
herhaald worden.
o Geometrisch gemiddelde = geometric mean = wordt berekend door de n-de wortel
te nemen van het product (*) van de n waarden.
- Spreidingsmaat = measure of dispersion = geeft aan hoe de data verspreid is rondom de
centrummaat. Het vertelt ons hoe dicht de waarden bij elkaar liggen of hoe sterk ze van
elkaar verschillen, geven informatie over de variabiliteit binnen de dataset.
o Range = bereik = Het verschil tussen de grootste en kleinste waarde in een
dataset. Gevoelig voor uitschieters
o Interquartile range = IQR = Het verschil tussen het eerste en derde kwartiel (Q3 -
Q1) en geeft de spreiding van de middelste 50% van de data. Minder gevoelig voor
uitschieters
Pagina 3 van 23
Elise van Gool; Diergeneeskunde UU, jaar 2, sem. 1
Versie 1.0
,Elise van Gool
2024
1 INHOUD
2 definities __________________________________________________________________ 3
3 onderzoeksopzet en mate van bewijs _______________________________________ 6
4 kansrekenen _______________________________________________________________ 8
4.1 optelling (+) ___________________________________________________________________ 8
4.2 vermenigvuldiging (×) __________________________________________________________ 8
5 diagrammen _______________________________________________________________ 9
5.1 staafdiagram / bar graph ______________________________________________________ 9
5.2 histogram _____________________________________________________________________ 9
5.3 cirkel diagram / pie chart ______________________________________________________ 9
5.4 spreidingsdiagram / scatterplot ______________________________________________ 10
5.5 cumulatieve frequentie polygoon _____________________________________________ 10
5.6 lijn diagram __________________________________________________________________ 10
5.7 boxplot ______________________________________________________________________ 11
6 hypothesen _______________________________________________________________ 12
6.1 nulhypothese en alternatieve hypothese ______________________________________ 12
6.2 fouten _______________________________________________________________________ 12
6.3 sample size __________________________________________________________________ 12
6.4 betrouwbaarheidsinterval ____________________________________________________ 12
7 t-toets 1 groep (test 1) _____________________________________________________ 13
8 t-toets 2 groepen (test 2) ___________________________________________________ 15
9 gepaarde t-toets (test 4) ___________________________________________________ 16
10 proportietoets (test 6) ___________________________________________________ 17
11 chi-kwadraat toets (test 8) _______________________________________________ 18
12 mc-nemar toets (test 9) __________________________________________________ 19
13 toetsoverzicht __________________________________________________________ 20
Pagina 2 van 23
, Elise van Gool
2024
2 DEFINITIES
- Variabele = een kenmerk dat variërende waardes aan kan nemen
o Kwalitatieve variabele = Categorische variabele =
▪ Nominaal = categorieën die niet op volgorde kunnen worden gezet
▪ Ordinaal = categorieën die wel op volgorde kunnen worden gezet
▪ Binair = twee categorieën mogelijk
o Kwantitatieve variabele = numerieke variabele =
▪ Discreet/discontinu = de data kan maar specifieke (hele) waarden
aannemen
▪ Continu = de data kan alle mogelijke waarden aannemen (alleen
misschien gelimiteerd met een bovenste en onderste limiet)
- Populatie = alle representatieven van je vraagstelling
- Steekproef = sample = een subgroep van de populatie, die zo representatief mogelijk is
voor de gehele populatie
o Random sampling = onafhankelijke trekkingen voor je steekproef: een gekozen
individu beïnvloedt niet de kans dat een ander individu wordt gekozen; alle
individuen in de populatie hebben dezelfde kans op gekozen te worden.
- Diagrammen
o Staafdiagram = gebruik je voor categorische gegevens, zowel ordinaal als
nominaal
o Histogram = gebruik je voor numerieke continue gegevens
o Cirkeldiagram = gebruik je voor categorische nominale gegevens
o Scatterplot = spreidingsdiagram = gebruik je voor continue numerieke gegevens
o Cumulatieve frequentiepolygoon = gebruik je voor continue numerieke gegevens
o Lijndiagram = gebruik je voor continue numerieke gegevens
o Boxplot = gebruik je voor continue numerieke gegevens
- Centrummaat = measure of location = een indicatie van waar het "centrum" van een
dataset ligt. Het is een waarde die de typische of gemiddelde positie van de gegevens
weergeeft, en wordt vaak gebruikt om een samenvattend cijfer te geven van een dataset.
o Rekenkundig gemiddelde = arithmic mean = de som van alle waarden delen door
het aantal waarden in de dataset. Het geeft een goed overzicht van het centrum
van de gegevens, maar is gevoelig voor uitschieters
o Mediaan = median = de middelste waarde wanneer de data op volgorde is gezet.
De mediaan is robuust tegen uitschieters en geeft een beter beeld van het
centrum als de data scheef verdeeld is.
o Modus = mode = de waarde die het vaakst voorkomt in de dataset. Het is vooral
handig bij categorische data of bij datasets waarin bepaalde waarden vaak
herhaald worden.
o Geometrisch gemiddelde = geometric mean = wordt berekend door de n-de wortel
te nemen van het product (*) van de n waarden.
- Spreidingsmaat = measure of dispersion = geeft aan hoe de data verspreid is rondom de
centrummaat. Het vertelt ons hoe dicht de waarden bij elkaar liggen of hoe sterk ze van
elkaar verschillen, geven informatie over de variabiliteit binnen de dataset.
o Range = bereik = Het verschil tussen de grootste en kleinste waarde in een
dataset. Gevoelig voor uitschieters
o Interquartile range = IQR = Het verschil tussen het eerste en derde kwartiel (Q3 -
Q1) en geeft de spreiding van de middelste 50% van de data. Minder gevoelig voor
uitschieters
Pagina 3 van 23