Beschrijvende statistiek – WCO 2 – centrummaten en variabiliteitsmaten
Thema 5 – De centrummaten
Leerplandoelstellingen
• De student berekent centrummaten
• De student interpreteert centrummaten
• De student berekent variabiliteitsmaten
• De student interpreteert variabiliteitsmaten
• De student berekent z-scores
• De student interpreteert z-scores
5.1) Hoe bereken je de modus?
= de waarde die het meest voorkomt in een dataset. M.a.w. de waarde met de hoogste frequentie.
Bij de modus kijk je naar de categorie die het meeste voorkomt, niet het cijfer van het aantal keer dat
het voorkomt. Het wordt vooral gebruikt bij nominale en ordinale variabelen, maar kan bij alle
meetniveaus gebruikt worden.
Soms komen meerdere waarden even vaak voor en hebben ze dezelfde hoogste frequentie. Dan
spreken we van:
• Een bimodale verdeling (2 modi)
• Een multimodale verdeling (meer dan 2 modi)
→ De modus ≠ per se gelijk aan de meerderheid, enkel indien >50% vd observaties.
5.2) Hoe bereken je de mediaan?
= de middelste waarde v een dataset wanneer alle observaties v laag naar hoog gerangschikt zijn.
De mediaan komt overeen met percentiel 50 (Pc50) en verdeelt de dataset in 2 gelijke delen. De
mediaan heeft evenveel observaties links als rechts.
➔ Om de mediaan te berekenen, moeten de gegevens gerangschikt kunnen worden. Daarom enkel
bruikbaar bij nominale variabelen en wel bruikbaar bij ordinale, interval- en ratiovariabelen.
• Oneven aantal observaties: mediaan = gewoon de middelste waarde vd geordende dataset.
• Even aantal observaties → 2 middelste waarden. De mediaan = gem. vd 2 middelste observaties.
Het gemiddelde nemen kan enkel bij interval- en ratiovariabelen.
De mediaan kan ook bepaald worden via percentiel 50 (Pc50), kwartiel 2 (Q2) of deciel 5 (D5). Je
zoekt hierbij de waarde waarbij het cumulatieve % voor het eerst 50% bereikt / overschrijdt.
Vbn:
• Cumulatieve percentage bij ‘7 uur slaap’ = 51,6% ➔ mediaan = 7 uur
• Bij ordinale variabelen zoals slaapduurcategorieën: minder dan 5 uur = 31,38% en tussen 5 en 9u
= cumulatief 96,73% → Omdat 50% binnen de categorie ‘5 tot 9 uur’ ➔ mediaan = ‘5 tot 9u’.
5.3) Hoe bereken je het rekenkundig gemiddelde?
1. Alle scores op te tellen
𝒏
2. De som delen door het totaal aantal observaties 𝟏 𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏
̅=
𝑿 ∑ 𝑿𝒊 =
FORMULE ➔ 𝒏 𝒏
𝒊=𝟏
7
, Het rekenkundig gemiddelde kan enkel berekend worden bij interval- en ratiovariabelen.
Gemiddelde berekenen met frequenties:
Wanneer waarden meerdere keren voorkomen, moet je rekening houden met hoe vaak elke waarde
voorkomt.
Aantal uur slaap Frequentie Elke waarde wordt vermenigvuldigd met haar
5 2 frequentie.
5⋅2 +7 ⋅6+8⋅5 +9 ⋅4
7 6 = 7.53
17
8 5
➔ Gemiddelde = 7,53
9 4
Je kan het gem. ook berekenen met relatieve frequenties. De relatieve freq. is al gedeeld door het
totaal aantal observaties. Daarom vermenigvuldig je elke waarde rechtstreeks met haar relatieve freq.
Aantal uur slaap Relatieve frequentie
5 0,12 5 ⋅ 0.12 + 7 ⋅ 0.35 + 8 ⋅ 0.29 + 9 ⋅ 0.24
= 7.53
7 0,35
➔ Gemiddelde = 7,53
8 0,29
9 0,24
Verschil tussen gemiddelde en mediaan:
- Rekenkundig gemiddelde = gevoelig voor outliers: sterk beïnvloedbaar door zeer hoge/lage scores.
- Mediaan = minder gevoelig voor uitschieters en geeft het midden vd verdeling weer.
➔ Wanneer het gem. en de mediaan sterk verschillen, kan dat wijzen op een scheve verdeling vd data.
5.4) Wat zijn de eigenschappen van het rekenkundig gemiddelde?
1) De som vd afwijkingen vd scores tot het gem. = 0
→ Als je v elke score het gem. aftrekt en deze afwijkingen optelt zal je 0 uitkomen.
→ Gem. = "zwaartepunt" vd data.
2) Bij een lineaire transformatie verandert het gem. op dezelfde manier mee.
→ Als je alle waarden vermenigvuldigt met een getal en daarna een constante optelt, gebeurt dat
ook met het gem.
3) Het gemiddelde varieert minder v steekproef tot steekproef in vgl met de mediaan. Daarom
wordt het in de statistiek ook gebruikt als maat voor de centrale tendens.
➔ Volgens de centrale limietstelling is het steekproefgem. Een goede schatter vh populatiegem.
Wanneer je veel willekeurige steekproeven trekt, zal het gem. v al die steekproeven ong. gelijk
zijn aan het echte populatiegem.
4) Het gem. is gevoelig voor uitschieters (extreme waarden).
→ Wanneer er veel uitschieters zijn gebruikt men beter de mediaan of het getrimde gem.
Verband tussen gem., mediaan en modus:
• Een verdeling is rechtsscheef wanneer het gem. groter is dan de mediaan en de mediaan groter is
dan de modus. Hoge scores trekken het gem. omhoog.
8
Thema 5 – De centrummaten
Leerplandoelstellingen
• De student berekent centrummaten
• De student interpreteert centrummaten
• De student berekent variabiliteitsmaten
• De student interpreteert variabiliteitsmaten
• De student berekent z-scores
• De student interpreteert z-scores
5.1) Hoe bereken je de modus?
= de waarde die het meest voorkomt in een dataset. M.a.w. de waarde met de hoogste frequentie.
Bij de modus kijk je naar de categorie die het meeste voorkomt, niet het cijfer van het aantal keer dat
het voorkomt. Het wordt vooral gebruikt bij nominale en ordinale variabelen, maar kan bij alle
meetniveaus gebruikt worden.
Soms komen meerdere waarden even vaak voor en hebben ze dezelfde hoogste frequentie. Dan
spreken we van:
• Een bimodale verdeling (2 modi)
• Een multimodale verdeling (meer dan 2 modi)
→ De modus ≠ per se gelijk aan de meerderheid, enkel indien >50% vd observaties.
5.2) Hoe bereken je de mediaan?
= de middelste waarde v een dataset wanneer alle observaties v laag naar hoog gerangschikt zijn.
De mediaan komt overeen met percentiel 50 (Pc50) en verdeelt de dataset in 2 gelijke delen. De
mediaan heeft evenveel observaties links als rechts.
➔ Om de mediaan te berekenen, moeten de gegevens gerangschikt kunnen worden. Daarom enkel
bruikbaar bij nominale variabelen en wel bruikbaar bij ordinale, interval- en ratiovariabelen.
• Oneven aantal observaties: mediaan = gewoon de middelste waarde vd geordende dataset.
• Even aantal observaties → 2 middelste waarden. De mediaan = gem. vd 2 middelste observaties.
Het gemiddelde nemen kan enkel bij interval- en ratiovariabelen.
De mediaan kan ook bepaald worden via percentiel 50 (Pc50), kwartiel 2 (Q2) of deciel 5 (D5). Je
zoekt hierbij de waarde waarbij het cumulatieve % voor het eerst 50% bereikt / overschrijdt.
Vbn:
• Cumulatieve percentage bij ‘7 uur slaap’ = 51,6% ➔ mediaan = 7 uur
• Bij ordinale variabelen zoals slaapduurcategorieën: minder dan 5 uur = 31,38% en tussen 5 en 9u
= cumulatief 96,73% → Omdat 50% binnen de categorie ‘5 tot 9 uur’ ➔ mediaan = ‘5 tot 9u’.
5.3) Hoe bereken je het rekenkundig gemiddelde?
1. Alle scores op te tellen
𝒏
2. De som delen door het totaal aantal observaties 𝟏 𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏
̅=
𝑿 ∑ 𝑿𝒊 =
FORMULE ➔ 𝒏 𝒏
𝒊=𝟏
7
, Het rekenkundig gemiddelde kan enkel berekend worden bij interval- en ratiovariabelen.
Gemiddelde berekenen met frequenties:
Wanneer waarden meerdere keren voorkomen, moet je rekening houden met hoe vaak elke waarde
voorkomt.
Aantal uur slaap Frequentie Elke waarde wordt vermenigvuldigd met haar
5 2 frequentie.
5⋅2 +7 ⋅6+8⋅5 +9 ⋅4
7 6 = 7.53
17
8 5
➔ Gemiddelde = 7,53
9 4
Je kan het gem. ook berekenen met relatieve frequenties. De relatieve freq. is al gedeeld door het
totaal aantal observaties. Daarom vermenigvuldig je elke waarde rechtstreeks met haar relatieve freq.
Aantal uur slaap Relatieve frequentie
5 0,12 5 ⋅ 0.12 + 7 ⋅ 0.35 + 8 ⋅ 0.29 + 9 ⋅ 0.24
= 7.53
7 0,35
➔ Gemiddelde = 7,53
8 0,29
9 0,24
Verschil tussen gemiddelde en mediaan:
- Rekenkundig gemiddelde = gevoelig voor outliers: sterk beïnvloedbaar door zeer hoge/lage scores.
- Mediaan = minder gevoelig voor uitschieters en geeft het midden vd verdeling weer.
➔ Wanneer het gem. en de mediaan sterk verschillen, kan dat wijzen op een scheve verdeling vd data.
5.4) Wat zijn de eigenschappen van het rekenkundig gemiddelde?
1) De som vd afwijkingen vd scores tot het gem. = 0
→ Als je v elke score het gem. aftrekt en deze afwijkingen optelt zal je 0 uitkomen.
→ Gem. = "zwaartepunt" vd data.
2) Bij een lineaire transformatie verandert het gem. op dezelfde manier mee.
→ Als je alle waarden vermenigvuldigt met een getal en daarna een constante optelt, gebeurt dat
ook met het gem.
3) Het gemiddelde varieert minder v steekproef tot steekproef in vgl met de mediaan. Daarom
wordt het in de statistiek ook gebruikt als maat voor de centrale tendens.
➔ Volgens de centrale limietstelling is het steekproefgem. Een goede schatter vh populatiegem.
Wanneer je veel willekeurige steekproeven trekt, zal het gem. v al die steekproeven ong. gelijk
zijn aan het echte populatiegem.
4) Het gem. is gevoelig voor uitschieters (extreme waarden).
→ Wanneer er veel uitschieters zijn gebruikt men beter de mediaan of het getrimde gem.
Verband tussen gem., mediaan en modus:
• Een verdeling is rechtsscheef wanneer het gem. groter is dan de mediaan en de mediaan groter is
dan de modus. Hoge scores trekken het gem. omhoog.
8