verdelingen beschrijven met cijfers :
karakteristieke maten / grootheden
begin data-analyse :
1. bekijken van algemene patronen / beeld : vorm, centrum en spreiding
2. bekijken van opvallende (verre) afwijkingen = uitschieters
verdeling bekijken :
❖ symmetrisch : linker en rechter helften zijn (ongeveer) elkaars spiegelbeeld
❖ rechtsscheef : rechterhelft heeft een langere staart (loopt lager af)
❖ linksscheef : linkerhelft heeft een langere staart (loopt lager af)
❖ uitschieters = gem +/- 3SD
tijdcurve (time plot) : toont gedrag over tijd
❖ tijd wordt voorgesteld op de horizontale as, gemeten variabele op de verticale as
❖ kijkt naar patronen / trends en afwijkingen hiervan
❖ het verbinden van datapunten met een lijn maakt dit beter zichtbaar
❖ zoekt patronen die terugkomen in gekende, herhaalde perioden
(vb seizoensschommelingen)
→ ook een EEg is een time plot
𝑛
sommatieteken ( ∑ 𝑥𝑖 ) : gebruikt om veel termen kort op te schrijven
𝑖=𝑚
❖ i : index
❖ m : ondergrens → eerste waarde van i
❖ n : bovengrens → laatste waarde van i
❖ xi : formule die je telkens invult voor i
grootheden van positie
(vertellen waar de data liggen)
centrummaten
(= een getal dat het centrum aangeeft)
❖ (rekenkundig) gemiddelde ( 𝑥 ) : som van de waargenomen waarden gedeeld door
het aantal waarnemingen
𝑛
1
𝑥= 𝑛 ∑ 𝑥𝑖
𝑖=1
➢ is erg gevoelig voor uitschieters (niet robuust)
, ❖ meetkundig gemiddelde (geomean) : gemiddelde dat hoort bij verhoudingen en
groeifactoren
→ ratioschaal : moet vermenigvuldigen, worteltrekken en nul mag niet voorkomen
G= 𝑥1 ⋅ 𝑥2 ⋅ … ⋅ 𝑥𝑛
❖ harmonisch gemiddelde (H) : gemiddelde dat hoort bij snelheden en gemiddeld
over gelijke hoeveelheden (niet tijden)
→ ratioschaal : moet delen, nulpunt moet absoluut zijn, gebruik van “2 keer zo snel”
𝑛
H= 𝑛
1
∑ 𝑥𝑖
𝑖=1
❖ mediaan (M / Mdn) : meetwaarde die het aantal waarnemingen exact door midde
deelt (50% groter, 50% kleiner)
→ werkwijze :
➢ alle waarden ordenen van klein → groot
➢ Mdn : middelste waarnemingen (indien oneven aantal) of gem van de twee
middelste waarnemingen (indien even aantal)
vergelijken :
➢ bij een exact symmetrische verdeling liggen de mediaan en het gemiddelde
ook exact op elkaar
→ bij een bijna symmetrische verdeling liggen ze dicht bij elkaar
➢ bij een scheve verdeling ligt het gemiddelde dichter bij de langste staart dan
de mediaan
❖ modus (Mo) : waarde met de hoogste frequentie, typisch de meetwaarde die
overeenkomt met de hoogste top van de verdeling
→ vanaf nominaal meetniveau
Mo = x0 = { xk ∣ Fk = maxi (Fi) }
➢ Fi : frequentie van waarde xi
➢ maxi (Fi) : hoogste frequentie die in de dataset voorkomt
➢ { xk ∣ … } : verzameling van alle waarden waarvoor de voorwaarde geldt
→ je zoekt dus alle waarden waarvan de frequentie gelijk is aan de hoogste frequentie
(vormen samen de modus)
di-modiale en multi-modiale verdelingen : frequentie verdelingen met 2 (of meer)
toppen
→ zouden strikt genomen exact gelijke modi moeten zijn, maar wordt in praktijk ook
gebruikt om gewoon duidelijke toppen te beschrijven
karakteristieke maten / grootheden
begin data-analyse :
1. bekijken van algemene patronen / beeld : vorm, centrum en spreiding
2. bekijken van opvallende (verre) afwijkingen = uitschieters
verdeling bekijken :
❖ symmetrisch : linker en rechter helften zijn (ongeveer) elkaars spiegelbeeld
❖ rechtsscheef : rechterhelft heeft een langere staart (loopt lager af)
❖ linksscheef : linkerhelft heeft een langere staart (loopt lager af)
❖ uitschieters = gem +/- 3SD
tijdcurve (time plot) : toont gedrag over tijd
❖ tijd wordt voorgesteld op de horizontale as, gemeten variabele op de verticale as
❖ kijkt naar patronen / trends en afwijkingen hiervan
❖ het verbinden van datapunten met een lijn maakt dit beter zichtbaar
❖ zoekt patronen die terugkomen in gekende, herhaalde perioden
(vb seizoensschommelingen)
→ ook een EEg is een time plot
𝑛
sommatieteken ( ∑ 𝑥𝑖 ) : gebruikt om veel termen kort op te schrijven
𝑖=𝑚
❖ i : index
❖ m : ondergrens → eerste waarde van i
❖ n : bovengrens → laatste waarde van i
❖ xi : formule die je telkens invult voor i
grootheden van positie
(vertellen waar de data liggen)
centrummaten
(= een getal dat het centrum aangeeft)
❖ (rekenkundig) gemiddelde ( 𝑥 ) : som van de waargenomen waarden gedeeld door
het aantal waarnemingen
𝑛
1
𝑥= 𝑛 ∑ 𝑥𝑖
𝑖=1
➢ is erg gevoelig voor uitschieters (niet robuust)
, ❖ meetkundig gemiddelde (geomean) : gemiddelde dat hoort bij verhoudingen en
groeifactoren
→ ratioschaal : moet vermenigvuldigen, worteltrekken en nul mag niet voorkomen
G= 𝑥1 ⋅ 𝑥2 ⋅ … ⋅ 𝑥𝑛
❖ harmonisch gemiddelde (H) : gemiddelde dat hoort bij snelheden en gemiddeld
over gelijke hoeveelheden (niet tijden)
→ ratioschaal : moet delen, nulpunt moet absoluut zijn, gebruik van “2 keer zo snel”
𝑛
H= 𝑛
1
∑ 𝑥𝑖
𝑖=1
❖ mediaan (M / Mdn) : meetwaarde die het aantal waarnemingen exact door midde
deelt (50% groter, 50% kleiner)
→ werkwijze :
➢ alle waarden ordenen van klein → groot
➢ Mdn : middelste waarnemingen (indien oneven aantal) of gem van de twee
middelste waarnemingen (indien even aantal)
vergelijken :
➢ bij een exact symmetrische verdeling liggen de mediaan en het gemiddelde
ook exact op elkaar
→ bij een bijna symmetrische verdeling liggen ze dicht bij elkaar
➢ bij een scheve verdeling ligt het gemiddelde dichter bij de langste staart dan
de mediaan
❖ modus (Mo) : waarde met de hoogste frequentie, typisch de meetwaarde die
overeenkomt met de hoogste top van de verdeling
→ vanaf nominaal meetniveau
Mo = x0 = { xk ∣ Fk = maxi (Fi) }
➢ Fi : frequentie van waarde xi
➢ maxi (Fi) : hoogste frequentie die in de dataset voorkomt
➢ { xk ∣ … } : verzameling van alle waarden waarvoor de voorwaarde geldt
→ je zoekt dus alle waarden waarvan de frequentie gelijk is aan de hoogste frequentie
(vormen samen de modus)
di-modiale en multi-modiale verdelingen : frequentie verdelingen met 2 (of meer)
toppen
→ zouden strikt genomen exact gelijke modi moeten zijn, maar wordt in praktijk ook
gebruikt om gewoon duidelijke toppen te beschrijven