PROF. John Lievens
2025-26
,DEEL 1. UNIVARIATE BESCHRIJVENDE STATISTIEK
Cases= elementen die in het onderzoek betrokken zijn.
Betrouwbare me6ng= een me6ng die als je hem herhaald, dezelfde uitkomst hee;.
Resultaat van een me6ng = ‘waarde’
Variabele is een andere naam voor een kenmerk
Gegevens set:
- Kolom -> cases
- Rijen -> variabelen
Kwalita*eve/ categorische variabelen
- Nominale variabelen (Modus)
è Je kan het beschrijven en je bent het ene of het andere, je gaat een indeling maken. -> bv.
geslacht, haarkleur
- Ordinale variabelen (Modus of mediaan)
è Het ene kan beter zijn als het andere, maar je kan niet zeggen hoeveel beter, waarde 1 is
beter als waarde 2. -> bv. Opleiding, opinievraag, medailles op de olympische spelen
è In klasse gegroepeerde variabelen
Kwan*ta*eve/ metrische variabelen (gemiddelde, modus of mediaan)
- Intervalvariabellen
è Gelijke afstanden, je kan zeggen “hoeveel minder” of “hoeveel meer” -> bv. Temperatuur
in C, geboortejaar
- Ra6ovariabelen
è Er is een nulpunt, de informa6e gaat van hoog naar laag.
Van laag (weinig informa6e), naar hoog (veel informa6e)
Nominaal < ordinaal < interval < ra*o
Con*nue variabelen
- Oneindig aantal uitkomsten, bv. Tijd, exacte lee;ijd, inkomen
- Kan elke mogelijke waarde aannemen binnen een bepaald bereik/interval.
Discrete variabelen
- Eindige uitkomstenverzameling, bv. Aantal kinderen, museumbezoek
- kan alleen specifieke, "losse" waarden aannemen: je kan niet 2,5 kinderen hebben
1
,Univariate sta6s6ek: Uni (één) en Variate (variabele).
® Gegevens van 1 variabele op overzichtelijke en synthe6sche wijze weergeven.
® Je kijkt naar slechts één variabele tegelijker6jd. Je probeert die ene variabele te beschrijven
of samen te va_en zonder te kijken naar verbanden met andere dingen.
® VB. je onderzoekt 100 appels, maar je onderzoekt enkel het gewicht, niet de kleur of smaakt
Sta6s6sche eenheid: dat is één element of persoon waarover je gegevens verzamelt in een
onderzoek. -> Het is dus wat je observeert of meet.
® VB. Bij een onderzoek naar het smartphonegebruik van leerlingen is één leerling een
sta6s6sche eenheid.
Stochas6sche eenheid: hier gaat het niet om het object, maar wel om de uitkomst van de me6ng die
van het toeval abangt
® VB. Een kwaliteitscontroleur in een fabriek wil de levensduur van een nieuw type Ledlamp
testen. Uit de dagproduc6e van 5000 lampen kiest hij willekeurig één lamp. Hij laat deze lamp
branden tot hij kapotgaat en noteert het aantal branduren.
o Stochas6sche eenheid = het aantal branduren van die lamp
Absolute frequen6e: aantal elementen met een bepaalde waarde = ‘fi’
® VB. een ijssalon verkoopt in totaal 50 ijsjes, waarvan 30 vanille en 20 aardbei
o Absolute frequen6e vanille = 30
o Absolute frequen6e aardbij = 20
Rela6eve frequen6e: aantal elementen met een bepaalde waarde gedeeld door het totaal aantal
elementen. (Al6jd in kommagetal of percentage)
® VB. rela6eve frequen6e vanille = 0,6 (30/50)
"
# $
=
!
$
è Propor*e (frac6e) =
Cumula6eve frequen6e: aantal of propor6e eenheden met waarde i of lager, vanaf ordinaal
meetniveau
Datamatrix:
® Een tabel waarin alle ruwe gegevens staan.
o Elke rij stelt één persoon of waarneming voor, en elke kolom één variabele.
® Voorbeeld: | Leerling | Lee*ijd | Geslacht | Punten |
Frequen*etabel:
® Een tabel waarin wordt weergegeven hoe vaak bepaalde waarden voorkomen.
o De ruwe data zijn samengevat in aantallen (frequen6es).
® Voorbeeld: | Lee*ijd | Aantal leerlingen |
2
,Taartdiagram
- α = hoek voor waarde i
- α = pi x 360°
o Voordeel -> maakt verdeling direct visueel duidelijk
o Nadeel -> aantal waarden beperkt
Staafdiagram
Voordeel:
- Meer waarden opnemen
- Mogelijkheid om verdeling op te splitsen naar waarden op tweede variabele
Histogram
- Enkel voor metrische variabelen, in klasse gegroepeerd
- Staales plakken tegen elkaar
o Voordeel -> verdeling van metrische variabele visueel duidelijk
o Nadeel -> verdeling abankelijk van klasseindeling
MATEN VAN CENTRALITEIT
Gemiddelde (rekenkundig gemiddelde x̄)
- Enkel voor metrische variabelen
- Evenwichtspunt (zwaartepunt) van de verdeling
- Gevoelig voor uitschieters
- 2 manieren om het gemiddelde te berekenen:
o Op basis van een frequen6etabel
§ (x1 * xf) + (x2 * xf) + …. / n
o Op basis van een datamatrix
§ (x1 + x2 + x3, …) /n
Mediaan
- Middelpunt van de verdeling: evenveel waarnemingen met lagere waarde als met hogere
waarde!!!
- Eerst: alle waarnemingen ordenen van lage naar hoge waarde
- M = (n + 1)/ 2
- Geschikt vanaf ordinaal meetniveau
o Afleiden uit frequen6etabel: cumula6eve frequen6e
o Of je kijkt naar de cumula6eve rela6eve frequen6e en zoekt p=0,50
=> kijken naar de waarde, niet naar het getal VB. Appel is de mediaan (10), dan is ‘appel’ de mediaan,
niet het getal 10
Modus
- De waarde met de hoogste frequen6e (je moet naar de waarde kijken, niet het getal)
o VB. Appel komt het meeste voor (5x) -> dan is ‘appel’ de modus
- Vanaf nominaal meetniveau
- Weinig informa6ef
3
,MATEN VAN SPREIDING
Kwar*elen
- Geschikt vanaf ordinaal meetniveau
- Q1 -> 25% hee; de waarde kleiner, 75% hee; die groter
o Q1 = 1 * (n + 1)/4 -> daarna kijken welke waarde ermee overeenkomt
- Q2 -> Mediaan
- Q3 -> 75% hee; de waarde groter, 25% hee; die kleiner
o Q3 = 3 * (n + 1)/4 -> daarna kijken welke waarde ermee overeenkomt
Outliers
- Uitschieters (overeenkoms6g getal? MAG ER NIET BIJ!)
- Ondergrens
o Q1 – 1,5* IKA (je moet werken met de waarde van Q1, niet berekende)
- Bovengrens
o Q3 + 1,5* IKA (je moet werken met de waarde van Q1, niet berekende)
Interkwar*elafstand
- Q = Q3 – Q1
- Centrale 50%: gebied waarbinnen zich hel; van de elementen bevindt
o Je gaat je spreiding meten zonder dat er extreme uitschieters zijn die je beeld gaan
verpesten
- Geschikt op metrisch niveau
- Hoe kleiner de IKA, hoe dichter centrale hel; bij elkaar
Boxplot Outliers
Bovengrens
25%
50% van alle
gegevens
25%
25% van alle
gegevens
Ondergrens
Outliers
4
,Varian*e
- Gee; aan hoe ver waarnemingen van het gemiddelde verwijderd zijn
- Defini6e: gemiddelde gekwadrateerde afwijking t.o.v. gemiddelde
! "
"
" $ #" ! ##
Varian*e = $
= " =!
! !! -> datamatrix
-> frequentietabel
Standaardafwijking = √(s²)
- Geschikt voor metrische variabelen
- Meest gebruikte spreidingsmaat voor metrische variabel
DE NORMALE VERDELING
Vorm van de verdeling:
- Symmetrisch
o Spiegelbeeld
o x̄ = M
- Rechts asymmetrisch
o Lange staart naar rechts, streepje van de mediaan i/d box meer naar onder
o x̄ > M
- Links asymmetrisch
o Lange staart naar links, streepje van de mediaan i/d box meer naar boven
o x̄ < M
è Gemiddelde en s vooral nuzg bij symmetrische verdelingen
Dichtheidskromme
Dichtheidskromme (= een theore6sche verdeling) = een verdeling die een grafische weergave gee;
over hoe een variabele verdeeld kan zijn.
De normale verdeling
- Vorm steeds: symmetrisch, ééntoppig en klokvormig
- Positie en spreiding afhankelijk van µ en σ
è Notatie: N (µ, σ)
Maten van centraliteit:
- Gemiddelde noemt: ‘verwach6ng’ en wordt µ
- Gemiddelde, mediaan en modus zijn al6jd hetzelfde!
Maten van spreiding:
- Standaardafwijking = σ
5
, 68-95-99,7-regel (de vuistregel)
- 68% van de gegevens liggen binnen het 1
sigma gebied
- 95% binnen het 2σ gebied
- 99,7% binnen het 3σ gebied
De standaard normale verdeling
Nota6e: N (0,1) -> is al6jd hetzelfde!
Z-score: hoeveel standaardafwijkingen ligt specifieke waarneming van verwach6ng
!"µ
"=
è Formule: !
Standaardisa*e = elke waarden omze_en naar een z-score
-> Nut: uitdrukken variabele in vaste eenheid met vaste spreiding (vergelijkbaar)
" !"
$
#" =
è Formule: $
!
- Centreren rond het rekenkundig gemiddelde
o Elke waarde uitdrukken als afwijking t.o.v. het rek. gem. -> = 0
- Varian6e gelijkstellen aan 1
o Elke waarde delen door s ->= 1
-> de uitkomst van de formule kan je dan zeggen als: vb. als het -1,35 is ‘1,35 standaardafwijking
kleiner dan het gemiddelde’.
Devia*escore = hoeveel je afwijkt van het gemiddelde = xi - x̄
6