Statistiek 1
7Week 1
1.1
Meetniveaus
● Nominal
○ Categorieën
○ Geen rangorde → bijv. dieren
● Ordinaal
○ Categorieën
○ Wel rangorde → bijv. medailles
● Interval
○ Intervallen tussen de waardes
○ 2 minuten is twee keer zo lang als 1 minuut
○ bijv. temperatuur
● Ratio
○ Heeft een nulpunt → aantal kinderen
○ Heeft intervallen tussen waardes
Dichotoom = twee nominale waardes
1.2
Frequentieverdeling - Histogram = een grafiek met de waarden van de uitkomsten
op de x-as. De hoogte van de bars geeft aan hoe vaak iedere waarde in de dataset
voorkomt.
Diverse frequentieverdelingen:
- Uniforme verdeling: alle uitkomsten komen even vaak voor
- Unimodale verdeling: normaal verdeling (een piek)
- Bimodale verdeling: twee pieken
- Multimodale verdeling: meerdere pieken
Frequentieverdeling is een
kansverdeling.
Op de y-as staat de relatieve frequentie:
freq/totaal aantal
1
,Overschrijdingskans = oppervlakte onder de curve
Bij een normaalverdeling liggen de meeste uitkomsten rondom het gemiddelde →
de piek is het gemiddelde.
Normaalverdeling is een unimodale verdeling: gemiddelde = mediaan = modus
Verdelingen kunnen variëren in gemiddelde en standaarddeviatie, er zijn dus veel
verschillende normaalverdelingen. Er is maar 1 standaardnormaal verdeling (de
z-verdeling). Gemiddelde is 0 en sd is 1.
2
,z-score = aantal standaarddeviatie units boven of onder het gemiddelde
Z-tabel: Linker/rechter overschrijdingskans in %
In de rij staat de eerste decimaal van de de z-waarde
In de kolom staat de tweede decimaal van de z-waarde
Normaliteit controleren
Waarom onderzoeken of data normaal verdeeld is?
Omdat de dataverdeling bepaalt welke centrummaat een goede afspiegeling geeft
van de data en het bepaalt de statistische methode die je het beste kan gebruiken.
Veel statistische toetsen vereisen dat de data normaal verdeeld is.
3
, Het gemiddelde en standaarddeviatie geven uitstekende
beschrijving van een normaal verdeelde variabele.
Normaal verdeling symmetrisch: gemiddelde = mediaan=
modus
Scheve verdeling is niet symmetrisch: gemiddelde >
mediaan > modus
Dus gemiddelde zegt niets als je geen beeld hebt van de
verdeling.
Skewness =maat voor scheefheid
Als skewness groter is dan 1 of kleiner is dan -1 dan is er sprake van een niet
normale verdeling.
Kurtosis= maat voor platheid
Leptokurtic heeft weinig
waardes in de staarten →
kleine/korte staarten
Platykurtic heeft veel
waardes in de staarten →
brede staarten
4
7Week 1
1.1
Meetniveaus
● Nominal
○ Categorieën
○ Geen rangorde → bijv. dieren
● Ordinaal
○ Categorieën
○ Wel rangorde → bijv. medailles
● Interval
○ Intervallen tussen de waardes
○ 2 minuten is twee keer zo lang als 1 minuut
○ bijv. temperatuur
● Ratio
○ Heeft een nulpunt → aantal kinderen
○ Heeft intervallen tussen waardes
Dichotoom = twee nominale waardes
1.2
Frequentieverdeling - Histogram = een grafiek met de waarden van de uitkomsten
op de x-as. De hoogte van de bars geeft aan hoe vaak iedere waarde in de dataset
voorkomt.
Diverse frequentieverdelingen:
- Uniforme verdeling: alle uitkomsten komen even vaak voor
- Unimodale verdeling: normaal verdeling (een piek)
- Bimodale verdeling: twee pieken
- Multimodale verdeling: meerdere pieken
Frequentieverdeling is een
kansverdeling.
Op de y-as staat de relatieve frequentie:
freq/totaal aantal
1
,Overschrijdingskans = oppervlakte onder de curve
Bij een normaalverdeling liggen de meeste uitkomsten rondom het gemiddelde →
de piek is het gemiddelde.
Normaalverdeling is een unimodale verdeling: gemiddelde = mediaan = modus
Verdelingen kunnen variëren in gemiddelde en standaarddeviatie, er zijn dus veel
verschillende normaalverdelingen. Er is maar 1 standaardnormaal verdeling (de
z-verdeling). Gemiddelde is 0 en sd is 1.
2
,z-score = aantal standaarddeviatie units boven of onder het gemiddelde
Z-tabel: Linker/rechter overschrijdingskans in %
In de rij staat de eerste decimaal van de de z-waarde
In de kolom staat de tweede decimaal van de z-waarde
Normaliteit controleren
Waarom onderzoeken of data normaal verdeeld is?
Omdat de dataverdeling bepaalt welke centrummaat een goede afspiegeling geeft
van de data en het bepaalt de statistische methode die je het beste kan gebruiken.
Veel statistische toetsen vereisen dat de data normaal verdeeld is.
3
, Het gemiddelde en standaarddeviatie geven uitstekende
beschrijving van een normaal verdeelde variabele.
Normaal verdeling symmetrisch: gemiddelde = mediaan=
modus
Scheve verdeling is niet symmetrisch: gemiddelde >
mediaan > modus
Dus gemiddelde zegt niets als je geen beeld hebt van de
verdeling.
Skewness =maat voor scheefheid
Als skewness groter is dan 1 of kleiner is dan -1 dan is er sprake van een niet
normale verdeling.
Kurtosis= maat voor platheid
Leptokurtic heeft weinig
waardes in de staarten →
kleine/korte staarten
Platykurtic heeft veel
waardes in de staarten →
brede staarten
4