Beschrijvende statistiek = hoe zien de data eruit?
Inferentiële statistiek = wat zeggen de data van de steekproef over de gehele populatie?
Variabelen = kenmerken van iets of iemand
Cases = zijn die dingen of personen
Variabelen moeten variëren van elkaar, anders is het een constante en omdat er veel
soorten variabelen zijn, is het van belang om onderscheid te maken in meetniveau:
Categoriale:
1. Nominaal: geen rangorde, iets is niet beter dan de ander (nationaliteit, geslacht)
2. Ordinaal: wel rangorde, maar je weet niets over de verschillen tussen de categorieën
(hoeveel beter is 1e, dan 2e)
Kwantitatieve:
3. Interval: leeftijd; het verschilt, iemand is ouder en je weet ook het 16-18
vergelijkbaar is als 12-14
4. Ratio: lengte, er is een nulpunt
Kwantitatieve variabelen:
- Discrete variabelen nemen geen tussenwaarden aan (1 of 2)
- Continue variabelen waarden vormen een interval (170,2605)
Datamatrix = overzicht van al je cases en variabelen. Cases staan in de rijen en variabelen in
kolommen. De data in de tabel: observaties
Een datamatrix wordt samengevat in de vorm van tabellen of grafieken
Frequentietabel = laat zien hoe de waarden van een variabele verdeeld zijn over de cases
- Frequentie (aantallen)
- Relatieve frequentie (percentages)
- Cumulatieve frequentie (totale percentages)
- Heeft betrekking op één variabele
Kwantitatieve variabelen bij een frequentietabel nieuwe ordinale groep maken door
intervallen te gebruiken
Hercoderen van variabelen
(Coderen van kwantitatief naar ordinaal is mogelijk, maar ordinaal naar kwantitatief is
onmogelijk)
Categoriale data samenvatten percentages uit frequentietabel presenteren in grafiek:
1. Cirkeldiagram (piechart)
a. Voordeel: je ziet gelijk percentages
b. Nadeel: naarmate het aantal categorieën toeneemt wordt het
onoverzichtelijk
2. Staafdiagram (bar graph)
a. Voordeel: je ziet het exacte aantal in elke categorie
Kwantitatieve data samenvatten
, 1. Puntplot
a. De x-as bevat mogelijke waarden in gelijke intervallen
b. Voor elke observatie plaats je een punt
c. Handig voor wanneer er een aantal observaties zijn
2. Histogram
a. Voor veel observaties
b. Staven geven de frequentie aan
c. Als staven elkaar aanraken: representeren ze een onderliggende continue
schaal
d. Intervallen moeten altijd gelijk zijn
e. Vorm: klokvormig en symmetrisch kan ook scheef naar links of rechts
unimodaal
f. Vorm: twee toppen bimodaal
Modus:
- Waarde die het vaakst voorkomt
- De modus is de naam van de categorie
- Twee modus: bimodale verdeling
Mediaan:
- De middelste waarde van je observaties, wanneer ze van klein naar groot zijn
geordend
- Bij een even aantal: pak je gemiddelde van de twee middelste waarden
Gemiddelde:
- Het balanspunt van je data
Categoriale niveau modus
Kwantitatieve niveau mediaan (als er invloedrijke outliers zijn of als verdeling heel scheef
is) of gemiddelde
Het bereik (range) = het verschil tussen de hoogte en laagste waarden (het geeft alleen geen
goede indruk van de variabiliteit, want het telt alleen de extreme waarden)
De interkwartielafstand (IKA) = de afstand tussen Q3 en Q1 (outliers hebben hier geen
invloed). Het gaat hier om het verschil tussen 25e en 75e percentiel.
1. Zet de getallen van laag naar hoog
2. Bereken de mediaan (Q2)
3. Bereken de mediaan (Q1) van de eerste helft
4. Bereken de mediaan (Q3) van de tweede helft
5. Q3-Q2
Boxplot is handig bij het opsporen van outliers
- De box (Q1 + Q2 + Q3) is 50%
- De boxplot wordt in vier gelijke delen verdeeld: elk 25%
- Lengte van de box is IKA
- Middelste lijn in de box (Q2) is mediaan
Inferentiële statistiek = wat zeggen de data van de steekproef over de gehele populatie?
Variabelen = kenmerken van iets of iemand
Cases = zijn die dingen of personen
Variabelen moeten variëren van elkaar, anders is het een constante en omdat er veel
soorten variabelen zijn, is het van belang om onderscheid te maken in meetniveau:
Categoriale:
1. Nominaal: geen rangorde, iets is niet beter dan de ander (nationaliteit, geslacht)
2. Ordinaal: wel rangorde, maar je weet niets over de verschillen tussen de categorieën
(hoeveel beter is 1e, dan 2e)
Kwantitatieve:
3. Interval: leeftijd; het verschilt, iemand is ouder en je weet ook het 16-18
vergelijkbaar is als 12-14
4. Ratio: lengte, er is een nulpunt
Kwantitatieve variabelen:
- Discrete variabelen nemen geen tussenwaarden aan (1 of 2)
- Continue variabelen waarden vormen een interval (170,2605)
Datamatrix = overzicht van al je cases en variabelen. Cases staan in de rijen en variabelen in
kolommen. De data in de tabel: observaties
Een datamatrix wordt samengevat in de vorm van tabellen of grafieken
Frequentietabel = laat zien hoe de waarden van een variabele verdeeld zijn over de cases
- Frequentie (aantallen)
- Relatieve frequentie (percentages)
- Cumulatieve frequentie (totale percentages)
- Heeft betrekking op één variabele
Kwantitatieve variabelen bij een frequentietabel nieuwe ordinale groep maken door
intervallen te gebruiken
Hercoderen van variabelen
(Coderen van kwantitatief naar ordinaal is mogelijk, maar ordinaal naar kwantitatief is
onmogelijk)
Categoriale data samenvatten percentages uit frequentietabel presenteren in grafiek:
1. Cirkeldiagram (piechart)
a. Voordeel: je ziet gelijk percentages
b. Nadeel: naarmate het aantal categorieën toeneemt wordt het
onoverzichtelijk
2. Staafdiagram (bar graph)
a. Voordeel: je ziet het exacte aantal in elke categorie
Kwantitatieve data samenvatten
, 1. Puntplot
a. De x-as bevat mogelijke waarden in gelijke intervallen
b. Voor elke observatie plaats je een punt
c. Handig voor wanneer er een aantal observaties zijn
2. Histogram
a. Voor veel observaties
b. Staven geven de frequentie aan
c. Als staven elkaar aanraken: representeren ze een onderliggende continue
schaal
d. Intervallen moeten altijd gelijk zijn
e. Vorm: klokvormig en symmetrisch kan ook scheef naar links of rechts
unimodaal
f. Vorm: twee toppen bimodaal
Modus:
- Waarde die het vaakst voorkomt
- De modus is de naam van de categorie
- Twee modus: bimodale verdeling
Mediaan:
- De middelste waarde van je observaties, wanneer ze van klein naar groot zijn
geordend
- Bij een even aantal: pak je gemiddelde van de twee middelste waarden
Gemiddelde:
- Het balanspunt van je data
Categoriale niveau modus
Kwantitatieve niveau mediaan (als er invloedrijke outliers zijn of als verdeling heel scheef
is) of gemiddelde
Het bereik (range) = het verschil tussen de hoogte en laagste waarden (het geeft alleen geen
goede indruk van de variabiliteit, want het telt alleen de extreme waarden)
De interkwartielafstand (IKA) = de afstand tussen Q3 en Q1 (outliers hebben hier geen
invloed). Het gaat hier om het verschil tussen 25e en 75e percentiel.
1. Zet de getallen van laag naar hoog
2. Bereken de mediaan (Q2)
3. Bereken de mediaan (Q1) van de eerste helft
4. Bereken de mediaan (Q3) van de tweede helft
5. Q3-Q2
Boxplot is handig bij het opsporen van outliers
- De box (Q1 + Q2 + Q3) is 50%
- De boxplot wordt in vier gelijke delen verdeeld: elk 25%
- Lengte van de box is IKA
- Middelste lijn in de box (Q2) is mediaan