Hoorcollege 1 Het idee achter statistiek 1
De academische cyclus:
Data analyse → kwantitatieve data-analyse → statistiek
Statistiek is trial and error → zal vaker mis gaan, maar blijven oefenen en eventueel googelen.
Unit of analysis = hetgeen waarover je informatie verzamelt (meestal individuen, maar ook
bedrijven, landen, scholen, etc.)
Variabelen = gemeten kenmerken van zo’n unit of analysis (de vragen in je vragenlijst, geslacht,
leeftijd, BNP, de Likert-scales in je enquête).
Values = de scores van een unit of analysis op een variabele (man/vrouw, leeftijd in jaren,
grotendeels mee oneens).
Value labels = wat een score inhoudt (bijv. 0=man en 1=vrouw, 1=eens en 2=oneens).
Variabelen:
1. Onafhankelijke variabelen (X) → oorzaak/predictor, wat invloed heeft op iets anders.
2. Afhankelijke variabelen (Y) → gevolg/outcome, wat beïnvloed wordt door iets anders.
Per analyse vaak 1 afhankelijke variabelen, maar wel meer onafhankelijke variabelen mogelijk! Eén
ding wil verklaren aan de hand van meerdere verschillende mogelijke oorzaken.
Theorie en hoofdvraag zijn bepalend voor wat de onafhankelijke en wat de afhankelijke variabelen is.
Meetniveaus:
, Categoriaal → verschillende groepen.
1) Binair → 2 categorieën (bijv. man en vrouw, ja of nee)
2) Nominaal → meer dan 2 categorieën (bijv. politieke partijen)
3) Ordinaal → inherente/logische ordening (bijv. opleidingsniveau van laag naar hoog)
Continu → schalen waarop je iedere mogelijke score kan hebben.
1) Interval → verschillen op schaal zijn betekenisvol (bijv. leeftijd)
2) Ratio → ratios zijn betekenisvol, vanwege de nulpunt die hier ook betekenisvol is (bijv.
leeftijd)
In SPSS alleen nominaal, ordinaal en scale (interval/ratio). De 5-point Likert-scale in de praktijk als
ordinaal en 7-point Likert-scale als interval. Echter in theorie zijn alle Likert-scales ordinaal.
Meetniveaus zijn zo belangrijk omdat:
Het bepaalt welke statistische toets mogelijk is.
Meetniveaus van een variabele worden bepaald door de antwoordopties van een vraag!
Centrummaten:
Mediaan → de middelste score
Modus → meest voorkomende score
Gemiddelde/mean → alle scores gedeeld door het aantal scores
Spreidingsmaten:
Range → wat is de laagste score en wat is de hoogste score
Standaarddeviatie → de gemiddelde afwijking van het gemiddelde
Gemiddelde berekenen → scores optellen en door het aantal scores/respondenten delen.
Formule voor gemiddelde →
Gemiddelde = Som van alle scores : aantal scores cases/respondenten
Standaarddeviatie berekenen → de gemiddelde afwijking van het gemiddelde.
Stappenplan standaarddeviatie:
1) Bereken het gemiddelde
2) Deviance → de afwijking berekenen door de scores af te trekken van het gemiddelde.
3) De mintekens weghalen.
4) Alles in het kwadraat te zetten, door alles met zichzelf te vermenigvuldigen.
5) Sum of squares → kwadratensom, dus alle uitkomsten van de kwadraten bij elkaar op tellen.
6) Variance/variantie in model, door terug te gaan naar een score per individu door → sum of
squares te delen door aantal scores – 1 (vanwege vrijheidsgraden)
7) Standarddeviatie→ kwadraat eruit halen, door de wortel van de variance te nemen (bijv. √9 = 3)
Probleem van Sum of squares:
Afhankelijk van het aantal scores, het aantal respondenten.
Dus wanneer je meer respondenten hebt, je dataset groter is dan wordt je sum of square ook
groter.