De basis: Wat zijn we eigenlijk aan het doen met die cijfers?
Stel, je hebt gegevens verzameld in een onderzoek. Bijvoorbeeld, je hebt gevraagd hoe
blij mensen zijn na het eten van chocola versus na het eten van een appel. Je hebt van
iedereen een cijfer voor 'blijheid'. Wat wil je nu weten?
1. Beschrijven: Hoe blij waren de mensen gemiddeld in de chocola-groep? En hoe
blij in de appel-groep? Hoeveel spreiding zit er in de scores? (Zijn de meeste
mensen ongeveer even blij, of zijn er heel blije en heel niet-blije mensen?). Dit
noemen we beschrijvende statistiek. Hiermee vat je de gegevens samen. Denk
aan gemiddelden, de score die het meest voorkomt (modus), de middelste score
(mediaan), en hoe ver de scores uit elkaar liggen (standaardafwijking, variantie,
bereik). Je kunt dit laten zien in tabellen of grafieken (zoals histogrammen).
2. Conclusies trekken (Generaliseren): Stel, in jouw groepje mensen was de
chocola-groep gemiddeld blijer. Maar was dit verschil er echt omdat chocola je
blijer maakt, of was het gewoon toeval dat je net wat blijere mensen in die groep
had? Inferentiële statistiek helpt je om op basis van je steekproef (jouw groepje
mensen) conclusies te trekken over een grotere groep mensen (de populatie). Je
wilt weten of je resultaat statistisch significant is. Dat betekent: is het zo
onwaarschijnlijk dat dit verschil door puur toeval is ontstaan (meestal minder
dan 5% kans) dat je mag aannemen dat er in de echte wereld (de populatie) ook
een verschil is?
o Hierbij kun je fouten maken:
▪ Type 1 fout: Je denkt dat er een verschil is, maar in werkelijkheid is
het toeval. De kans hierop is meestal je significantieniveau, vaak
5%.
▪ Type 2 fout: Je denkt dat er geen verschil is, maar in werkelijkheid
is er wel degelijk een verschil in de populatie.
o Daarom zeggen wetenschappers nooit dat ze iets 'bewijzen'. Ze zeggen dat
hun resultaten een theorie ondersteunen of weerleggen/aanpassen.
ANOVA: Groepen vergelijken
Oké, terug naar het vergelijken van groepen, zoals chocola vs. appel. Als je meer dan
twee groepen hebt (stel je hebt ook een groep die niks krijgt, een 'controlegroep'), of als
je een ingewikkelder onderzoek hebt, gebruik je vaak ANOVA (dat staat voor ANalysis Of
VAriance, oftewel variantieanalyse).
, • Wat doet ANOVA? Het kijkt of de gemiddelden van verschillende groepen van
elkaar verschillen.
• Wat heb je nodig voor ANOVA?
o Een onafhankelijke variabele die groepen maakt (bijvoorbeeld 'soort
eten': chocola, appel, niks). Dit moet een nominale variabele zijn.
o Een afhankelijke variabele die je meet (bijvoorbeeld 'blijheid'). Dit moet
iets zijn wat je kunt meten op een schaal met betekenisvolle afstanden,
minstens interval niveau.
• Hoe werkt ANOVA in de kern? Het kijkt naar de spreiding (variantie) in je
gegevens. Het deelt de totale spreiding op in twee delen:
o Spreiding tussen de groepen: Hoeveel verschillen de groepsgemiddelden
van elkaar? Is het gemiddelde van de chocola-groep heel anders dan dat
van de appel-groep? Dit is de spreiding die verklaard wordt door het
groepseffect (de onafhankelijke variabele).
o Spreiding binnen de groepen: Hoeveel verschillen de individuele scores
binnen de chocola-groep van het gemiddelde van die groep? En binnen de
appel-groep? Dit is de spreiding die komt door toeval of andere dingen die
je niet hebt gemeten. Dit is de onverklaarde variantie.
• ANOVA kijkt naar de verhouding tussen de variantie tussen de groepen en de
variantie binnen de groepen. Als de variantie tussen de groepen veel groter is
dan de variantie binnen de groepen, dan lijkt er een groepseffect te zijn. Dit
betekent dat de onafhankelijke variabele (soort eten) waarschijnlijk invloed heeft
op de afhankelijke variabele (blijheid).
De F-toets: Is het verschil significant?
Nadat ANOVA heeft gekeken naar de varianties, willen we weten of dat gevonden
groepseffect significant is. Daarvoor gebruiken we de F-toets.
• De nulhypothese bij de F-toets is altijd: er zijn geen verschillen tussen de
groepen in de populatie.
• De F-toets berekent een F-waarde. Deze F-waarde is de Mean Square (een soort
gemiddelde variantie) tussen de groepen gedeeld door de Mean Square binnen
de groepen.
o Mean Squares bereken je door de Sum of Squares (SS, de totale
gekwadrateerde afwijking) te delen door de bijbehorende vrijheidsgraden
(df). De vrijheidsgraden zijn gerelateerd aan het aantal groepen (df tussen)
en het totale aantal deelnemers en groepen (df binnen).