HOORCOLLEGE 13: ANOVA
Wat is ANOVA?
- ANOVA = Analysis of Variance
> Wordt ook wel variantieanalyse genoemd
- Het is een soort uitbreiding van de T-toets (toets die test of groepen significant van elkaar
verschillen op een afhankelijke variabele)
o Het is dus hetzelfde als een regressie, alleen dan meer uitgebreid
o En je gebruikt dummy’s
- Je vergelijkt alleen meer dan twee groepsgemiddelden (y’s) van elkaar
o Bv:
- ANOVA is een omnibustoets met follow-ups:
o Bij een omnibustoets kijk je of de gemiddelden op de afhankelijke variabelen
voor meerdere groepen significant van elkaar verschillen
o Als er tussen groepen een significant verschil zit wil je kijken tussen welke
groepen dit verschil zit:
§ Dit doe je met follow-ups; hier zijn twee manieren voor:
- Geplande contrasten: gebruik je als je een specifieke hypothese
hebt
- Post-hoc toetsen: gebruik je als je geen specifieke hypothese hebt
- Achtergrond ANOVA vs regressie:
o Regressie is ontwikkeld om op zoek te gaan naar effect van interval/ratio X op Y,
in data die zich op een natuurlijke wijze voordoet, met soms wat categorische X’en
o ANOVA is ontwikkeld om effect na te gaan van een gemanipuleerde of
geselecteerde categorische X op Y, met soms wat kwantitatieve X’en
VOORBEELD: Onderzoeken of puppy-therapie invloed heeft op geluksniveau met (1) een
controle groep zonder puppy-therapie; (2) een groep met een lage dosis van 15 minuten
puppy-therapie; (3) een groep met een hoge dosis van 30 minuten puppy-therapy
Wanneer gebruik je ANOVA?
- Als je tenminste één onafhankelijke variabele hebt die categorisch is (dus bv binair of
ordinaal)
o Deze variabele geeft aan hoe de groepen van elkaar verschillen
o Als je 1 onafhankelijke variabele hebt heet dit een eenweg ANOVA
o Heb je meer onafhankelijke variabelen dan heet het meerweg ANOVA
,- Als je afhankelijke variabele op interval/ratio meetniveau is
- Bij een (quasi-)experimenteel design
- Als het gebruik van een ANOVA overzichtelijker dan meerdere regressies is
- Als het gebruikelijk is om een ANOVA te gebruiken (bijv. in de psychologie)
- Als je geen specifieke verwachtingen hebt zijn post-hoc toetsen handig
Waarom doe je niet…
- …een t-toets uitbreiden naar een 3-voudige t-toets?
o Werkt niet
o Bij een t-toets reken je een t-waarde uit (als je dit oneindig vaak zou doen, dan
weet je waar deze op een normaalverdeling zit, en kan je de oppervlakte hieronder,
en dus de p-waarde, berekenen)
o Bij meerdere onafhankelijke variabelen weet je niet hoe de verdeling precies loopt
(wat de vorm is) > daarom kan je ook niet de oppervlakte hieronder (de p-waarde)
berekenen
- …een regressievergelijking met dummy’s?
o Onhandig gekozen dummy’s kunnen een effect ‘verbergen’
§ Bij dummy’s heb je altijd 1 categorie waarmee je vergelijkt
§ Je mist dus altijd één groepsvergelijking
§ Kies je dit verkeerd dan verbergt dit het effect
o Je rapporteert nooit twee regressieanalyses
o Je moet een hoop extra werk doen om achter je effect te komen
- …een aantal t-toetsen?
o Als je meerdere toetsen doet over dezelfde data, krijg je een grotere kans op een
type I fout
o Je kan weliswaar de a veranderen met bv Bonferroni’s toets, maar dan raak je
power kwijt
Hoe werkt een ANOVA?
- De techniek achter een eenweg ANOVA is hetzelfde als in een regressiemodel
o In hoeverre helpt je regressievlak om betere voorspellingen te maken dan het
algemeen gemiddelde?
!"#$"%&$' )*+',
o 𝐹= !"#$"%&$' #'-$+.'%
- Het is een omnibustoets dus het zegt of er verschillen zijn tussen groepen, maar niet
tussen welke groepen
- H0 = alle gemiddelden zijn gelijk = %%%
𝑦/ = %%% 𝑦1 𝑦'2 … ) > algemeen gemiddelde als
𝑦0 = %%%(=
beste voorspelling
- H1 = tenminste twee groepen significant verschillend van elkaar
, - Om te meten gebruik je de F-statistiek (= verhouding van hoe
goed je model is vergeleken met hoe slecht het is > zijn
groepsgemiddelden significant verschillend)
!'#-34$, &.--'% 5#*'6'% )8!
o 𝐹= !'#-34$, 7$%%'% 5#*'6'%
= )8"
Assumpties:
- Homogeniteit van varianties
o Twee toetsen die hiervoor corrigeren en die je dus kan gebruiken i.p.v. standaard
F-toets zijn Brown-Forsythe F & Welch’s F
- Lineariteit
- Onafhankelijke residuen
- Homoscedasticiteit
- Normaal verdeelde residuen
- Geen ontbrekende externe variabelen
- Onafhankelijke observaties
- Niveau afhankelijke kwantitatief
- Niveau onafhankelijke(n) kwanti/categorisch
- Geen sterke multicollineariteit
- Variantie groter dan nul
Follow-ups
Geplande contrasten
- Je vergelijkt verschillende groepen met elkaar om te kijken of hier significante verschillen
in zitten
o Je vergelijkt steeds maar twee groepen met elkaar (dus bv eerst je controle groep
tegen de andere groepen)
o Als je een groep hebt gebruikt in een contrast, kan je deze groep niet nog een keer
in een ander contrast gebruiken