Hoorcollege 1 – ANOVA en lineaire regressie
Meer dan twee groepen vergelijken, legt de nadruk op significantie.
Variantieanalyse: verschillen tussen meerdere groepen toetsen (uitbreiding van t-toets voor twee
onafhankelijke groepen).
Maakt gebruik van kwadratensommen: het gekwadrateerde verschil tussen de observaties en een
bepaald gemiddelde. Komt erop neer dat totale variantie in uitkomstvariabele opgesplitst wordt in
twee delen. Kijken of variantie tussen groepen (wat overeenkomt met het verschil tussen de
gemiddelden) groter is dan variantie binnen groepen.
Technisch gezien moet eerst de totale kwadratensom worden berekend: het gekwadrateerde
verschil tussen de individuele observaties en het totale gemiddelde kwadratensom opsplitsen in
tussengroepkwadratensom (SSb) en binnengroepkwadratensom (SSw).
SSb: gemiddelde waarden worden vergeleken met totale gemiddelde
SSw: individuele waarden worden vergeleken met groepsgemiddelde
M.b.v. variantieanalyse kan (a.d.h.v. kwadratensommen) vervolgens getoetst worden of de
gemiddelde waarden significant van elkaar verschillen.
Mean square: SSb en SSw gedeeld door aantal vrijheidsgraden.
Toetsingsgrootheid = F en daarmee kan p-waarde bepaald worden.
Hoe groter het verschil tussen de groepen, des te groter zal de tussengroepkwadratensom zijn en des
te meer aanleiding zal er zijn om de nulhypothese te verwerpen.
Hoe groot het verschil is en tussen welke groepen er een verschil is, is niet uit het resultaat van de
toets af te leiden.
Variantieanalyse is ook uit te voeren bij twee groepen.
De toets toont aan dat er ergens een verschil zit tussen de groepen (dus bij minimaal 1 groep), maar
niet waar. Om dat te achterhalen moet een paarsgewijze vergelijking worden uitgevoerd: post-hoc
procedure.
Bij post-hoc lagere betrouwbaarheid bij meer groepen (multiple-toetsingsprobleem). Hiervoor
corrigeren door bij de post-hoc het 95%-BI rond gevonden verschil groter te maken en daardoor ook
de p-waarde te verhogen. Methoden: Bonferroni-correctie, Scheffe-correctie of Tukey-correctie.
Uitkomstvariabele moet wel normaal verdeeld zijn voor de variantieanalyse. Anders: transformeren
(voorkeur). Alternatief: non-parametrisch (Kruskall-Wallis).
Lineaire regressieanalyse: continue uitkomstvariabelen analyseren. Alle soorten determinanten
kunnen worden geanalyseerd.
Allereerst: scatterplot van observaties x-as: determinant en y-as: uitkomstvariabele.
Lineaire regressielijn door puntenwolk de lijn die het beste de relatie beschrijft tussen de
variabelen. De (verticale) afstand van de individuele observaties tot de lijn zijn zo klein mogelijk (de
kleinstekwadratenmethode).