Lineaire regressie
Kijkt naar het effect van X op Y
Simpele regressie (met 1 onafhankelijke X)
Y = a + bx
→ ‘a’= constant, de waarde van x = 0. ← daar snijdt de lijn de y-as als eerst (begin)
→ ‘b’ = regressiecoëfficient, voor elke eenheid toename in x, neemt Y met die waarde
toe / af.
- Wanneer je SSm deelt door SSt, krijg je de R2. De R Square laat zien hoeveel
variantie er verklaard wordt uit je model
Laat dus het deel zien van je afhankelijke (Y) variabele dat verkaard wordt
adhv je model (= pearsons r in kwadraat)
● Vermedigvuldig R2 om percentage te krijgen.
- F laat zien hoe het gehele model een significante verbetering is tov het
gemiddelde → moet daarom ook significant zijn.
Assumpties
- Outliers: schiet er geen data uit je onderzoek erg uit of niet.
- onafhankelijke error: voor elke twee observaties zouden de residuen niet
moeten correleren
- Homoscedasticiteit: punten niet te ver uit elkaar op elk niveau → op elk
niveau van de predictor moet de variantie vd residuen enigszins constant zijn
● wanneer punten niet goed verdeeld zijn / een patroon hebben => wss
sprake van homogeniteit van varianties.
- Predictoren correleren niet met externe waardes ( externe variabelen zijn niet
mee genomen in t model, maar beinvloeden wel de outcome variabele).
- Multicollinieariteit = waneer er een sterke correlatie is tussen twee of meer
predictoren. Als dit zich voordoet ontstaan 3 problemen:
1) onbetrouwbare b coefficienten
2) limiteert de grootte van de R (de maat voor correlatie tussen voorspelde
en de uitkomst van de geobserveerde waarden)
3) maakt t lastig om individueel belang predictors te herkennen bij
multicollinieariteit
→ kan met VIF controleren
, Cook’s Distance is een maat die de overall invloed van een case op het model laat
zien (deze niet hoger dan 1 zijn)
ANOVA
wat Gemiddelden van meer dan 2 groepen met elkaar vergelijken →
Toetst of de gemiddelde op een (interval of ratio) afhankelijke
variabele bij meer dan twee groepen verschillen op 1 of meer
categorische onafhankelijke variabelen.
Dus: Kijken of er wel verschil zit tussen y controle & y andere groep
Waarom Gebruik je wanneer:
- categorische onafhankelijke variabele met meerdere niveau’s
- wanneer je nog niet echt weet welke groepen je wil vergelijken,
op deze manier zie je ze allemaal = post hoc
- de varianties voor elke groep zijn gelijk (homoscedasticiteit)
Post hoc/ Tukey = Laat je per paar zien waar de verschillen tussen de
groepen bestaat.
- Alleen doen wanneer omnibus toets significant is & er geen
verwachting is
- Posthoc testen bestaan uit pairwise vergelijkingen ontworpen om
verschillende combinaties van je groepen te vergelijken
(hierdoor wordt je error gecontroleerd)
Hoe rapporteren we Post hoc → de significantie bij de F waarde (F(df,
error) = Fwaarde, p = …) waarbij de Post hoc significantie verschillen
toont tussen groep A & groep B
Belangrijkste Bij ANOVA gebruik je de F-toets als regressie=
variantie model → voorspelling (= groepsgemiddelde) tov algemeen gem.
F = —-----------------
variantie residuen → datapunten tov voorspellingen
Dus: F = verschillen tussen groepen/ verschillen binnen groepen
- tussen = between & staat onder mean square → gemiddelde hoeveel-
heid verklaarde variantie tussen de groepen
- binnen = within & staat onder mean square → gemiddelde hoeveel-
heid verklaarde variantie binnen de groepen
Omnisbustoets → verteld je of er verschillen zijn tussen groepen maar niet
tussen welke groepen..
- Hierdoor = H0 = y1 = y2 = y3 etc.. (of te wel H0 is alles is gelijk)
- H1 = tenmisnte 2 groepen verschillen (effect)
● Post hoc corrigieert beter op familywise error (dan t-toets)
● Als H0 bij ANOVA wordt aangenomen/ waar is, betkend dit dat de
groepsgemiddelden gelijk zijn aan het algemeen gemiddelen