Dummy variabelen (categorische voorspeller)
- aantal dummy’s= (g-1) want er is geen overlap binnen de groepen (dummy’s zijn
onafhankelijk van elkaar).
- Dummy’s vormen samen 1 onafhankelijke categorische variabele (=factor) → altijd
samen in 1 model maar nog wel multipele model want E(y)= a+ b1d1 +b2d2 ….
- Hellingen toetsen: verschil toetsen in gemiddelden tussen een groep en de
referentiegroep.
- Multipele correlatie R is de samenhang tussen de categorische variabele en de continue
variabele.
- Codering: d1: 1= groep 1 en 0= andere groep, d2: 1= groep 2 en 0= andere groep,
groep 3 is geen dummy.
ANOVA F-toets: Kunnen de xen een significant deel van de variantie van y verklaren?
→ H0: ρ² = 0 → β1 = β2 = … = βk = 0
→ H0 als dummyvariabelen om groepen te vergelijken: → H0: ρ² = 0 → β1 = β2 = … = βk = 0
(μ1-μ4) = (μ2-μ4) = (μ3-μ4) = 0 → μ1 = μ4, μ2 = μ4, μ3 = μ4 → μ1 = μ2 = μ3 = μ4
→ Ha: ρ² > 0 → de gemiddelden zijn niet allemaal gelijk, tenminste 2 verschillen van elkaar.
→ F(between, within) =, p < 0.005
→ Verwerp de nulhypothese. De gemiddelden in de … groepen zijn niet allemaal hetzelfde, er
zijn significante verschillen tussen een aantal gemiddelden.
Meervoudige vergelijkingen: Post Hoc-toetsen: toetsen op verschillen tussen alle paren van
gemiddelden → gebruikt nadat in ANOVA H0 is verworpen
- T-toetsen voor 2 groepen
- Bhi’s: (yi-yj) +- t* x s√1/ni +1/nj met s= √MSE en df bij mse.
→ gepoolde SD (s= √MSE): onder de aanname dat de populatievarianties in de groepen
gelijk zijn → SD binnen groepen (=residuen) is constant → homoscedasticiteit: SD van
alle residuen is constant (als de gepoolde SD gebruikt wordt voor bhi’s zijn ze allemaal
even breed omdat de groepsgroottes gelijk zijn).
→ conclusie uit meervoudige vergelijkingen: Groep ... (betekenis) heeft significant
meer/minder y dan de andere ... groepen. Groep …. heeft gemiddeld wel meer y dan
groep ... maar dat is niet significant. De trend is duidelijk: hoe …. X, hoe … y.
→ gevaar: kanskapitalisatie: omdat je zo vaak toetsen achter elkaar uitvoert is de kans dat je
ergens een keer een significant resultaat vindt puur toeval en best groot → maakt veel type I
fouten (ten onrechte H0 verwerpen).
→ correctie procedures:
- Least-significant differences (LSD): geen correctie maar subtiel verschil: gebruik toetsen
met df=n-g en een α vaste per toets.
- Bonferroni procedure: erg streng → kans iets significants vinden kleiner.
Net zoals LSD maar gebruikt α/k (k=aantal toetsen) per toets. → P(tenminste 1 H0
geschonden) = α/k
, - Tukey procedure: geen aanpassing van α maar van de gebruikte verdeling →
studentized range verdeling
Eenweg-ANOVA: toetsen of er een significant verschil is tussen de gemiddelde score op y in
een aantal groepen g.
→ H0: μ1 =μ2 = … =μg
→ Ha: tenminste twee gemiddelden verschillen
- Verklaarde variantie: verschil tussen groepen (regressie-aanpak: regression, residual,
total)
- Onverklaarde variantie: verschil binnen groepen (ANOVA-aanpak: between groups,
within groups, total):
● groot verschil tussen groepen: grote tussengroepsvariantie (weinig overlap
tussen groepen = makkelijker groepen onderscheiden).
● klein verschil binnen groepen: kleine binnengroepsvariantie (veel overlap binnen
groepen = moeilijker groepen onderscheiden en concluderen of er een significant
verschil is).
● F = MSM /MSE = SSM/(g-1) / SSE/(n-g)
→ H0 waar = F kleiner of gelijk aan 1
→ H0 niet waar = F groter dan 1.
● Conclusie: als H0 verwerpen: tenminste 1 groep verschilt significant van de rest
→ follow-up analyse nodig.
Tweeweg-ANOVA: twee groepsindelingen: worden bepaald door 2 factoren met A heeft i
categorieën en B heeft j categorieën → maken samen i*j groepen.
- Aanname: in elke groep Y ~ N (μij, σ) met σ is gelijk voor alle groepen.
→ 3 nulhypothesen want toetsen 3 effecten:
1. H0: er is geen hoofdeffect voor factor A → μ1 =μ2 = … μi (marginale gem factor A).
Ha: er is geen hoofdeffect voor factor A → tenminste 1 van de gemiddelden is ongelijk
aan een ander gemiddelde (=tenminste 2 gemiddelden verschillen van elkaar).
2. H0: er is geen hoofdeffect voor factor B → μ1 =μ2 = … μj (marginale gem factor B).
Ha: er is geen hoofdeffect voor factor B → tenminste 1 van de gemiddelden is ongelijk
aan een ander gemiddelde.
3. H0: er is geen interactie-effect AB (mean plot: lijnen lopen parallel)
Ha: er is wel een interactie-effect AB (mean plot: lijnen lopen niet parallel).
→ hypothesen toetsen via ANOVA splitsen van de variantie:
- Eenweg: TSS = SSA (factor A) + SSE* (error)
→ SSE* is kleiner dan SSE want uit SSE wordt
gekeken of er nog dingen verklaard kunnen worden
die te maken hebben met het hoofdeffect van B en
interactie-effect SB, hierdoor blijft er kinder
onverklaarde variantie over.
- Tweeweg: TSS = SSA + SSB + SSAB + SSE
- Df: n-1 = (i-1) + (j-1) + (i-1)*(j-1) + (n-ij)
- Mean squares: MS = SS/df