Samenvatting statistiek 3
blok 2b.
1
,Inhoudsopgave
Week 1...................................................................................................................................................3
Week 2...................................................................................................................................................6
Week 3.................................................................................................................................................13
Week 4.................................................................................................................................................19
Week 5.................................................................................................................................................26
Week 6.................................................................................................................................................34
Week 7.................................................................................................................................................40
Oefententamen....................................................................................................................................44
Nulhypotheses......................................................................................................................................45
Tabellen................................................................................................................................................45
Wanneer welke toets?..........................................................................................................................46
Begrippenlijst:.......................................................................................................................................46
Andere samenvattingen.......................................................................................................................47
2
,Week 1
Opgaven te maken: 12.2, 12.4, 12.6, 12.7, 12.8, 12.10 + MC
Formules:
t-test:
f-toets:
Categorische variabelen als predictoren
– Mag als het dummy's zijn (0/1 variabelen)
– Als er meer dan twee categorieën zijn mogen variabelen mag je die
niet zomaar als voorspeller in het model opnemen – Waarom niet?
– Let op: nominale of ordinale variabelen
– Ordinaal: Likert-schaal met vijf of meer categorieën?
– Hoe dan wel? Maak dummy-variabelen
• Wat moet je doen met een categorische voorspeller?
– Maak er een aantal dummy’s van
– Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 – 1
Je wilt weten of er een significant verschil is tussen de
gemiddelde score op een bepaalde variabele (𝑦𝑦) in een
aantal groepen (𝑔𝑔)
– 𝐻0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑔
– 𝐻𝑎: tenminste twee gemiddelden verschillen
– Vergelijk varianties: verklaard en onverklaard (regressie-aanpak)
– Vergelijk varianties: tussen en binnen groepen (ANOVA-aanpak)
• (Omnibus) ANOVA 𝐹-toets
– Groot verschil tussen groepen: tussengroepvariantie groot
– Weinig verschil binnen groepen: binnengroepvariantie klein
– Toetsen op verschillen tussen alle paren van gemiddelden:
dus tussen alle groepen
3
, – Worden gebruikt als voorafgaand aan de analyse geen specifieke
hypotheses (kunnen) worden gedefinieerd
– Worden gebruikt nadat in ANOVA 𝐻0 is verworpen
– Daarom worden ze post-hoctoetsen genoemd
– Meest eenvoudige manier: 𝑡-toetsen of bhi’s (voor gemiddelden)
• Toetsen op verschillen tussen alle paren van gemiddelden:
dus tussen alle groepen
– Meerdere toetsen achter elkaar om alle groepen te vergelijken
– Gevaar: Kanskapitalisatie
– Voorbeeld: vijf groepen en dus 10 nulhypotheses 𝐻0: 𝜇1 = 𝜇2,
𝐻0: 𝜇1 = 𝜇3, … , 𝐻0: 𝜇3 = 𝜇5, 𝐻0: 𝜇4 = 𝜇5
– Bekijk de totale 𝛼 (overall error rate) voor alle toetsen samen:
• Stel je neemt 𝛼 = 0,05 voor elke toets, dan is voor 10 onafhankelijke toetsen samen de totale 𝛼 = 1
− (0,95)10 = 0,40
• (Bovengrens: Totale 𝛼 < 10 × 0,05 = 0,50)
– Consequentie: Je maakt te veel Type I fouten, dat wil zeggen dat je te vaak ten onrechte 𝐻𝐻0
verwerpt
Correctieprocedures (drie die in H.12 staan)
1. Least-significant differences (LSD)
Geen correctie: gebruik 𝑡-toetsen met 𝑛− 𝑔 dfs en vaste 𝛼 per toets (bijv. 𝛼 = 0,05)
De toetsen zijn ‘beschermd’ door een significante ANOVA: geldt maar deels (alleen bij drie groepen
is er volledige bescherming)
2. Bonferroni procedure
Als LSD, maar gebruik niet 𝛼𝛼 maar 𝛼𝛼/𝑘𝑘 per toets
Gebaseerd op Bonferroni-ongelijkheid: 𝑃( ) tenminste één 𝐻0 geschonden ≤ 𝛼1 + ⋯ + 𝛼𝑘 = 𝑘 × 𝛼
Correctie voor kanskapitalisatie – Voorbeeld: 𝑔 = 4 groepen, dus 𝑘 = 6 toetsen voor 𝐻0: 𝜇𝑖 = 𝜇𝑗 ––
met t-toets: Toets tweezijdig, bijv. met 𝛼 = 0,05 (overall) – Gebruik voor elke
afzonderlijke toets: 𝛼 = 0,05 6 = 0,0083 – Dit betekent een kritieke 𝑡-waarde die hoort bij een 𝛼 van
0,0083 (tweezijdig!) en 𝑑 = 𝑛 − 𝑔 – Voor bhi geldt dat het betrouwbaarheidsniveau per toets gelijk is
4
blok 2b.
1
,Inhoudsopgave
Week 1...................................................................................................................................................3
Week 2...................................................................................................................................................6
Week 3.................................................................................................................................................13
Week 4.................................................................................................................................................19
Week 5.................................................................................................................................................26
Week 6.................................................................................................................................................34
Week 7.................................................................................................................................................40
Oefententamen....................................................................................................................................44
Nulhypotheses......................................................................................................................................45
Tabellen................................................................................................................................................45
Wanneer welke toets?..........................................................................................................................46
Begrippenlijst:.......................................................................................................................................46
Andere samenvattingen.......................................................................................................................47
2
,Week 1
Opgaven te maken: 12.2, 12.4, 12.6, 12.7, 12.8, 12.10 + MC
Formules:
t-test:
f-toets:
Categorische variabelen als predictoren
– Mag als het dummy's zijn (0/1 variabelen)
– Als er meer dan twee categorieën zijn mogen variabelen mag je die
niet zomaar als voorspeller in het model opnemen – Waarom niet?
– Let op: nominale of ordinale variabelen
– Ordinaal: Likert-schaal met vijf of meer categorieën?
– Hoe dan wel? Maak dummy-variabelen
• Wat moet je doen met een categorische voorspeller?
– Maak er een aantal dummy’s van
– Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 – 1
Je wilt weten of er een significant verschil is tussen de
gemiddelde score op een bepaalde variabele (𝑦𝑦) in een
aantal groepen (𝑔𝑔)
– 𝐻0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑔
– 𝐻𝑎: tenminste twee gemiddelden verschillen
– Vergelijk varianties: verklaard en onverklaard (regressie-aanpak)
– Vergelijk varianties: tussen en binnen groepen (ANOVA-aanpak)
• (Omnibus) ANOVA 𝐹-toets
– Groot verschil tussen groepen: tussengroepvariantie groot
– Weinig verschil binnen groepen: binnengroepvariantie klein
– Toetsen op verschillen tussen alle paren van gemiddelden:
dus tussen alle groepen
3
, – Worden gebruikt als voorafgaand aan de analyse geen specifieke
hypotheses (kunnen) worden gedefinieerd
– Worden gebruikt nadat in ANOVA 𝐻0 is verworpen
– Daarom worden ze post-hoctoetsen genoemd
– Meest eenvoudige manier: 𝑡-toetsen of bhi’s (voor gemiddelden)
• Toetsen op verschillen tussen alle paren van gemiddelden:
dus tussen alle groepen
– Meerdere toetsen achter elkaar om alle groepen te vergelijken
– Gevaar: Kanskapitalisatie
– Voorbeeld: vijf groepen en dus 10 nulhypotheses 𝐻0: 𝜇1 = 𝜇2,
𝐻0: 𝜇1 = 𝜇3, … , 𝐻0: 𝜇3 = 𝜇5, 𝐻0: 𝜇4 = 𝜇5
– Bekijk de totale 𝛼 (overall error rate) voor alle toetsen samen:
• Stel je neemt 𝛼 = 0,05 voor elke toets, dan is voor 10 onafhankelijke toetsen samen de totale 𝛼 = 1
− (0,95)10 = 0,40
• (Bovengrens: Totale 𝛼 < 10 × 0,05 = 0,50)
– Consequentie: Je maakt te veel Type I fouten, dat wil zeggen dat je te vaak ten onrechte 𝐻𝐻0
verwerpt
Correctieprocedures (drie die in H.12 staan)
1. Least-significant differences (LSD)
Geen correctie: gebruik 𝑡-toetsen met 𝑛− 𝑔 dfs en vaste 𝛼 per toets (bijv. 𝛼 = 0,05)
De toetsen zijn ‘beschermd’ door een significante ANOVA: geldt maar deels (alleen bij drie groepen
is er volledige bescherming)
2. Bonferroni procedure
Als LSD, maar gebruik niet 𝛼𝛼 maar 𝛼𝛼/𝑘𝑘 per toets
Gebaseerd op Bonferroni-ongelijkheid: 𝑃( ) tenminste één 𝐻0 geschonden ≤ 𝛼1 + ⋯ + 𝛼𝑘 = 𝑘 × 𝛼
Correctie voor kanskapitalisatie – Voorbeeld: 𝑔 = 4 groepen, dus 𝑘 = 6 toetsen voor 𝐻0: 𝜇𝑖 = 𝜇𝑗 ––
met t-toets: Toets tweezijdig, bijv. met 𝛼 = 0,05 (overall) – Gebruik voor elke
afzonderlijke toets: 𝛼 = 0,05 6 = 0,0083 – Dit betekent een kritieke 𝑡-waarde die hoort bij een 𝛼 van
0,0083 (tweezijdig!) en 𝑑 = 𝑛 − 𝑔 – Voor bhi geldt dat het betrouwbaarheidsniveau per toets gelijk is
4