INLEIDING
In dit hoofdstuk wordt onderzocht hoe we tot besluitvorming kunnen komen voor een categorische
uitkomst.
De focus ligt hier op de associatie tussen een categorische uitkomst en een categorische predictor.
TOETSEN VOOR PROPORTIE
In saksen: studie in een vrij gesloten populatie mensen
➔ Onderzoeksvraag: hoe waarschijnlijk is het dat een ongeboren kind mannelijk is
Totaal aantal baby’s: 6155 #jongens: 3175
Te onderzoeken; is er een verschil tussen de kans op een jongen/meisje?
➔ de gegevens worden opgevat als uitkomsten van een numerieke toevalsveranderlijke X
Uitkomst 1 = jongen Uitkomst 0 = meisje
Opmerking: er is hier een zogenaamd telprobleem, omdat de uitkomst een telling voorstelt
De uitkomst variabele is binair
➔ kan gemodelleerd worden a.d.h.v. een Bernoulli verdeling
𝑋𝑖 ∼ 𝐵(𝜋) met
𝐵(𝜋) = 𝜋 𝑋𝑖 (1 − 𝜋)(1−𝑋𝑖 ), een distributie met 1 model parameter 𝜋
➔ 𝜋 is de verwachte waarde van 𝑋𝑖
E[𝑋𝑖 ] = 𝜋
de proportie van ongeboren jongens (d.i. kinderen met een 1) in de populatie. Bijgevolg is π ook de
kans dat een lukraak getrokken individu een jongen is (een observatie die 1 oplevert).
De variantie van Bernoulli data is eveneens gerelateerd aan de kans 𝜋:
Var[𝑋𝑖 ] = 𝜋(1 − 𝜋)
Grafisch weergegeven:
,In dit voorbeeld zijn er lukraak 6155 observaties genomen
➔ op basis van de data d.m.v. het steekproefgemiddelde van de binaire data kan 𝜋 geschat worden
𝑛
∑𝑖=1 𝑋𝑖
𝜋̂ = 𝑋 = 3175
𝑛
In dit voorbeeld is 𝑋 = 6155 = 51.6%
Nu rest er nog de vraag te beantwoorden of het feit dat 51.6% van de kinderen in de studie mannelijk
zijn, voldoende overtuigingskracht draagt om te beweren dat er meer kans is dat een ongeboren kind
een jongen is dan een meisje.
➔ Er moet statisch getoetst worden of de kans 𝝅 al dan niet gelijk is aan 50%
➢ Asymptotisch betrouwbaarheidsinterval
➢ Asymptotische test
➢ Exacte test
ASYMPTOTISCH BETROUWBAARHEIDSINTERVAL
6155 onafhankelijke observaties ➔ grote steekproef
De centrale limietstelling kan dus toegepast worden:
De data volgen een Bernoulli verdeling, maar gemiddelde o.b.v. onafhankelijke en identiek verdeelde
observaties in heel grote steekproef volgt approximatief een normaal verdeling.
Voor Bernoulli verdeelde gegevens geldt dat:
E[𝑋] = 𝜋
Var[𝑋] 𝜋(1 − 𝜋)
Var[𝑋] = =
𝑛 𝑛
Uit de steekproef is al geweten dat 𝑥 = 0.516
➔ de standard erros schatten
𝑥(1−𝑥)
Voor de standard error geldt dan: SE = 𝜎̂𝑥 = √ = 0.0064
𝑛
Het betrouwbaarheidsinterval BI op gemiddelde [0.503, 0.528] is dan:
[𝑥 − 𝑧𝛼/2 SE𝑥 , 𝑥 + 𝑧𝛼/2 SE𝑥 ]
0.5 valt niet binnen in het 95% BI
➔ Uit de equivalentie tussen betrouwbaarheidsintervallen en statistische testen volgt dus dat de
kans op een jongen significant hoger is dan 50% op het 5% significantie-niveau.
ASYMPTOTISCHE TEST
Voor een statistische test moet de onderzoeksvraag vertaalt worden naar een H0 en H1 in termen van
een modelparameter
Aan te tonen: de kans 𝜋 is verschillend van 50%
➔ De nulhypothese zal dus zijn: 𝐻0 : 𝜋 = 0.5
➔ De alternatieve hypothese is dan: 𝐻1 : 𝜋 ≠ 0.5
, Onder H0
Voor een Bernoulli verdeling is de variantie onder H0 ook gekend
➔ 𝜋0 (1 − 𝜋0 )
Dan is de standard error op 𝑥 dus:
𝜋0 (1 − 𝜋0 )
SE0,𝑥 = √
𝑛
Volgende statistiek kan gebruikt worden
➔ deze detecteert een afwijking van de nulhypothese in de richting van het alternatief
𝑥 − 𝜋0
𝑧=
SE0,𝑥
➢ Onder H0 verwacht men z dicht bij 0
➔ onder H1 zal z verschuiven naar + of – waarden (𝜋 ≠ 𝜋0
➢ Z volgt onder H0 dat er evenveel kans is op een jongen of meisje (𝜋0 = 0.5)
➔ is asymptotisch een standaard normaal verdeling (CLT kan toegepast worden)
Door gebruik te make van de cumulatieve distributie van een standaard nomrale verdeling kan
makkelijk een p-waarde berekend worden:
Besluit: er is een significant grotere kans dat een ongeboren kind mannelijk dan vrouwelijk is
(p=0.013). De kans dat een ongeboren kind mannelijk is bedraagt 0.516 (95% BI [0.503, 0.528]).
BINOMIALE TEST
𝐻0 : 𝜋 = 1/2 versus 𝐻1 : 𝜋 ≠ 1/2
Om van de nulhypothese een toets te kunnen reconstrueren moeten we bepaalde zaken kennen:
➢ Verdeling van de gegevens X
➢ Verdelingen van de schatter voor de proportie 𝜋̂ = 𝑋
➔ of eq. 𝑆 = 𝑛𝑋
Stel dat H0 correct is het voorkomen van jongens een meisjes is even waarschijnlijk
➔ Als er dan lukraak een individu getrokken wordt, is de kans op een jongen 𝑃(𝑋 = 1) = 𝜋 = 1/2
➔ Als er dan lukraak 2 individuen getrokken worden, zijn er 4 mogelijke uitkomsten:
(1,1) ; (1,0) ; (0,1) ; (0,0) waarbij ze voorkomen met een kans ¼
De toevalsveranderlijke S zal dan volgende waarden aannemen: S is de som van de uitkomsten