Categorische variabelen (zoals merknamen) bestaan uit aantallen of percentages van aantallen. In dit
hoofdstuk wordt gekeken naar corresponderende populatieproporties. Een gevolgtrekking hiervan is
gebaseerd op sampling distributies die ongeveer normaal verdeeld zijn.
Interferentie voor één proportie
𝑋
De sample proportie 𝑝̂ = 𝑛 schat de onbekende populatieproportie p in. Als de populatie veel groter
is dan het sample (vb. 20x zo groot), is X ongeveer een binomiale distributie 𝐵(𝑛, 𝑝). Voorbeeld: 1006
mensen zijn gebeld om te vragen of ze Facebook gebruiken. Van de 525 mensen die Facebook
gebruiken (sample), gaven er 320 aan dat ze ooit een Facebookpauze hebben genomen (count). De
𝑋 320
sample proportie is dan 𝑝̂ = = = 0.6095.
𝑛 525
Als een sample vrij groot is, heeft 𝑝̂ ongeveer een normale verdeling. Het gemiddelde is 𝜇𝑝̂ = 𝑝 en de
standaarddeviatie is 𝜎𝑝̂ = √𝑝(1 − 𝑝)/𝑛. Dit betekent ook dat in 95% van de gevallen 𝑝̂ binnen 2x de
standaarddeviatie ligt (2√𝑝(1 − 𝑝)/𝑛). Omdat p een onbekende waarde is, wordt die in de formule
vervangen door de sample proportie 𝑝̂ . Hierdoor ontstaat er ook een standaard error.
Stappen
𝑋
De sample proportie is 𝑝̂ = 𝑛, waarbij X het aantal successen is.
𝑝̂(1−𝑝̂)
De standaard error van 𝑝̂ is 𝑆𝐸𝑝̂ = √ .
𝑛
De marge van error voor confidence level C is 𝑚 = 𝑧 ∗ 𝑆𝐸𝑝̂ waarbij z* de waarde voor de
standaard normaal verdeling is, met het gebied C tussen –z* en z*.
Een gemiddeld niveau van de C confidence interval voor p is 𝑝̂ ± 𝑚. Gebruik deze interval
voor 90%, 95% of 99% confidence als het aantal successen en het aantal mislukkingen beide
ten minste 10 is.
𝑝̂(1−𝑝̂)
Voorbeeld: in het voorbeeld hierboven was 𝑝̂ = 0.6095. De standaard error is 𝑆𝐸𝑝̂ = √ =
𝑛
0.6095(1−0.6095)
√ = 0.02129. Hierbij is 𝑧 ∗ = 1.96 met een confidence van 95%, dus met een marge
525
van error van 𝑚 = 1.96 × 𝑆𝐸𝑝̂ = 1.96 × 0.02129 = 0.04173. De confidence interval is dan 𝑝̂ ±
𝑚 = 0.61 ± 0.04. In woorden ben je er dan 95% zeker van dat tussen 57% en 65% van de
Facebookgebruikers een pauze namen.
Het is altijd goed om stil te staan bij de notatie: 61% met een marge van error van 4% staat duidelijk
(dus geen kommagetallen gebruiken). Een reden dat de marge van error overschreden kan worden,
is als participanten niet eerlijk hebben geantwoord.
Plus four confidence interval
Wanneer het aantal successen en mislukkingen niet ten minste 10 zijn, zijn de confidence intervals
gebaseerd op large sample approaches inaccuraat. Om dit op te lossen, wordt er aangenomen dat er
4 extra observaties bijkomen: 2 successen en 2 mislukkingen (bedacht door Bidwell Wilson). De
𝑋+2
schatting van de populatieproportie gebaseerd op de plus four regel is dan 𝑝̃ = 𝑛+4. De mean wordt
aangeduid als p en de standaarddeviatie als √𝑝(1 − 𝑝)/(𝑛 + 4). Daarna kan de bovenstaande
procedure ook voor de plus four regel uitgevoerd worden.