Statistiek 2
1 Het schatten van populatieparameters
1.1 Populatieparameters schatten
“Gemiddeld zetten ouders 72 euro per kind per maand opzij....Anderzijds geeft 20 procent van de Bel-
gen aan helemaal niets te kunnen sparen voor hun kinderen. (Bron: Deredactie.be 7 mei 2015)”
Uitspraak over een gemiddelde en een proportie (20%) voor de ganse populatie (Belgische
gezinnen met kinderen)
Gebaseerd op een steekproef in totaal zijn 1000 Belgische ouders tussen 35 en 54 jaar on-
dervraagd
Aantal populatieparameters (Griekse letters want het gaat over de populatie):
Populatiegemiddelde µ (vb. gemiddelde dikte plastic folie)
Populatievariantie σ2 (vb. variantie dikte plastic folie)
Populatieproportie π (vb. percentage pc-bankierders)
o In de praktijk zelden of nooit gekend
o Doel: uitspraken doen over onbekende populatieparameters
o Hoe? Steekproefgegevens verzamelen populatieparameters schatten
1.2 Schatting?
Schatting van de onbekende populatieparameter zal een functie zijn van de verzamelde
steekproefgegevens x1,x2,...,xn
Steekproefgemiddelde
o Vb. gemiddeld 72 euro per maand per kind
o Xi: aantal euro per maand per kind gespaard door ouder i in de SP
o Kleine n = grootte steekproef
Steekproefvariantie
Steekproefproportie
o Waarbij xi = 1 indien succes
o Waarbij xi = 0 indien faling
Vb. 20% kan niet sparen (succes = niet sparen 1)
Xi = 1 indien ouder i niet kan sparen
Xi = 0 indien ouder i wel kan sparen
1
,1.3 Schatting vs. schatter
Concrete steekproef x1,x2,...,xn kleine letter
Bijhorend steekproefgemiddelde 𝑥̅ is een schatting (= reëel getal) kleine letters voor con-
crete schatting
Elke onderzoeker bekomt andere steekproefgegevens
Reden: trekken van steekproef, verzamelen van steekproefgegevens = kansexperiment
ALGEMEEN:
Steekproefwaarnemingen X1,X2,...,Xn
Steekproefgemiddelde 𝑥̅ is schatter (waarde nog niet bekend). We hebben de gegevens nog
niet verzameld
Zijn kansvariabelen met
Een verwachte waarde
Een variantie
Een kansverdeling of -dichtheid
o gebruik hoofdletters voor schatters
VOORBEELD:
“onbekend” proces = gooien van dobbelsteen
o Xi = aantal ogen gegooid (uniform verdeeld met k = 6) µ = (k +1)/2 = 3,5
1000 onderzoekers
Elk 5 waarnemingen
Doel: centrale ligging schatten
o (bekend) populatiegemiddelde µ = 3.5
o (bekend) populatiemediaan γ0.5 = 3.5
Hoe?
o Steekproefgemiddelde 𝑋
o Steekproefmediaan Me
zie JMP file dobbelsteen.jmp
wat zien we?
o Gemiddelde van steekproefgemiddelden ≈ µ = 3.5
o Gemiddelde van steekproefmedianen ≈ µ = 3.5
Steeproefgemiddelde en steekproefmediaan zijn zuivere of onvertekende schatters (dit be-
tekend dat de schattingen rond de populatieparameters moeten liggen)
1.4 Criteria voor schatters
Zuivere schatter
Definitie: als θ (notatie) een schatter is van de onbekende populatieparameter θ en E(θ) = θ, dan is θ
een zuivere of onvertekende schatter.
Vb: E(𝑋) = µ
2
, De vertekening van een schatter V(θ) = E θ − θ met E θ de verwachtingswaarde van de
schatter en θ de populatieparameter (= hoe onzuiver is de schatter)
Zuiver betekent dat de schattingen rond de werkelijkheid liggen, onzuiver is als ze niet in de
buurt van de werkelijkheid liggen
Efficiënte schatter
Wat zien we nog?
Steekproefgemiddelde zit vaakst in de buurt van 3.5
Steekproefmediaan zit er soms serieus naast
Gevolg: steekproefgemiddelde heeft kleinere variantie dan steekproefmediaan
Met andere woorden: steekproefgemiddelde biedt preciezere informatie over centrale lig-
ging dan steekproefmediaan
Daarom: 𝑋 is een efficiëntere schatter dan Me
1.5 Gemiddelde gekwadrateerde afwijking (GGA)
Keuze tussen vertekende efficiënte schatter en onvertekende inefficiënte schatter
Kies schatter die minimaliseert
1.6 Steekproefschatters in detail
Steekproefgemiddelde, steekproefvariantie en steekproefproportie = kansvariabelen
Per schatter kijken naar verwachte waarde, variantie, verdeling
Steekproefgemiddelde 𝑋
Onvertekende schatter van µ
BEWIJS (rekenregel verwachtings-
waarde van lineaire combinatie = line-
aire combinatie van verwachtingswaarde
schatter wordt efficiënter
naarmate steekproef groter
wordt
formule variantie statistiek
1. Covariantie valt weg want
resultaten er onafhankelijk uit-
halen
Meest precieze lineaire onvertekende schatter (best linear unbiased estimater, BLUE)
3
, 1.6.1.1 Kansverdeling 𝑋
Geval 1: normaal verdeelde populatie
lineaire combinatie van normaal verdeelde
kansvariabelen is ook normaal verdeeld
Geval 2: niet-normaal verdeelde populatie (vb. uniform, exponentieel, binomiaal)
o Kleine steekproeven: geen algemeen antwoord
o Grote steekproeven:
(zie statistiek 1)
o Wanneer is de steekproef groot genoeg?
Afhankelijk van oorspronkelijke kansverdeling of kansdichtheid
n ≥ 30 is meestal voldoende
Steekproefproportie 𝑃
Schatter van de populatieproportie π
𝑃 = aantal successen in steekproef gedeeld door n
π is de succeskans
𝑃 is speciaal geval van steekproefgemiddelde 𝑋
1.6.2.1 Kansverdeling of -dichtheid 𝑃
n groot: centrale limietstelling bij grote n
aantal successen groter dan 5
aantal mislukkingen groter dan 5
n klein: gebruik binomiale kansverdeling. Aantal successen in SP met grootte n ∼ bin(n,π)
VOORBEELDEN
4
1 Het schatten van populatieparameters
1.1 Populatieparameters schatten
“Gemiddeld zetten ouders 72 euro per kind per maand opzij....Anderzijds geeft 20 procent van de Bel-
gen aan helemaal niets te kunnen sparen voor hun kinderen. (Bron: Deredactie.be 7 mei 2015)”
Uitspraak over een gemiddelde en een proportie (20%) voor de ganse populatie (Belgische
gezinnen met kinderen)
Gebaseerd op een steekproef in totaal zijn 1000 Belgische ouders tussen 35 en 54 jaar on-
dervraagd
Aantal populatieparameters (Griekse letters want het gaat over de populatie):
Populatiegemiddelde µ (vb. gemiddelde dikte plastic folie)
Populatievariantie σ2 (vb. variantie dikte plastic folie)
Populatieproportie π (vb. percentage pc-bankierders)
o In de praktijk zelden of nooit gekend
o Doel: uitspraken doen over onbekende populatieparameters
o Hoe? Steekproefgegevens verzamelen populatieparameters schatten
1.2 Schatting?
Schatting van de onbekende populatieparameter zal een functie zijn van de verzamelde
steekproefgegevens x1,x2,...,xn
Steekproefgemiddelde
o Vb. gemiddeld 72 euro per maand per kind
o Xi: aantal euro per maand per kind gespaard door ouder i in de SP
o Kleine n = grootte steekproef
Steekproefvariantie
Steekproefproportie
o Waarbij xi = 1 indien succes
o Waarbij xi = 0 indien faling
Vb. 20% kan niet sparen (succes = niet sparen 1)
Xi = 1 indien ouder i niet kan sparen
Xi = 0 indien ouder i wel kan sparen
1
,1.3 Schatting vs. schatter
Concrete steekproef x1,x2,...,xn kleine letter
Bijhorend steekproefgemiddelde 𝑥̅ is een schatting (= reëel getal) kleine letters voor con-
crete schatting
Elke onderzoeker bekomt andere steekproefgegevens
Reden: trekken van steekproef, verzamelen van steekproefgegevens = kansexperiment
ALGEMEEN:
Steekproefwaarnemingen X1,X2,...,Xn
Steekproefgemiddelde 𝑥̅ is schatter (waarde nog niet bekend). We hebben de gegevens nog
niet verzameld
Zijn kansvariabelen met
Een verwachte waarde
Een variantie
Een kansverdeling of -dichtheid
o gebruik hoofdletters voor schatters
VOORBEELD:
“onbekend” proces = gooien van dobbelsteen
o Xi = aantal ogen gegooid (uniform verdeeld met k = 6) µ = (k +1)/2 = 3,5
1000 onderzoekers
Elk 5 waarnemingen
Doel: centrale ligging schatten
o (bekend) populatiegemiddelde µ = 3.5
o (bekend) populatiemediaan γ0.5 = 3.5
Hoe?
o Steekproefgemiddelde 𝑋
o Steekproefmediaan Me
zie JMP file dobbelsteen.jmp
wat zien we?
o Gemiddelde van steekproefgemiddelden ≈ µ = 3.5
o Gemiddelde van steekproefmedianen ≈ µ = 3.5
Steeproefgemiddelde en steekproefmediaan zijn zuivere of onvertekende schatters (dit be-
tekend dat de schattingen rond de populatieparameters moeten liggen)
1.4 Criteria voor schatters
Zuivere schatter
Definitie: als θ (notatie) een schatter is van de onbekende populatieparameter θ en E(θ) = θ, dan is θ
een zuivere of onvertekende schatter.
Vb: E(𝑋) = µ
2
, De vertekening van een schatter V(θ) = E θ − θ met E θ de verwachtingswaarde van de
schatter en θ de populatieparameter (= hoe onzuiver is de schatter)
Zuiver betekent dat de schattingen rond de werkelijkheid liggen, onzuiver is als ze niet in de
buurt van de werkelijkheid liggen
Efficiënte schatter
Wat zien we nog?
Steekproefgemiddelde zit vaakst in de buurt van 3.5
Steekproefmediaan zit er soms serieus naast
Gevolg: steekproefgemiddelde heeft kleinere variantie dan steekproefmediaan
Met andere woorden: steekproefgemiddelde biedt preciezere informatie over centrale lig-
ging dan steekproefmediaan
Daarom: 𝑋 is een efficiëntere schatter dan Me
1.5 Gemiddelde gekwadrateerde afwijking (GGA)
Keuze tussen vertekende efficiënte schatter en onvertekende inefficiënte schatter
Kies schatter die minimaliseert
1.6 Steekproefschatters in detail
Steekproefgemiddelde, steekproefvariantie en steekproefproportie = kansvariabelen
Per schatter kijken naar verwachte waarde, variantie, verdeling
Steekproefgemiddelde 𝑋
Onvertekende schatter van µ
BEWIJS (rekenregel verwachtings-
waarde van lineaire combinatie = line-
aire combinatie van verwachtingswaarde
schatter wordt efficiënter
naarmate steekproef groter
wordt
formule variantie statistiek
1. Covariantie valt weg want
resultaten er onafhankelijk uit-
halen
Meest precieze lineaire onvertekende schatter (best linear unbiased estimater, BLUE)
3
, 1.6.1.1 Kansverdeling 𝑋
Geval 1: normaal verdeelde populatie
lineaire combinatie van normaal verdeelde
kansvariabelen is ook normaal verdeeld
Geval 2: niet-normaal verdeelde populatie (vb. uniform, exponentieel, binomiaal)
o Kleine steekproeven: geen algemeen antwoord
o Grote steekproeven:
(zie statistiek 1)
o Wanneer is de steekproef groot genoeg?
Afhankelijk van oorspronkelijke kansverdeling of kansdichtheid
n ≥ 30 is meestal voldoende
Steekproefproportie 𝑃
Schatter van de populatieproportie π
𝑃 = aantal successen in steekproef gedeeld door n
π is de succeskans
𝑃 is speciaal geval van steekproefgemiddelde 𝑋
1.6.2.1 Kansverdeling of -dichtheid 𝑃
n groot: centrale limietstelling bij grote n
aantal successen groter dan 5
aantal mislukkingen groter dan 5
n klein: gebruik binomiale kansverdeling. Aantal successen in SP met grootte n ∼ bin(n,π)
VOORBEELDEN
4