Verklarende statistiek
Inhoud
Deel 1. Schatters en toetsen...................................................................................................................3
Hoofdstuk 1. Het schatten van populatieparameters.........................................................................3
Inleiding..........................................................................................................................................3
Het schatten van een gemiddelde..................................................................................................3
Criteria voor schatters....................................................................................................................4
Het steekproefgemiddelde.............................................................................................................4
De steekproefproportie..................................................................................................................5
De steekproefvariantie...................................................................................................................6
De steekproefstandaarddeviatie....................................................................................................8
Hoofdstuk 2. Intervalschatters............................................................................................................8
Punt- en intervalschatters...............................................................................................................8
Betrouwbaarheid voor een populatiegemiddelde met bekende variantie.....................................8
Betrouwbaarheid voor een populatie gemiddelde met onbekende variantie................................9
Betrouwbaarheidsinterval voor een populatieproportie..............................................................10
Betrouwbaarheidsinterval voor een populatievariantie...............................................................11
Het bepalen van de steekproefgrootte.........................................................................................11
Hoofdstuk 3. Het toetsen van hypothesen.......................................................................................12
Toetsen van hypothesen omtrent een populatiegemiddelde.......................................................12
Kans op een type II-fout en onderscheidingsvermogen................................................................16
Het bepalen van de steekproefgrootte.........................................................................................17
Deel 2. Eén populatie............................................................................................................................18
Hoofdstuk 4. Hypothesetoetsen voor een populatiegemiddelde, -proportie en -variantie..............18
Hypothesetoets voor een populatiegemiddelde..........................................................................18
Hypothesetoets voor een populatieproportie..............................................................................18
Hypothesetoets voor een populatievariantie...............................................................................20
Kans op een type II-fout en onderscheidingsvermogen................................................................20
Hoofdstuk 5. 2 hypothesetoetsen voor de mediaan van een populatie...........................................22
Tekentoets....................................................................................................................................23
Rangtekentoets van Wilcoxon......................................................................................................25
Hoofdstuk 6. Hypothesetoetsen voor de verdeling van een populatie.............................................27
1. Het toetsen van kansverdelingen.............................................................................................27
2. Het toetsen van kansdichtheden..............................................................................................29
, 3. Discussie...................................................................................................................................30
4. Samenvatting............................................................................................................................31
Hoofdstuk 7. Onafhankelijke steekproeven versus gepaarde waarnemingen..................................31
Toetsen voor 2 populaties............................................................................................................31
Hoofdstuk 8. Hypothesetoetsen voor 2 populatiegemiddeldes, -proporties en -varianties bij
onafhankelijke steekproeven...........................................................................................................32
Toetsen voor 2 populatiegemiddeldes bij onafhankelijke steekproeven......................................32
Hypothesetoets voor 2 populatieproporties................................................................................36
Hypothesetoets voor 2 populatievarianties..................................................................................37
Hoofstuk 9. Een niet-parametrische hypothesetoets voor de mediaan van 2 populatie bij
onafhankelijk steekproeven.............................................................................................................38
Getoetste hypothesen bij de rangsomtoets.................................................................................39
Exacte p-waarden.........................................................................................................................39
Exacte p-waarden bij ex aequo’s..................................................................................................41
Benaderende p-waarden..............................................................................................................41
Hoofdstuk 10. Hypothesetoets voor 2 populatiegemiddeldes bij gepaarde waarnemingen............42
Getoetste hypothesen..................................................................................................................42
Werkwijze.....................................................................................................................................42
Voorbeelden.................................................................................................................................43
Technische achtergrond...............................................................................................................44
Veralgemeende hypothesetoets...................................................................................................44
Betrouwbaarheidsinterval voor een verschil in populatiegemiddeldes.......................................44
Hoofdstuk 11. 2 niet-parametrische hypothesetoetsen bij gepaarde waarnemingen.....................45
Tekentoets....................................................................................................................................45
De rangtekentoets van Wilcoxon..................................................................................................46
Tegenstrijdige resultaten..............................................................................................................47
Deel IV. Meer dan 2 populaties............................................................................................................47
Hoofdstuk 12. Hypothesetoets voor meer dan 2 populatiegemiddeldes: enkelvoudige
variantieanalyse................................................................................................................................47
Enkelvoudige variantie-analyse....................................................................................................47
De toets........................................................................................................................................49
Paarsgewijze vergelijkingen..........................................................................................................50
Variantieanalyse bij niet-normaliteit en ongelijke varianties........................................................50
Hoofdstuk 13. Niet-parametrische alternatieven voor variantieanalyse..........................................50
Kruskal-Wallis toets......................................................................................................................51
Deel V. andere nuttige toetsen en procedures.....................................................................................53
, Hoofdstuk 15. Proefopzet en datacollectie......................................................................................53
Gelijke kosten voor elke waarneming...........................................................................................53
Ongelijke kosten voor de waarnemingen.....................................................................................54
Optimaal ontwerp van experimenten...........................................................................................55
Hoofdstuk 16. Het toetsen van equivalentie....................................................................................55
De traditionele hypothesetoetsen................................................................................................55
Het toetsen van equivalentie........................................................................................................56
Deel 1. Schatters en toetsen
Hoofdstuk 1. Het schatten van populatieparameters
Inleiding
Populatieparameters zijn in de praktijk zelden of nooit bekend proberen schatten gebaseerd op
een aantal waarnemingen x 1 , x 2 , … , x n = steekproefgegevens die u verzamelt
- Steekproefgemiddelde
n
xi
x=∑
i=1 n
- Steekproefvariantie
n
1
2
s= ∑
n−1 i=1
(x i− x)2
- Steekproefproportie = speciaal geval van gemiddelde (Xi kan maar 2 mogelijke waarden
aannemen)
n
xi
^p=∑ (xi = 1, indien succes xi = 0, indien faling)
i=1 n
Schatting vs. schatter
Schatting = een functie van de onbekende populatieparameter van de verzamelde
steekproefgegevens x 1 , x 2 , … , x n
Gebruik kleine letter vb. het steekproefgemiddelde x
Is een reëel getal
Elke onderzoeker bekomt andere steekproefgegevens (anderen gegevens bekomen door
andere mensen)
Reden: trekken van steekproef, verzamelen van steekproefgegevens = kansexperiment
Schatter = kansvariabele waarvan de waarde nog niet bekend is met steekproefwaarnemingen
X1 , X2 , … , Xn
Gebruik grote letter
Hebben een verwachte waarde, variantie en een kansverdeling of -dichtheid
Het schatten van een gemiddelde
1. Gemiddelde van een normaal verdeelde populatie
Voorbeeld. Gooien van een dobbelsteen (normaal verdeeld)
- 1000 onderzoekers
- Elk 5 waarnemingen
- Doel: centrale ligging schatten
→ (bekend) populatiegemiddelde µ = 3.5
, → (bekend) populatiemediaan γ0.5 = 3.5
- Gemiddelde van . . .
. . . steekproefgemiddelden ≈ µ = 3.5
. . . steekproefmedianen ≈ µ = 3.5
Dit zijn zuivere of onvertekende schatters = schatting moet rond de werkelijkheid liggen
X (steekproefgemiddelde) is een efficiëntere schatter dan Me omdat de variantie kleiner is
dan bij de steekproefmediaan
Criteria voor schatters
1. Een onvertekende of zuivere schatter
Definitie. Een schatter θ^ voor een populatieparameter θ is zuiver of onvertekend indien E ( θ^ ) =θ.
De vertekening van een schatter is het verschil V ( θ^ ) =|E ( θ^ ) −θ|.
Bij zuivere schatter is deze gelijk aan 0
We gebruiken een Griekse letter θ om een onbekende populatieparameter aan te duiden
2. Precisie of efficiëntie van een schatter
Schatter moet betrouwbaar zijn kleine variantie of standaarddeviatie nodig
Definitie. De gemiddelde gekwadrateerde afwijking van een schatter θ^ is de som van zijn variantie en
2
het kwadraat van zijn vertekening: GGA ( θ^ )=var ( θ^ ) + ( V ( θ)
^ ).
Betrouwbaarheid moet ook toenemen wanneer het aantal waarnemingen toeneemt:
variantie neemt af wanneer n vergroot (σ²/n)
Het steekproefgemiddelde
- Verwachte waarde en variantie
n
Xi
X =∑
i=1 n
Gebruik kleine letter x wanneer je waargenomen waarden gebruikt
Grote letters X zijn waarnemingen die niet bekend zijn
Stelling 1.1 Voor een lukrake steekproef uit een populatie met verwachte waarde μ geldt dat
E ( X ) =μ.
Bewijs:
( )
n
Xi
E ( X ) =E ∑ n
i=1
n
1
¿ ∑ E ( Xi)
n i=1
1
¿ (μ + μ+…+ μ)
n
nμ
¿ =μ
n
Dus de verwachte waarde van het steekproefgemiddelde is gelijk aan het populatiegemiddelde.
het steekproefgemiddelde is een zuivere schatter van het populatiegemiddelde
Stelling 1.2 Voor een lukrake steekproef van n waarnemingen uit een populatie met variantie σ²
2 σ²
geldt dat σ X =var ( X )= .
n
Bewijs:
, (∑ )
n
2 Xi
σ =var ( X )=var
X
i=1 n
n
1
¿ ∑ var (X i)
n ² i=1
1 2 2 2
¿ 2
( σ +σ +…+ σ )
n
nσ ² σ ²
¿ 2 =
n n
- Kansdichtheid van X uit een normaal verdeelde populatie
Stelling 1.3 Als X1, X2,..., Xn ∼ N(µ, σ2) en onafhankelijke normaal verdeelde kansvariabelen zijn, dan
σ²
geldt dat X ∼ N(µ, )
n
Dit is geldig voor elke steekproefgrootte
- Kansverdeling X uit een niet normaal verdeelde populatie
Kleine steekproeven: geen algemeen antwoord
σ²
Grote steekproeven: centrale limietstelling ⇒ X∼ N(µ, )
n
Wanneer is steekproef groot genoeg?
o Afhankelijk van oorspronkelijke kansverdeling of kansdichtheid
o n ≥ 30 is meestal voldoende
De steekproefproportie
= een speciaal geval van het steekproefgemiddelde, alleen kan deze variabele enkel waarden tussen
0 of 1 aannemen
- Schatter van de populatieproportie π
- Pˆ = aantal “successen” in steekproef gedeeld door n
n
Xi
- Pˆ = ∑
i=1 n
Waarbij X i = 1, indien succes 0, indien faling
En dus Xi Bernoulli verdeeld met parameter π (E(Xi) = π, var(Xi) = π(1 − π))
E ( P )=π
π (1−π )
σ 2P =var ( P )=
n
De steekproefproportie is een onvertekende schatter van de populatieproportie
- Kansverdeling of dichtheid Pˆ
n groot: centrale limietstelling bij grote n
nπ > 5
n(1 − π) > 5
Niet > 30 (geen voorwaarde bij steekproef)
π (1−π )
⇒ P ∼ N(π, )
n
n klein: gebruik binomiale kansverdeling aantal successen in SP met grootte n ∼bin(n,π)
- Aantal grafieken
Inhoud
Deel 1. Schatters en toetsen...................................................................................................................3
Hoofdstuk 1. Het schatten van populatieparameters.........................................................................3
Inleiding..........................................................................................................................................3
Het schatten van een gemiddelde..................................................................................................3
Criteria voor schatters....................................................................................................................4
Het steekproefgemiddelde.............................................................................................................4
De steekproefproportie..................................................................................................................5
De steekproefvariantie...................................................................................................................6
De steekproefstandaarddeviatie....................................................................................................8
Hoofdstuk 2. Intervalschatters............................................................................................................8
Punt- en intervalschatters...............................................................................................................8
Betrouwbaarheid voor een populatiegemiddelde met bekende variantie.....................................8
Betrouwbaarheid voor een populatie gemiddelde met onbekende variantie................................9
Betrouwbaarheidsinterval voor een populatieproportie..............................................................10
Betrouwbaarheidsinterval voor een populatievariantie...............................................................11
Het bepalen van de steekproefgrootte.........................................................................................11
Hoofdstuk 3. Het toetsen van hypothesen.......................................................................................12
Toetsen van hypothesen omtrent een populatiegemiddelde.......................................................12
Kans op een type II-fout en onderscheidingsvermogen................................................................16
Het bepalen van de steekproefgrootte.........................................................................................17
Deel 2. Eén populatie............................................................................................................................18
Hoofdstuk 4. Hypothesetoetsen voor een populatiegemiddelde, -proportie en -variantie..............18
Hypothesetoets voor een populatiegemiddelde..........................................................................18
Hypothesetoets voor een populatieproportie..............................................................................18
Hypothesetoets voor een populatievariantie...............................................................................20
Kans op een type II-fout en onderscheidingsvermogen................................................................20
Hoofdstuk 5. 2 hypothesetoetsen voor de mediaan van een populatie...........................................22
Tekentoets....................................................................................................................................23
Rangtekentoets van Wilcoxon......................................................................................................25
Hoofdstuk 6. Hypothesetoetsen voor de verdeling van een populatie.............................................27
1. Het toetsen van kansverdelingen.............................................................................................27
2. Het toetsen van kansdichtheden..............................................................................................29
, 3. Discussie...................................................................................................................................30
4. Samenvatting............................................................................................................................31
Hoofdstuk 7. Onafhankelijke steekproeven versus gepaarde waarnemingen..................................31
Toetsen voor 2 populaties............................................................................................................31
Hoofdstuk 8. Hypothesetoetsen voor 2 populatiegemiddeldes, -proporties en -varianties bij
onafhankelijke steekproeven...........................................................................................................32
Toetsen voor 2 populatiegemiddeldes bij onafhankelijke steekproeven......................................32
Hypothesetoets voor 2 populatieproporties................................................................................36
Hypothesetoets voor 2 populatievarianties..................................................................................37
Hoofstuk 9. Een niet-parametrische hypothesetoets voor de mediaan van 2 populatie bij
onafhankelijk steekproeven.............................................................................................................38
Getoetste hypothesen bij de rangsomtoets.................................................................................39
Exacte p-waarden.........................................................................................................................39
Exacte p-waarden bij ex aequo’s..................................................................................................41
Benaderende p-waarden..............................................................................................................41
Hoofdstuk 10. Hypothesetoets voor 2 populatiegemiddeldes bij gepaarde waarnemingen............42
Getoetste hypothesen..................................................................................................................42
Werkwijze.....................................................................................................................................42
Voorbeelden.................................................................................................................................43
Technische achtergrond...............................................................................................................44
Veralgemeende hypothesetoets...................................................................................................44
Betrouwbaarheidsinterval voor een verschil in populatiegemiddeldes.......................................44
Hoofdstuk 11. 2 niet-parametrische hypothesetoetsen bij gepaarde waarnemingen.....................45
Tekentoets....................................................................................................................................45
De rangtekentoets van Wilcoxon..................................................................................................46
Tegenstrijdige resultaten..............................................................................................................47
Deel IV. Meer dan 2 populaties............................................................................................................47
Hoofdstuk 12. Hypothesetoets voor meer dan 2 populatiegemiddeldes: enkelvoudige
variantieanalyse................................................................................................................................47
Enkelvoudige variantie-analyse....................................................................................................47
De toets........................................................................................................................................49
Paarsgewijze vergelijkingen..........................................................................................................50
Variantieanalyse bij niet-normaliteit en ongelijke varianties........................................................50
Hoofdstuk 13. Niet-parametrische alternatieven voor variantieanalyse..........................................50
Kruskal-Wallis toets......................................................................................................................51
Deel V. andere nuttige toetsen en procedures.....................................................................................53
, Hoofdstuk 15. Proefopzet en datacollectie......................................................................................53
Gelijke kosten voor elke waarneming...........................................................................................53
Ongelijke kosten voor de waarnemingen.....................................................................................54
Optimaal ontwerp van experimenten...........................................................................................55
Hoofdstuk 16. Het toetsen van equivalentie....................................................................................55
De traditionele hypothesetoetsen................................................................................................55
Het toetsen van equivalentie........................................................................................................56
Deel 1. Schatters en toetsen
Hoofdstuk 1. Het schatten van populatieparameters
Inleiding
Populatieparameters zijn in de praktijk zelden of nooit bekend proberen schatten gebaseerd op
een aantal waarnemingen x 1 , x 2 , … , x n = steekproefgegevens die u verzamelt
- Steekproefgemiddelde
n
xi
x=∑
i=1 n
- Steekproefvariantie
n
1
2
s= ∑
n−1 i=1
(x i− x)2
- Steekproefproportie = speciaal geval van gemiddelde (Xi kan maar 2 mogelijke waarden
aannemen)
n
xi
^p=∑ (xi = 1, indien succes xi = 0, indien faling)
i=1 n
Schatting vs. schatter
Schatting = een functie van de onbekende populatieparameter van de verzamelde
steekproefgegevens x 1 , x 2 , … , x n
Gebruik kleine letter vb. het steekproefgemiddelde x
Is een reëel getal
Elke onderzoeker bekomt andere steekproefgegevens (anderen gegevens bekomen door
andere mensen)
Reden: trekken van steekproef, verzamelen van steekproefgegevens = kansexperiment
Schatter = kansvariabele waarvan de waarde nog niet bekend is met steekproefwaarnemingen
X1 , X2 , … , Xn
Gebruik grote letter
Hebben een verwachte waarde, variantie en een kansverdeling of -dichtheid
Het schatten van een gemiddelde
1. Gemiddelde van een normaal verdeelde populatie
Voorbeeld. Gooien van een dobbelsteen (normaal verdeeld)
- 1000 onderzoekers
- Elk 5 waarnemingen
- Doel: centrale ligging schatten
→ (bekend) populatiegemiddelde µ = 3.5
, → (bekend) populatiemediaan γ0.5 = 3.5
- Gemiddelde van . . .
. . . steekproefgemiddelden ≈ µ = 3.5
. . . steekproefmedianen ≈ µ = 3.5
Dit zijn zuivere of onvertekende schatters = schatting moet rond de werkelijkheid liggen
X (steekproefgemiddelde) is een efficiëntere schatter dan Me omdat de variantie kleiner is
dan bij de steekproefmediaan
Criteria voor schatters
1. Een onvertekende of zuivere schatter
Definitie. Een schatter θ^ voor een populatieparameter θ is zuiver of onvertekend indien E ( θ^ ) =θ.
De vertekening van een schatter is het verschil V ( θ^ ) =|E ( θ^ ) −θ|.
Bij zuivere schatter is deze gelijk aan 0
We gebruiken een Griekse letter θ om een onbekende populatieparameter aan te duiden
2. Precisie of efficiëntie van een schatter
Schatter moet betrouwbaar zijn kleine variantie of standaarddeviatie nodig
Definitie. De gemiddelde gekwadrateerde afwijking van een schatter θ^ is de som van zijn variantie en
2
het kwadraat van zijn vertekening: GGA ( θ^ )=var ( θ^ ) + ( V ( θ)
^ ).
Betrouwbaarheid moet ook toenemen wanneer het aantal waarnemingen toeneemt:
variantie neemt af wanneer n vergroot (σ²/n)
Het steekproefgemiddelde
- Verwachte waarde en variantie
n
Xi
X =∑
i=1 n
Gebruik kleine letter x wanneer je waargenomen waarden gebruikt
Grote letters X zijn waarnemingen die niet bekend zijn
Stelling 1.1 Voor een lukrake steekproef uit een populatie met verwachte waarde μ geldt dat
E ( X ) =μ.
Bewijs:
( )
n
Xi
E ( X ) =E ∑ n
i=1
n
1
¿ ∑ E ( Xi)
n i=1
1
¿ (μ + μ+…+ μ)
n
nμ
¿ =μ
n
Dus de verwachte waarde van het steekproefgemiddelde is gelijk aan het populatiegemiddelde.
het steekproefgemiddelde is een zuivere schatter van het populatiegemiddelde
Stelling 1.2 Voor een lukrake steekproef van n waarnemingen uit een populatie met variantie σ²
2 σ²
geldt dat σ X =var ( X )= .
n
Bewijs:
, (∑ )
n
2 Xi
σ =var ( X )=var
X
i=1 n
n
1
¿ ∑ var (X i)
n ² i=1
1 2 2 2
¿ 2
( σ +σ +…+ σ )
n
nσ ² σ ²
¿ 2 =
n n
- Kansdichtheid van X uit een normaal verdeelde populatie
Stelling 1.3 Als X1, X2,..., Xn ∼ N(µ, σ2) en onafhankelijke normaal verdeelde kansvariabelen zijn, dan
σ²
geldt dat X ∼ N(µ, )
n
Dit is geldig voor elke steekproefgrootte
- Kansverdeling X uit een niet normaal verdeelde populatie
Kleine steekproeven: geen algemeen antwoord
σ²
Grote steekproeven: centrale limietstelling ⇒ X∼ N(µ, )
n
Wanneer is steekproef groot genoeg?
o Afhankelijk van oorspronkelijke kansverdeling of kansdichtheid
o n ≥ 30 is meestal voldoende
De steekproefproportie
= een speciaal geval van het steekproefgemiddelde, alleen kan deze variabele enkel waarden tussen
0 of 1 aannemen
- Schatter van de populatieproportie π
- Pˆ = aantal “successen” in steekproef gedeeld door n
n
Xi
- Pˆ = ∑
i=1 n
Waarbij X i = 1, indien succes 0, indien faling
En dus Xi Bernoulli verdeeld met parameter π (E(Xi) = π, var(Xi) = π(1 − π))
E ( P )=π
π (1−π )
σ 2P =var ( P )=
n
De steekproefproportie is een onvertekende schatter van de populatieproportie
- Kansverdeling of dichtheid Pˆ
n groot: centrale limietstelling bij grote n
nπ > 5
n(1 − π) > 5
Niet > 30 (geen voorwaarde bij steekproef)
π (1−π )
⇒ P ∼ N(π, )
n
n klein: gebruik binomiale kansverdeling aantal successen in SP met grootte n ∼bin(n,π)
- Aantal grafieken