1 Steekproeftrekkingen ..................................................................................................................... 3
1.1 Inleidende begrippen ............................................................................................................ 3
1.2 Steekproeftrekkingen (samplen) ........................................................................................... 3
1.2.1 Aselecte of willekeurige steekproef (simple random sample) ..................................... 3
1.2.2 Systematische steekproef (systematic sampling) ......................................................... 3
1.2.3 Gestratificeerde steekproef (stratified sample) ........................................................... 3
1.2.5 Clustersteekproef (cluster sampling) ............................................................................ 4
2 Betrouwbaarheidsintervallen ......................................................................................................... 4
2.1 Een inleidend voorbeeld ........................................................................................................ 4
2.1.1 Het steekproefgemiddelde is onderhevig aan het toeval ............................................ 4
2.1.2 Een betrouwbaarheidsinterval opstellen ..................................................................... 5
2.2 Betrouwbaarheidsintervallen opstellen: de ingrediënten .................................................... 6
2.2.1 Moedervariabele en steekproef ................................................................................... 6
2.2.2 Schattingen en schatters .............................................................................................. 7
2.3 Betrouwbaarheidsinterval voor een populatiegemiddelde, als de populatievariantie
gekend is ............................................................................................................................................. 8
2.3.1 Een schatter voor het populatiegemiddelde ................................................................ 8
2.3.2 Constructie van een betrouwbaarheidsinterval voor 𝜇................................................ 8
2.3.3 De foutmarge en de steekproefomvang ....................................................................... 9
2.3.4 Betrouwbare onder- en bovengrens ............................................................................ 9
3 Toetsen van hypothesen voor 𝜇 als 𝜎 gekend is........................................................................... 10
3.1 Inleiding ............................................................................................................................... 10
3.2 Het concept ......................................................................................................................... 10
3.2.1 De nulhypothese en de alternatieve hypothese......................................................... 10
3.2.2 Type I fout en type II fout ........................................................................................... 10
3.2.3 Het concept in de praktijk........................................................................................... 11
3.2.4 De testfase .................................................................................................................. 13
3.3 Toetsen van het populatiegemiddelde als 𝜎 gekend is ....................................................... 14
4 Betrouwbaarheidsintervallen en toetsen voor 𝜇 als 𝜎 ongekend is............................................. 15
4.1 Betrouwbaarheidsinterval voor 𝜇 als 𝜎 ongekend is .......................................................... 15
4.1.1 De steekproefstandaardafwijking ............................................................................... 15
4.1.2 De 𝑡-verdeling ............................................................................................................. 15
4.1.3 Constructie van een betrouwbaarheidsinterval voor 𝜇, 𝜎 niet gekend ..................... 16
DEEL 3: INDUCTIEVE STATISTIEK 1 van 37
,5 Toetsen voor twee populatiegemiddelden................................................................................... 16
5.1 Inleiding ............................................................................................................................... 16
5.2 Vergelijken van twee gemiddelden bij gepaarde steekproeven ......................................... 16
5.2 Vergelijken van twee varianties (𝐹-toets) ........................................................................... 17
5.3 Vergelijken van twee populatiegemiddelden bij ongepaarde steekproeven ..................... 18
6 Toetsen voor meerdere populatiegemiddelden (ANOVA) ........................................................... 19
7 Betrouwbaarheidsintervallen en toetsen voor proporties ........................................................... 20
7.1 Betrouwbaarheidsinterval voor een proportie ................................................................... 20
7.1.1 Een schatter voor de populatieproportie ................................................................... 20
7.1.2 Een betrouwbaarheidsinterval opstellen ................................................................... 21
7.2 Toetsen van de populatieproportie 𝜋 ................................................................................. 21
7.2 Vergelijken van twee populatieproporties .......................................................................... 21
8 Chikwadraattoets .......................................................................................................................... 23
8.1 De chikwadraattoets voor onafhankelijkheid ..................................................................... 23
8.1.1 De chikwadraatverdeling ............................................................................................ 23
8.1.2 De chikwadraattoets voor onafhankelijkheid ............................................................. 24
8.1.3 Verband tussen de chikwadraattest en de 𝑧-test voor twee populatieproporties .... 25
8.2 Chikwadraat goodness-of-fit test ........................................................................................ 25
9 Koppels gegevens en hun correlatie ............................................................................................. 26
9.1 Kijken naar koppels gegevens ............................................................................................. 26
9.2 De sterkte van het lineair verband tussen koppels gegevens ............................................. 26
10 De Pearsoncorrelatie-toets ...................................................................................................... 28
11 Enkelvoudige lineaire regressie ............................................................................................... 29
11.2 Het statische model ............................................................................................................. 29
11.3 Schatting van de regressieparameters ................................................................................ 29
11.4 De kwaliteit van het model meten ...................................................................................... 32
11.4.1 Scatterplot of spreidingsdiagram................................................................................ 32
11.4.2 De correlatiecoëfficiënt van 𝑋 en 𝑌 ............................................................................ 32
11.4.3 Het residuendiagram .................................................................................................. 33
11.4.4 Het verklarend vermogen 𝑅2 ..................................................................................... 33
11.4.5 De 𝐹-toets of ANOVA-toets ........................................................................................ 34
11.4.6 De 𝑡-toets .................................................................................................................... 35
11.5 Meer over de regressieparameters ..................................................................................... 35
11.6 Schattingen en voorspellingen op basis van het lineaire model ......................................... 36
11.7 Nagaan van de voorwaarden............................................................................................... 37
11.8 Functionele vorm van het model ........................................................................................ 37
DEEL 3: INDUCTIEVE STATISTIEK 2 van 37
, DEEL 3: Inductieve statistiek
1 Steekproeftrekkingen
1.1 Inleidende begrippen
- De populatie is de gehele groep objecten of personen waarover informatie wordt gewenst
- Het staal is een representatief deel van de populatie waarover effectief informatie verzameld
wordt
- Samplen is het nemen of selecteren van de elementen die tot het staal behoren
1.2 Steekproeftrekkingen (samplen)
1.2.1 Aselecte of willekeurige steekproef (simple random sample)
- Een Enkelvoudig Aselect Staal (EAS):
• elk element van de populatie heeft dezelfde kans om tot het staal te behoren
• elke deelverzameling van 𝑛 elementen heeft dezelfde kans om “het staal” te zijn
- Verder wordt nog een onderscheid gemaakt tussen een aselect staal mét en zonder terugleggen
• in het eerste geval hebben we te maken met onafhankelijke trekkingen
bv. alle studentennummers bij studentenadministratie verzamelen en een computer random studentnummers laten
trekken
- Nadeel: aan elk element van de populatie moet een uniek nummer gegeven kunnen worden
1.2.2 Systematische steekproef (systematic sampling)
- Een systematische steekproef:
• elk element van de populatie heeft dezelfde kans om tot het staal te behoren
• niet elke deelverzameling van 𝑛 elementen heeft dezelfde kans om “het staal” te zijn
er wordt systematisch een element geselecteerd
bv. kwaliteitscontrole bij productielijn. Om de duizend eenheden moet er een product gecontroleerd worden. Kies een
aselect getal tussen 1 en 1.000, bv 389. Het staal bestaat uit de producten met nummer 389, 1389, 2389, 3389 …
1.2.3 Gestratificeerde steekproef (stratified sample)
- Een gestratificeerde steekproef:
• het staal wordt proportioneel samengesteld volgens de proportionele indeling van de
populatie in homogene strata
bv. een staal van 1.000 Belgen, met 600 Vlamingen, 300 Walen en 100 Brusselaars
- Nadeel: de populatie moet opgedeeld kunnen worden in strata (= homogene deelgroepen) en de
proportionele verdeling van de populatie moet gekend zijn
DEEL 3: INDUCTIEVE STATISTIEK 3 van 37
,1.2.5 Clustersteekproef (cluster sampling)
- Clustersteekproef:
• de populatie wordt opgedeeld in homogene clusters (= de populatie in het klein) en nadien wordt
het staal samengesteld uit enkele aselect geselecteerde clusters.
bv. PISA test 15-jarigen ongeacht het leerjaar waar ze zich bevinden. Op die manier is de vergelijkbaarheid van de gegevens
die verzameld werden in meer dan 30 landen gewaarborgd. Aan PISA namen 124 Vlaamse scholen deel waaronder 4
scholen van het buitengewoon onderwijs. In elke geselecteerde school werden op basis van toeval ongeveer 35 leerlingen
geselecteerd. Ze legden een test af van twee uur en vulden een achtergrondvragenlijst in
- Nadeel: hoe bepaal je de clusters?
2 Betrouwbaarheidsintervallen
2.1 Een inleidend voorbeeld
2.1.1 Het steekproefgemiddelde is onderhevig aan het toeval
- Onderzoeksvraag: Wat is de gemiddelde lengte van 18-jarige mannelijke Belgen?
• Populatie: alle 18-jarige mannelijke Belgen
• Onderzocht kenmerk: 𝑋 = de lengte in cm van een willekeurige 18-jarige mannelijke Belg
We veronderstellen: 𝑋 ~ 𝑁 (𝜇; 𝜎)
ongekende populatieparameter
(= de gemiddelde lengte van alle 18-jarige mannelijke Belgen)
de moedervariabele de moederverdeling
We nemen een Enkelvoudig Aselect Staal (EAS) van grootte 100 met teruglegging
- Hoe zijn alle toevalsvariabelen verdeeld?
Staal 1 Staal 2 … Staal 50
178,5 168,3 … 𝑥1,50 ⇒ 𝑋1 = de lengte van persoon 1
(de lengtes van de eerst geselecteerde 18-jarige mannelijke Belgen)
159,9 173,8 … 𝑥2,50 ⇒ 𝑋2 = de lengte van persoon 2
192,1 170,9 … 𝑥3,50 ⇒ 𝑋3 = de lengte van persoon 3
185,0 184,9 … 𝑥4,50 ⇒ 𝑋4 = de lengte van persoon 4
… … … … …
𝑥100,1 𝑥100,2 … 𝑥100,50 ⇒ 𝑋100 = de lengte van persoon 100
𝑥1
̅̅̅=178,3 𝑥2
̅̅̅=180,1 … 𝑥
̅̅̅̅=177,6 ⇒ 𝑋̅ = gemiddelde lengte van 100 personen
50
100 toevalsvariabelen (𝑋1 , 𝑋2 , … , 𝑋100 ) met 𝑋𝑖 ~𝑁(𝜇, 𝜎)
dezelfde verdeling als hun moeder
de kinderen
DEEL 3: INDUCTIEVE STATISTIEK 4 van 37
, 𝜎
- Het steekproefgemiddelde: 𝑋̅~𝑁(𝜇; )
√100
2.1.2 Een betrouwbaarheidsinterval opstellen
𝜎 𝑋̅−𝜇
- We weten dat 𝑋̅~𝑁(𝜇; ) en dat de gestandaardiseerde 𝜎 = 𝑍~𝑁(0,1)
√100
√𝑛
in variantie delen door 𝑛
de populatieparameter 𝜇 proberen te schatten op basis van 𝑋̅ in standaardafwijking delen door √𝑛
𝑍~𝑁(0,1)
𝑧0,025 = invNorm(0,975; 0; 1)
≈ 1,96
Met deze notatie geldt dat:
𝑃(−1,96 ≤ 𝑍 ≤ 1,96) = 0,95
𝑋̅−𝜇
⇕ substitutie van 𝑍 door 𝜎
√100
𝑋̅ − 𝜇
𝑃 (−1,96 ≤ 𝜎 ≤ 1,96) = 0,95
√100
⇕ breuk wegwerken
𝜎 𝜎
𝑃 (−1,96 ≤ 𝑋̅ − 𝜇 ≤ 1,96 ) = 0,95
√100 √100
bv. een toevalsvariabele ligt tussen -7 en 7
⇕ ⇒ in absolute waarde ≤ 7
𝜎
𝑃 (|𝑋̅ − 𝜇| ≤ 1,96 ) = 0,95
√100
- De foutmarge: de kans dat de afstand tussen het steekproefgemiddelde 𝑋̅ en het
𝜎
populatiegemiddelde 𝜇 kleiner is dan 1,96 100 is, is 95 %
√
𝜇 ligt met een kans van 0,95 in
𝜎 𝜎
[𝑋̅ − 1,96 , 𝑋̅ + 1,96 ]
√100 √100
DUS: Met een kans van 95 % is de afstand tussen het steekproefgemiddelde 𝑋̅ en het
populatiegemiddelde 𝜇 hoogstens de foutenmarge
DEEL 3: INDUCTIEVE STATISTIEK 5 van 37
, 𝜎
𝑋̅ = 𝜇 + 𝑍 ∙
√𝑛
𝑍~𝑁(0,1) 𝜎
𝑋̅~𝑁(𝜇, )
√𝑛
foutenmarge
𝑋̅ − 𝜇
𝑍= 𝜎
√𝑛
Stel dat 𝜎 gelijk is aan 9:
9 9
• Staal 1: [178,3 − 1,96 , 178,3 + 1,96 ] = [178,3 − 1,764; 178 + 1,764] = [176,536; 180,064]
√100 √100
9 9
• Staal 2: [180,1 − 1,96 100 , 180,1 + 1,96 100] = [180,1 − 1,764; 180,1 + 1,764] = [176,336; 181,864]
√ √
• …
9 9
• Staal 50: [177,6 − 1,96 , 177,6 + 1,96 ] = [177,6 − 1,764; 177,6 + 1,764] = [175,836; 179,364]
√100 √100
- Het 𝟗𝟓 % betrouwbaarheidsinterval voor het populatiegemiddelde 𝝁: Als men deze methode
gebruikt en er worden oneindig veel betrouwbaarheidsintervallen opgesteld dan zal in 95 % van de
betrouwbaarheidsgevallen 𝜇 in gelegen zijn en in 5 % van de betrouwbaarheidsgevallen zal 𝜇 niet in
gelegen zijn
2.2 Betrouwbaarheidsintervallen opstellen: de ingrediënten
2.2.1 Moedervariabele en steekproef
- De moedervariabele is de toevalsvariabele 𝑋 die het kenmerk meet dat we willen onderzoeken in
de populatie
- De moederverdeling is verdeling van de moedervariabele
DEEL 3: INDUCTIEVE STATISTIEK 6 van 37
,- Een steekproef van grootte 𝑛 is een 𝑛-tal (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) waarbij elke 𝑋𝑖 verdeeld is zoals de
moedervariabele 𝑋 en waarbij 𝑋𝑖 onafhankelijk is van 𝑋𝑗
- Een steekproefresultaat (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) is één uitkomst van een steekproef
2.2.2 Schattingen en schatters
- Een schatter voor een ongekende populatieparameter is een functie van de steekproef
(𝑋1 , 𝑋2 , … , 𝑋𝑛 )
- Een schatting is één uitkomst van een schatter.
bv. 𝑋̅ = de gemiddelde lengte van 100 18-jarigen is een schatter voor de gemiddelde lengte van alle 18-jarige Belgen,
178.3 cm is een schatting voor de gemiddelde lengte van alle 18-jarige Belgen
- Eigenschappen van een goede schatter:
1. Een goede schatter is “zuiver” of “onvertekend”
de verwachte waarde van de schatter is de te schatten parameter
E(schatter) = de te schatten populatieparameter 𝜇
De kandidaat-schatter 𝑇2 is duidelijk vertekend,
terwijl 𝑇1 dit niet is
de verwachtingswaarde van 𝑇1 is precies de
parameter 𝜇
2. Van alle zuivere schatters is deze met de kleinste variantie de beste schatter
De beste van deze twee onvertekende schatters is
𝑇1 , omdat deze de kleinste variantie heeft
de kans dat 𝑇1 een waarde aanneemt dicht
bij de gezochte parameter is groter dan
voor 𝑇2
3. Een zuivere schatter is consistent als zijn variantie naar 0 convergeert als 𝑛 zeer groot wordt
in woorden: hoe groter het staal, hoe groter de kans dat de schatter waarden aanneemt die
dicht bij de ongekende populatieparameter liggen
Het steekproefgemiddelde is een consistente schatter omdat
2
lim Var ( X ) = lim = 0.
n → n → n
DEEL 3: INDUCTIEVE STATISTIEK 7 van 37
, 4. De verdeling van de schatter moet gekend zijn
als we de verdeling van de schatter niet kennen, dan kunnen we ook geen kansen berekenen
van deze schatter en bijgevolg geen uitspraken doen over de betrouwbaarheid
2.3 Betrouwbaarheidsinterval voor een populatiegemiddelde, als
de populatievariantie gekend is
2.3.1 Een schatter voor het populatiegemiddelde
̅ is de B L O S voor 𝝁: Het steekproefgemiddelde 𝑋̅ is de B(este) L(ineaire)
- Stelling: 𝑿
O(nvertekende) S(chatter) voor 𝜇
• neem een lineaire schatter 𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛
• “onvertekend” zijn betekent dat 𝑎1 + 𝑎2 + ⋯ + 𝑎𝑛 = 1
1
• “beste zijn” betekent dat de variantie minimaal moet zijn en dit impliceert dat elke 𝑎𝑖 = 𝑛
Dit – en het feit dat we meestal de verdeling ervan kennen – is de reden waarom we het
steekproefgemiddelde gebruiken als schatter voor het populatiegemiddelde 𝜇
- In welke situatie kennen we de verdeling van het steekproefgemiddelde niet?
als de moedervariabele niet normaal verdeel is EN als 𝑛 < 30
2.3.2 Constructie van een betrouwbaarheidsinterval voor 𝜇
𝜎
- Als 𝑋 normaal verdeeld is of als 𝑛 minstens 30 is, dan mag 𝑋̅ ≈ 𝑁(𝜇, )
√𝑛
P(− z Z z ) = 1 −
P( − z X + z ) = 1−
2 2 2 n 2 n
𝑃(−𝑧𝛼/2 ≤ 𝑍 ≤ 𝑧𝛼/2 ) = 1 − 𝛼
𝑋̅ − 𝜇
𝑃(−𝑧𝛼/2 ≤ 𝜎 ≤ 𝑧𝛼/2 ) = 1 − 𝛼
√𝑛
𝜎 𝜎
𝑃(−𝑧𝛼/2 ≤ 𝑋̅ − 𝜇 ≤ 𝑧𝛼/2 )=1−𝛼
√𝑛 √𝑛
𝜎
𝑃(|𝑋̅ − 𝜇| ≤ 𝑧𝛼/2 =1−𝛼
√𝑛
DEEL 3: INDUCTIEVE STATISTIEK 8 van 37