Hoorcollege 1 – Herhaling
- Toetsende statistiek gebruiken we om aan de hand van beschrijvende statistiek
iets te zeggen over de populatie
- 2 soorten toetsende statistiek
A) Schatten van populatieparameters op basis van gegevens van steekproef
o Puntschattingen en betrouwbaarheidsintervallen
B) Toetsen van hypothesen over populatieparameters op basis van gegevens van
de steekproef
o Toetsingsgegevens (t-waarde, z-waarde) en resultaten
- Concluderen over iets groters dan je hebt geobserveerd
- Populatie waarde heeft een vaste waarde (p)
o Exact getal, maar is onbekend en willen we schatten ( ^p ¿ het schatten
geeft onzekerheid
- Gemiddeld over alle steekproeven zal de gemiddelde steekproef waarde gelijk
zijn aan de werkelijke waarde in de populatie
- Precisie van een schatting geven we aan met een betrouwbaarheidsinterval
o Bij herhaalde steekproeftrekking ligt 100%(1-α) van de gevallen de
populatie parameter binnen de grenzen van het interval
- Betrouwbaarheidsinterval geeft plausibele waarde voor de populatie parameter
op basis van:
o Puntschatting
o Kritieke grenzen behorend bij toetsingsgrootheid
o Standaardfout van de puntschatting
o Houdbaarheid van de aannames
- Standaardfout =
Toetsen
Nullhypothese toets proportie
A) Assumpties checken
1
, Steekproef is willekeurig
Categorische variabele
Steekproefgrootte voldoende groot
o Np ≥ 15 & n(1-p) ≥ 15
o P onbekend? Dan standaard p=0,5 gebruiken
B) Hypothese opstellen (H0, Ha)
H0: p = p0
Ha: p ≠ p OF p < p0 OF p > p0
C) Toetsingsgrootheid
D) P-waarde
E) Conclusie
Toetsingsgrootheid > kritieke waarde = significantie = verwerpen van H0
Toetsingsgrootheid < kritieke waarde = niet significant = H0 niet verwerpen
(je hebt geen genoeg bewijs)
Nullhypothese toets gemiddelde
A) Assumpties checken
Steekproef willekeurig getrokken
Kwantitatieve variabele
Normaal verdeeld (of bij benadering)
o Eenzijdig robuust bij n ≥ 30
o Tweezijdig altijd robuust (normaal verdeeld)
o Soms: variantie populatie bekend z-verdeling
o Meestal: variantie populatie onbekend t-verdeling
B) Hypothese opstellen
H0: µ = µ
Ha: µ ≠ µ OF µ < µ0 OF µ > µ0
C) Toetsingsgrootheid berekenen
T-verdeling; staarten zijn dikker
Formule:
Se is gelijk aan de se die gebruikt wordt voor het betrouwbaarheidsinterval
D) P-waarde opzoeken
Overschrijdingskans van gevonden toetsingsgrootheid opzoeken in tabel met
behulp van kritieke waarde
Wat is de kans dat we de gevonden of extremere waarde vinden als H 0 waar
is?
Overschrijdingskans in de bovenste rij van de tabel
2
,E) Conclusie
Toetsingsgrootheid > kritieke waarde = significant = verwerpen van H 0
Toetsingsgrootheid < kritieke waarde = niet significant = niet verwerpen van
H0
- Eenzijdig = α
- Tweezijdig = α/2 (alfa gedeeld door twee)
Betrouwbaarheidsinterval en nullhypothese
- Populatie waarde onder H0 niet in betrouwbaarheidsinterval = significant
- Populatie waarde onder H0 wel in betrouwbaarheidsinterval = niet significant
Beschrijven in een verslag
- Methoden sectie: beschrijven welke toets je gaat doen, welk significantieniveau
je gebruikt en of je 1 of 2-zijdig gaat toetsen
- Resultatensectie: steekproefgegevens en toetsingsresultaten
o De studenten in de steekproef scoorden significant hoger dan de norm
van 100 (IQ = 111, t(119) = 6.36, P < .002, CI95 = [107,8;114,2]
- Conclusie; de studenten waren intelligenter dan gemiddeld
3
, Hoorcollege 2 – 2 onafhankelijke groepen
Hypothesetoets 2 onafhankelijke proporties
- Stemmen hoogopgeleiden wel/niet vaker of minder vaak dan laagopgeleiden?
- Zitten jongens en meisjes wel/niet even vaak op een sport?
- Hebben mensen die koffie drinken wel/niet vaker last van hun hart dan mensen
die geen koffie drinken?
- Vertonen kinderen die vaak tv kijken wel/niet vaker crimineel gedrag dan
kinderen die weinig tv kijken?
Stap 1: Assumpties
- Tabel maken
- Proportie uitrekenen van beide groepen
- Proporties van elkaar aftrekken. Dit vergelijken/berekenen op de hamvraag
- Assumpties:
o Categorische responsvariabele
o Afhankelijke variabele nominaal, dichotoom
o Willekeurig getrokken
o N1 en n2 zijn groot genoeg dat er minstens 5 successen en minstens 5
mislukkingen zijn in elke groep als er gebruik gemaakt is van een
tweezijdig alternatief
o Eenzijdig: minimaal 10 per cel (het getal/de waarde in de cel)
o Tweezijdig: minimaal 5 per cel (het getal/de waarde in de cel)
Stap 2: Hypotheses
- H0: P2 = p1 P1 – P2 = 0
- Ha: P1 – p2 ≠ 0 OF p1 – p2 < 0 (links) OF p1 – p2 > 0 (rechts)
Stap 3: Teststatistiek
- Formule
o Waarbij de gepoolde proportie, ^p is: = (alle successen)/(n1 +n2)
o Onder H0 zijn p1 en p2 gelijk aan elkaar
o P schatten ^p
o
o N1 = steekproefgrootte groep 1 (bijv; mannen)
o N2 = steekproefgrootte groep 2 (bij; vrouwen)
Stap 4 P-waarde
- Standaardnormale verdeling (z-verdeling)
- Links, rechtseenzijdig, tweezijdig, a, zkritiek
Stap 5 Conclusie
- Z extremer dan zkritiek verwerp H0
- P-waarde < α verwerp H0
Hypothesetoets 2 gemiddelden
Stap 1: Assumpties
- Afhankelijke variabele
- Kwantitatieve responsvariabele
4