STATISTIEK III: UNIVARIATE DATA-ANALYSE
WAT VOORAF GING …
• Statistiek I: meetschalen en beschrijvende statistiek
1. Ordeningstechnieken (tabellen en figuren)
2. Reductietechnieken (statistische grootheden: positie, spreading, vorm)
3. Associatietechnieken (spreidingsdiagram, contingentietabellen, correlatie)
• Statistiek II: kansrekening en inferentiële statistiek
4. Kansrekening: studie van toeval
5. Steekproevenverdeling (sampling distribution)
6. Inleiding tot inferentie (betrouwbaarheidsinterval, overschrijdingskans, significantietoetsen)
• Statistiek III: univariate data-analyse
INDUCTIEVE STATISTIEK
Je vertrekt van een populatie, trekt een steekproef, en maakt een terugkoppeling van steekproef naar populatie
Bv. Steekproefgemiddelde = 50, wat zegt dit over de volledie populatie?
2 soorten van inductieve technieken:
SCHATTEN – Betrouwbaarheidintervallen (BI) TOETSEN – Significantie toetsen
Bv. Wanneer je een steekproefgemiddelde hebt genomen Bv. Nagaan of het verschil tussen het waargenomen
ga je kijken of die in het BI valt, dit illustreert hoe ver die gemiddelde en hypothese onwaarschijnlijk is.
kan afwijken van het populatiegemiddelde.
9 Als het verschil tussen schatter en waarneming
groot genoeg is nemen we de nulhypothese aan
als ‘waar’.
,Illustratie: steekproevenverdeling SAT
⇒ We gaan er vanuit dat we de populatiespreiding kennen en het populatiegemiddelde niet.
9 We gaan het populatiegemiddelde benaderen a.d.h.v. het steekproevengemiddelde
⇒ Wanneer we steekproeven gaan trekken uit de populatie gaan we telkens iets anders uitkomen met een andere
variabiliteit, en dus kunnen wij wel ruw voorspellen/schatten hoe al deze steekproeftrekkingen zich gaan spreiden
rond het populatiegemiddelde.
9 Benadert een normaalverdeling:
1 steekproef
*
𝑥̅
9 𝜇 is onbekend MAAR 𝑥̅ uit eigen onderzoek met steekproef kennen wel wel.
9 Als 𝑥̅ binnen het geel vlak (BI) valt, zijn we ‘safe’.
*In 95% van alle mogelijke steekproeven ligt 𝜇 niet meer dan 9 punten onder OF boven het steekproevengemiddelde!
= lievelingsbeeld van de prof:
theoretisch de échte steekproevenverdeling.
⇒ We zijn namelijk alleen zeker van de vorm, we weten niet waar in het
assenstelsel die zich situeert.
$
Gedrag van de betrouwbaarheid: BI voor 𝜇 = %𝑥̅ ± 𝑧!/# ∙ )
√&
9 Klein BI impliceert: hoge betrouwbaarheid
= kleine foutenmarge
• grote steekproef
• lager betrouwbaarheidsniveau (meestal 95%, maar ook 90% of 99%, …)
• kleinere 𝜎
2
,SIGNIFICANTIETOETS IN 4 STAPPEN
(1) Formuleren van hypothese; nulhypothese en alternatieve hypothese
→ Wordt meestal gedaan om twee groepen te vergelijken (waarbij we meestal hopen op een verschil tussen
de groepen, en de nulhypothese zegt dat er geen verschil is)
(2) Bepaal de waarde van de toetsingsgrootheid
(3) Bepaal de overschrijdingskans p voor de toetsingsgrootheid (theoretisch vs. resampling)
(4) Formuleer de conclusie (volgens APA)
SAMENVATTING:
(1) Formuleer 𝐻! en 𝐻"
(2) Bepaal de waarde van de toetsingsgrootheid
(3) Bepaal de overschrijdingskans p voor de toetsingsgrootheid
(4) Formuleer de conclusie (APA-stijl)
KLASSIEKE AANPAK…
Experiment met 40 patiënten:
• 20 patiënten nieuw medicijn: (minstens) 15 genezen
• 20 patiënten placebo: 10 genezen
⇒ Vraag: Kan dit resultaat op toeval berusten?
9 Onderzoek steekproevenverdeling voor 𝐻!
9 Vaststelling voorleggen aan toeval
𝐻! = er is geen verschil tussen de placebo-groep en de experimentele groep
Kansrekenen: schatter van fractie successen in de placebo-groep
#$%&&'$$'( *( $+'',-./'0 2 3!
⇒ 𝑝̂ = $+'',-./'01.//++'
= ( = 4! = 0.50
9 Binomiaalverdeling B(20; 0.50) = B(n, p)
Recap binomiaalverdeling: binomiale situatie; hoe vaak een bepaalde situatie (uitkomst: succes of verlies) voorkomt
in opeenvolgende onafhankelijke pogingen van toevalsproces.
Bv. Hoe vaak zal ik kop gooien als ik 10x een muntje opgooi?
→ In deze casus: hoeveel patiënten zullen genezen als ik 20 van de 40 het nieuwe medicijn toedien (genezen = succes).
9 VOORWAARDEN binomiale situatie:
B (1) Elke waarneming valt in ½ categorieën (bi)
O (2) Waarnemingen zijn onafhankelijk
A (3) Er is een vast aantal waarnemingen
S (4) Kans op succes is voor elke waarneming dezelfde
Binomiaalverdeling B(20; 0.50) → steekproevenverdeling die zou waar zijn indien de nulhypothese klopt. Hoe groot
is de kans in deze binomiaalverdeling dat je door puur toeval 75% genezing zou vinden? → 15 van de 20
𝑃[𝑋 ≥ 15] = 𝑃[𝑋 = 15] + 𝑃[𝑋 = 16] + ⋯ + 𝑃[𝑋 = 20]
𝑃[𝑋 ≥ 15] = 0,1479 + 0,00462 + 0,00109 + 0,00018 + 0,00002 + 0
𝑃[𝑋 ≥ 15] = 0,02069
De kans dat 75% van de patiënten puur door toeval geneest is klein.
3
, 9 Drempelwaarde voor toeval ⇒ d = 5%
DUS: 2% zorgt ervoor dat we de 𝐻! verwerpen
Benadering met normaalverdeling:
np ≥ 10 en n(1 – p) ≥ 10 is net voldaan…
𝜇2 = np = 10 𝜎2 = <𝑛𝑝(1 − 𝑝) = 2,236
35,783!
z= = 2,01 𝑃[𝑧 ≥ 2,01] = 0,0222
4,49:
15000
Andere aanpak: resampling (bootstrap)
10000
⇒ 100 000 steekproeven met teruglegging uit placebo steekproef met 10 ziek / 10 genezen
37!7;55<;3!<;3:;7
5000
3!! !!!
= 0,02084 ≈ 2% → significant verschil
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
20 116 480 1490 3732 7522 12067 16011 17456 15942 11990 7388 3700 1505 449 109 16 5
CRUCIALE VRAGEN BIJ SIGNIFICANTIETOETSEN
• Hypothesetoets: “Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien
de nulhypothese waar zou zijn?”
• Onderscheidingsvermogen: “Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn
gekomen indien de nulhypotjese NIET waar zou zijn?”
→ Wat indien het verschil met de nulhypothese xxx zou bedragen, levert dat dan een significante toets op?
DOEL: indien de waarde die we aan het meten zijn met onze 𝐻! , als die een bepaalde grootte heeft, dan wil ik die
kunnen detecteren.
9 We willen ons hele onderzoek zodanig gaan opzetten dat indien het verschil de moeite waard is, dan moet
mijn statistisch resultaat dat kunnen detecteren ⇒ opgave
= onderscheidingsvermogen/power
ONDERSCHEIDINGSVERMOGEN (POWER)
In welke mate is onze statistische test in staat om een bepaald onderscheid te detecteren?
Conclusies gebaseerd op een significantietoets kunnen Waarheid over de populatie
ook foutief zijn. Er zijn 2 soorten fouten:
𝐻! correct 𝐻! foutief (⇒ 𝐻" )
Conclusies o.b.v. Niet kunnen verwerpen 𝐻! Correcte conclusie Type II fout (𝜷)
steekproef Verwerpen 𝐻! Type I fout (𝜶) Correcte conclusie (power)
• Type II fout = false negative (tegen zwangere vrouw zeggen dat ze niet zwanger is)
Type II fout = onterecht foute 𝐻! niet verwerpen (je mist een echt effect dat er wel is)
• Type I fout = false positive (tegen man zeggen dat hij zwanger is)
Type I fout = onterecht juiste 𝐻! verwerpen (je concludeert dat er een effect is, terwijl dat er eigenlijk niet is)
4
,Gemiddelde van 2 populaties vergelijken:
→ Houd in het achterhoofd dat overlapping tussen populaties mogelijk is.
Steekproevenverdeling toetsvariabele onder 𝑯𝟎 :
→ Steekproevenverdeling van de verschillen
Typisch bij een significantietoets = beslissingscriterium maken
" Vanaf dat het verchil op steekproefniveau minstens zoveel is gaan we zeggen dat het verschil significant is.
Steekproevenverdeling van toetsingsgrootheid → power
→ We gaan dit beslissingscriterium nemen en kijken naar
de gegevens van de steekproefdata en dan kijken naar het
gevonden verschil in de steekproef (waar zit dit verschil)?
𝛼
staart van 5%
9 Steekproevenverdeling die gaat over de verschillen (𝜇3 − 𝜇4 = 0)
Indien dit verschil binnen de steekproef (1 waarde) GROTER is dan het criterium, beslissen we dat de nulhypothese
fout is; m.a.w. is er sprake van een significant resultaat.
Vanaf het rode gebied (𝛼) nemen we aan dat 𝐻! NIET klopt.
9 De steekproefoppervlakte onder de steekproevenverdeling rechts van het beslissingcriterium = 𝛼
0 = er is geen verschil tussen steekproeven (bv. placebo en medicijn
leiden tot hetzelfde effect)
Afstand tussen twee toppen (2 gemiddelden), illustreert de werkelijke
afstand tussen de twee steekproeven. MAAR: statistische toets blijft!
MAAR stel u voor dat de rode situatie waar is, dan zegt het rechter stuk
van de verdeling dat je de nulhypothese verwerpt, en het linker stuk zegt
dat het niet significant is (𝐻' aanvaarden/niet verwerpen).
Het lichtblauwe stuk geeft de kans dat je de nulhypothese aanvaard
(m.a.w. geen significant verschil), terwijl er eigenlijk wél een verschil is.
→ Voor de grenswaarde om gezien te worden als significant maar wel in de verdeling die significant hoger ligt (𝐻( ).
9 Heel belangrijke redenering!
5
, Je gaat eerst vertrekken van de gewone hypothesetoets.
9 Kijken wat er allemaal verklaard kan worden met de nulhypothese, wat is het beslissingscriterium o.b.v. 𝛼
(z-waarde indien 𝛼 = 5%).
Stel we gaan o.b.v. het verschil dat we waarnemen zien van ‘wat gebeurt er nu’, ‘zitten we rechts of links van het
criterium’, … Dan kun je zien hoe groot de kans is dat je je vergist (𝛽).
1 – 𝛽 = de kans dat indien het verschil minstens zo groot is als dat men
voorop heeft gesteld, hoe groot is dan de kans dat je dat effectief gaat
kunnen verwerpen o.b.v. de statistische toets die men beredeneert
heeft alleen maar op de nulhypothese.
9 1 – 𝛽 = onderscheidingsvermogen/power: de kans dat je een
bepaald verschil effectief zult kunnen detecteren met uw
statistische toets die gebaseerd is op de nulhypothese.
Een typische hypothesetoets gaat werken op deze steekproevenverdeling.
Als effectief het verschil tussen de experimentele en placebo-groep 0 zou zijn, dan kan ik toch door steekproef-
toevalligheden een verschil krijgen tussen die twee steekproefgemiddelden?
9 Dat verschil gaat zich gedragen op een manier van bovenstaande figuur:
𝜇 = 0 en 𝜎 = ? (m.a.w., gemiddelde = 0 en bepaalde standaardafwijking)
Onze statistische redenering is dan: dit is wat ik verwacht onder de nulhypothese, maar we gaan ergens een
beslissingscriterium kiezen ⇒ als het verschil voldoende groot is (rechterkant; positief verschil).
9 Vanaf de streep: vanaf een waarde die daarin valt geloven we niet in de nulhypothese – we geloven dat er wél
een significant verschil is tussen de groepen.
MAAR: zoals te zien kun je ook in de rechterstaart belanden indien 𝐻! klopt! =𝛼
𝜶 1–𝜶
= gebied waarin we fouten zouden maken. = wat dat je moet verwachten als 𝐻! klopt.
9 We denken dat er een verschil is, maar eigenlijk
is dat door steekproeftoevalligheden.
*Noot: de grootte van N speelt hier een grote beïnvloedende rol.
9 Rode verdeling = verdeling die zou bestaan indien het verschil wezenlijk groot is; verschil tussen de twee
gemiddelden (top verdeling 1 en top rode verdeling).
DUS: rode verdeling is zuiver theoretisch!
Idee van onderscheidingsvermogen: stel dat het echte verschil dat wezenlijke verschil is dat mij interesseert, dan
willen we weten wat de performantie is van de klassieke toets die gebaseerd is op de 𝐻! .
9 Criterium voor toets 𝐻! = verticale lijn (𝛼 = 5%)
9 Als je een groter verschil zoekt, schuift de rode figuur naar rechts → oppervlakte waarin je beslist dat er een
verschil is wordt ook groter.
MAAR, nadeel: als de rode verdeling niet zoveel verschilt en dus dichterbij de blauwe verdeling is, is er een grotere
kans dat je het wezenlijk verschil niet opmerkt. DUS: keuze van wat een ‘zinvol verschil’ is, is belangrijk!
6