hypothesetoetsing
DOEL:
Probleem van de inductieve statistiek:
- Populatie toetsen (is te groot, niet mogelijk dus…)
- Steekproef trekken
- Uitspraak met een bekende mate van (on)zekerheid
De kansberekening over de zekerheid:
- Uitgaande van geen verschil tussen de groepen
- Hoe groot is de kans dat we wel een verschil observeren
- Is de kans groot
- Dan is de observatie geen uitzondering
Misbruik:
- Statistiek is een hulpmiddel, geen doel
- Beïnvloeding van keuzes, incorrect gebruik van cijfergegevens
- Zwakke onderzoeksmethodes
- Vage beweringen
- Onterecht gebruik van termen als ‘wetenschappelijk bewezen’
Kans
Definitie:
- Kans, is de mate van zekerheid / onzekerheid over het optreden van een bepaalde
gebeurtenis in de toekomst
- Kansverdeling (hypothetisch) is een vorm van frequentieverdeling (observatie)
- Voorspellen wat de frequentie van voorkomen zal zijn van een gebeurtenis indien we
oneindig vaak de proef op de som nemen
Symbolen:
- P = Probability = kans
- M = de betreffende gebeurtenis die we willen halen (nakijken)
- N = het aantal waarden waaruit ik een steekproef trek, uitkomstenruimte (U)
- De elementen in de uitkomsten ruimte noemen we de elementaire gebeurtenissen
, - N(M) = het aantal keer dat de gewenste waarde voorkomt in het totaal aantal waarden N
De kans op een gebeurtenis:
- P(M) = de kans om de waarde M te krijgen
- P(M) = N(M)/N
MOGELIJKE UITKOMSTEN:
- Kans op één specifieke elementaire gebeurtenis
o P(M) 0
- Kans op eender welke gebeurtenis uit U
o P(M) = 1 want het is de som van alle kansen op elementaire gebeurtenissen uit U
o Mits alle kansen gelijk zijn aan N(M)/N en we dit N keer optellen wordt dit N/N
- Kans op niet die ene specifieke elementaire gebeurtenis
o P(niet-M) = 1 – P(M)
VOORBEELD:
- Een dobbelsteen bevat 6 waarden (N = 6)
- De uitkomstenruimte U = {1, 2, 3, 4, 5, 6}
- We zoeken de kans op het gooien van ‘6’ in één keer.
- Het aantal keer dat 6 voor komt in U = N(6) = 1
- P(6) = N(6) / 6 = 1/6 = 0,167 = 16,7%
Bij een perfecte dobbelsteen en een aselecte steekproef met teruglegging heeft elke gebeurtenis uit
de uitkomstenruimte evenveel kans om voor te komen.
We spreken in dit geval van een: uniform kansmodel
Frequentie/kans:
- Frequentieverdeling: frequentieverdeling kansverdeling
o Hoogte van de staven zijn het
aantal observaties voor een
uitkomst (echte situatie)
- Kansverdeling:
o Hoogte van de staven is de
kans op de uitkomst
De kansverdeling:
- frequentietabel
- Theoretische waarden niet echt vastgesteld
- Gemiddelden en standaardafwijkingen zijn dus in principe niet toe te passen
- Daarom: doen we alsof we oneindig vaak gooien met de dobbelsteen
- Soort van gemiddelde = de verwachte waarde (verwacht gemiddelde van
de populatie) het gemiddelde van een steekproef
- x of E(X)
- Formules: (hoe berekenen we dit?)
o E(X) = P(X = x1) (x1) + P(X = x2)(x2) + … + P(X = xk)(xk)
o E(X) = xiP(X= xi)
- Variantie:
, o x² = E(X - x)²
o x² = P(X=xi)(xi - µx)² = ((xi - µx)² / N)
- Standaardafwijking, x of SE(X)
o x = x ² = SE(X) = E(X - x)²
Berekening:
- µx = E(X) = P(X = x1) (x1) + P(X = x2)(x2) + … + P(X = xk)(xk)
o = (1/6)(1) + (1/6)(2) + (1/6)(3) + (1/6)(4) + (1/6)(5) + (1/6)(6) = 3,5
o = de verwachte waarde van wat ik gemiddeld zal gooien
- x = SE(X) = E(X - x)²
o = [(P(X = x1) (x1 - µx)² + P(X = x2)(x2 - µx)² + … + P(X = xk)(xk - µx)²]
o = [(1/6)(1-3,5)² + (1/6)(2-3,5)² + (1/6)(3-3,5)² + (1/6)(4-3,5)² + (1/6)
(5-3,5)² + (1/6)(6-3,5)²]
o = 1,71
Kansverdeling van het steekproefgemiddelde:
- Uit de populatie kunnen nu oneindig veel steekproeven getrokken worden
- Op zoek naar de verwachte waarde van de verschillende steekproefgemiddelden
- Alle gemiddelden van de steekproeven volgen een verdeling
- De kansverdeling: geeft informatie om te weten hoe groot de kans is op een bepaald
gemiddelde
Verdeling inschatten:
- Steekproefgemiddelde X is een zuivere schatter voor de verwachte waarde van de
steekproefgemiddelden
- Verwachte waarde van de steekproefgemiddelden is een zuivere schatter (gemiddelde van
de gemiddelden) voor het populatiegemiddelde, er is dus geen systematische afwijking
o E(X) = µx = µ
o Er zijn afwijkingen dus bereken de SD van de steekproefgemiddelden
- De standaarddeviatie van alle steekproefgemiddelden = standaard fout van het gemiddelde
is geen zuivere schatter
o x = / N of Sx / N
o De steekproef SD is een overschatting van de standaardfout op het gemiddelde
vandaar de correctie
, - Sociaal wetenschappelijke onderzoeken naar “natuurlijke” eigenschappen zijn meestal
normaal verdeeld
- Hoe groter de steekproef hoe dichter de normale verdeling benaderd zal worden
- Normale verdeling veronderstellen…
o Als n > 30: bij benadering normale verdeling als de standaardafwijking bekend is.
o Als niet gekend is maar n 100: bij benadering normale verdeling
o Als niet gekend is maar n < 100: mag geen normale verdeling verondersteld
worden.
- Let op: de steekproeven moeten representatief getrokken zijn (alle relevante deelgroepen)
Verdeling:
- Normale verdeling
o Hoe vaak komt een bepaald gemiddelde in een steekproef voor
o klokvormig, symmetrisch rond µ
o Oppervlakte onder de curve is 1
o Modus, gemiddelde en mediaan op de middellijn
o Volledig bepaald door µ (plaats) en (platheid)
o µ = populatie gemiddelde
o standaardafwijking op de populatie
o Kans op een waarde of hoger is de oppervlakte onder de
curve
2
- -verdeling
o Hoe groot is de kans op een frequentieverdeling die afwijkt
van de populatieverdeling
- F-verdeling
o Hoe groot is de kans dat twee steekproefvarianties
verschillen.
- Binomiaal-verdeling
o Hoe groot is de proportie van 1 van de twee waarden in de
populatie. (twee variabelen)
Onderzoeksvraag:
- Verschillende vragen kunnen gesteld worden:
o Wat is het populatiegemiddelde voor een bepaalde variabele
Het antwoord is te vinden in een betrouwbaarheidsinterval (later)
o Verschillen twee groepen voor een bepaalde variabele van elkaar
Het antwoord is te vinden via een hypothesetoetsing
- Beide methodes baseren zich op steekproefverdeling
Hypothese
De hypothese:
- Van een gevoel door ervaring (vermoedelijke theorie) naar een algemene getoetste theorie
- Onderzoekshypothese: veronderstelling
o Voorbeeld: De globale methode om kinderen te leren lezen geeft betere resultaten
dan de nieuwe analytische methode.
- Hypothese: kwantitatief toetsbaar: statistische hypothese