SAMENVATTING – GAO
Inleiding
Je het drie niveaus:
- niveau 1: beschrijvende statistiek
- niveau 2: inferentiële statistiek
- niveau 3: modellen
LES 1: PROBABILITEIT & INFERENTIËLE STATISTIEK
Wat zien we?
- Op weg naar inducties vanuit 1 steekproef naar de populatie
o Steekproefparameters versus populatieparameters
o Steekproevenverdeling
o Toetsen = aanvaardingsintervallen bouwen
o Uitspraken doen over de populatieparameter =
betrouwbaarheidsintervallen bouwen
Vooral dus basisprincipes die relevant zijn als opstap voor volgende lessen. Even
doordenken:
- Kwantitatief onderzoek gebeurt op basis van een steekproef
waarbij we een aantal (N) mensen bevragen of observeren
o A. Kunnen we op basis van 1 steekproef waar we het
gemiddelde x meten exact het echte
populatiegemiddelde µ kennen?
o B. Zal een steekproef op maandag 11u exact hetzelfde
beeld geven als op een ander moment?
o C. Wat als we 1000 steekproeven nemen en daarvan
het ‘super’ gemiddelde berekenen?
o Is een grote steekproef beter dan een kleine
steekproef?
Steekproevenverdeling
- Steekproefgrootheden (v. het percentage p) zijn kansvariabelen
- Steekproevenverdeling: geeft weer hoe steekproefgrootheden variëren ij
onbeperkt aantal herhaalde steekproeftrekkingen
- De kennis van die ‘sampling distribution’ laat ons toe om op basis van 1
steekproef:
o ‘Scherpe’ uitspraken te doen over de populatiewaarden
Hoe groot is het echte percentage bezorgden over het
klimaat?
o Beweringen te toetsen: kan het echte percentage gelijk zijn aan een
bepaalde waarde?
1
, Notes – Gevorderde analyse & onderzoeksoftware
o p=steekproef percentage; π=populatie percentage
- Een voorbeeld
o Stel dat in VS populatie 60% niet-kerkelijk (π = 0,60)
o Stel dar 1000 EAS van 100 personen –
o Benadering van steekproevenverdeling:
- Basislogica inductie
o Via steekproefgrootheden populatiegrootheden schatten
o We gebruiken daarvoor zuivere schatters: gemiddelde van
steekproevenverdeling (verwachting) = populatiegrootheid
o Spreiding neemt af naarmate steekproefomvang groter wordt
o Vertekening mogelijk door steekproefontwerp
o Steekproevenverdeling bezit spreiding: gemeten via
standaardafwijking van die steekproevenverdeling (standaardfout of
standard error)
In voorbeeld: = 0,049 --> 95% steekproeven [0,50; 0,70]
- Impact van N
o Stel dat 1000 EAS van 1785 personen
o Standaardfout = 0,01
--> 95% steekproeven [0,58; 0,62]
- Zuivere schatter
Verdelingen
- 2 soorten verdelingen die goed uit elkaar moeten gehouden worden
o Populatieverdeling: verdeling van variabele in populatie
2
, Notes – Gevorderde analyse & onderzoeksoftware
o Steekproevenverdeling: ‘gedrag’ van steekproefgrootheid bij
onbeperkt aantal trekkingen
- Vooraleer maken van inducties: studie van steekproevenverdelingen van
gangbare steekproefgrootheden
Centrale limietstelling
- Bij grotere N: ook als de populatieverdeling niet normaal is, volgt x een
normaalverdeling
o Hoe sterker afwijking van normaalverdeling, hoe groter N moet zijn,
met N vanaf 30 meestal OK
- Verdeling van som of gemiddelde van vele kleine toevalsgrootheden
benadert sterk de normaalverdeling
- Dit geeft aan waarom vele geobserveerde variabelen sterk een
normaalverdeling benaderen
Onderzoek = hypothesetoetsing
- = nagaan of een geformuleerde veronderstelling over de werkelijkheid,
met een bepaalde betrouwbaarheid, statistisch gevalideerd kan worden
- = nagaan in welke mate onderzoeksresultaten aan het toeval te wijten zijn
of niet
- Basisbegrippen
o 1. Geen hypothesetoetsing zonder hypothesen
2 Hypothesen H0 en H1
Nulhypothese: parameter = waarde, geen effect, geen
verschil, geen correlatie
Alternatieve hypothese
Vb. De Morgen beweert succesjaar achter de rug te
hebben. Er werden gem. 20% meer kranten verkocht,
zodat men nu op een oplage van ca. 76.000 beweert te
zitten
o Oplage ‘De Morgen’
Represent sp. Voor VL (N = 2500)
Onderzoekshypothese: nagaan of de
opgegeven oplagecijfers wel kloppen
H0: µ = 76.000
H1: µ 76.000
o Ontlezing
Theorie: ontlezing bij jongeren is nog
opvallender bij jongens dan bij meisjes
3
, Notes – Gevorderde analyse & onderzoeksoftware
Onderzoekshypothese: Is ontlezing
verschillend bij jongens en meisjes?
H0: µjongens = µmeisjes
H1: µjongens µmeisjes
Of H1: µjongens < µmeisjes of H1: µjongens > µmeisjes
o Doel
Tot een statistische validering/
aanvaarding van H0 komen. Wijkt het
gevonden sp-resultaat teveel af van H0
dan wordt H0 verworepen , en dienen we
de alternatieve hypothese te aanvaarden
Logisch misschien, maar wanneer is de
afwijking groot genoeg om H0 te
verwerpen?
o 2. Eenzijdig en tweezijdig toetsen
o 3. Aanvaarding- en betrouwbaarheidsinterval
Aanvaardingsinterval
We werken met steeproeven!!
o Rekening houden met toeval en variatie
10 sp’n --> 10 verschillende resultaten
Afwijking is normaal
Vb. ‘De Morgen’: is oplage van 75896 voldoende H0 te
verwerpen?
Vb. ‘Ontlezing’: is een verschil van 3 minuten
voldoende om te concluderen dat jongens inderdaad
nog minder lezen dan meisjes?
Marge inbouwen --> Aaanvaardigsinterval
Binnen de set van mogelijke waarden die een
parameter kan aannemen onder H0 , dient subset va
waarden vastgelegd te worden die, rekening houdend
met afwijking door toeval, toelaten H0 te aanvaarden
(= aanvaardingsinterval)
Automatisch ook subset van waarden die zo extreem
zijn, zo’n kleine kans op voorkomen hebben onder H0
4