Literatuur:
• Statistical Methods for the Social Sciences: Hoofdstuk 4.4 tot hoofdstuk 9
Rooster:
COLLEGE 1A
• Steekproevenverdeling
• Betrouwbaarheidsintervallen
Terminologie
• Populatie: groep waarvan onderzoeker eigenschappen wil weten; als je de middelen had,
bestudeerde je deze hele groep
• Parameter: numerieke samenvatting van eigenschap in populatie
• Steekproef: subgroep uit populatie die onderzocht wordt
• Statistic: numerieke samenvatting van eigenschap in steekproef; steekproefuitkomsten
Kansberekening
• Gaat uit van random gebeurtenissen
• Voorspelt regelmaat op lange termijn rondom gebeurtenissen
4.4 Sampling distributions
• Steekproevenverdeling: kansverdeling die een kans aangeven voor iedere mogelijke uitkomst
• Kansverdeling voor steekproeven
> Wat is de verdeling als ik heel vaak een steekproef zou trekken? Wat voor waardes kunnen er
allemaal uitkomen?
,Andere steekproevenverdeling (proportie)
> Kansen per staafje zijn in principe ‘los’ uit te rekenen (later)
4.5 Steekproevenverdeling voor gemiddeldes
Steekproevenverdeling kan voor iedere ‘statistic’.
> Proportie
> Gemiddelde
Voorbeeld: Steekproevenverdeling van gemiddelde
Gemiddelde cijfers. Verschillende steekproeven worden genomen en de volgende gemiddeldes komen
eruit:
Steekproefgemiddelden variëren over steekproeven en zijn zelf random variabelen met verdeling.
Wanneer er heel vaak een steekproef uit een populatie getrokken worden:
• Variëren de steekproefgemiddelden minder dan de losse scores in populatie.
, • Is de verdeling van steekproefgemiddelden ‘meer’ normaal verdeeld dan de losse scores in de
populatie.
Algemeen geldt:
• De verdeling van steekproefgemiddelde is niet hetzelfde als de verdeling van scores in
populatie.
• Variantie van steekproefgemiddelden is kleiner dan variantie van scores in populatie.
• Gemiddelde van steekproefgemiddelden is zelfde als gemiddelde van scores in populatie >
gemiddelde is ‘unbiased’.
• Naarmate je n groter wordt, lijkt de verdeling van de steekproevenverdeling steeds meer op
een normale verdeling = centrale limietstelling (central limit theorem: in het oneindige
trekken uitkomsten steeds meer naar het midden/gemiddelde).
>
• Gemiddelde van heel veel gemiddeldes is het algemene gemiddelde.
• Standaarddeviatie van steekproefgemiddeldes lijkt hetzelfde te zijn als het standaarddeviaties
van de scores gedeeld door wortel n > hoe groter je steekproef, des te dichter komen de scores
bij elkaar te liggen.
Altijd geldt:
• Als populatie exact normaal verdeeld is, is het steekproefgemiddelde ook exact normaal
verdeeld.
• Als populatie niet normaal verdeeld is en n is groot, dan is steekproefgemiddelde ongeveer
normaal verdeeld.
Standaardfout
• Maat van spreiding tussen steekproefuitkomsten
• Dus: hoeveel spreiding is er tussen statistics als er heel vaak een steekproef genomen wordt.
• Blijkt bij gemiddelde samen te hangen met standaarddeviatie.
Dus: hoe groter je steekproef, hoe dichter steekproefuitkomsten bij elkaar komen te liggen.
COLLEGE 1B
• Schatten
o Puntschattingen
o Intervalschattingen
, ▪ Betrouwbaarheidsinterval voor proporties
▪ Betrouwbaarheidsinterval voor gemiddeldes
• T-verdeling vaak nodig in de praktijk
Hoofdstuk 5: Schatten
• Als je een steekproef trekt, vind je een bepaalde uitkomst (statistic)
o Gemiddelde lengte/proportie vrouwen bij studenten Bedrijfskunde
• De parameter kennen we echter niet.
• Dan moeten we de populatiewaarde (paramter) maar schattten.
• Twee soorten schatters:
o Puntschatting (point estimate)
o Intervalschatting (interval estimate)
• Puntschatting kan vanalles zijn: gemiddelde, mediaan, proportie, etc.
Hoe goed is je puntschatting?
Twee factoren die bepalen hoe goed je puntschatting is:
• Bias: structurele vertekening > ofwel een overschatting ofwel een onderschatting, door de
manier van opzetten van je onderzoek.
o Overlast: je zet een enquête online over overlast. Vaak vullen mensen die overlast
hebben dit in > overschatting.
o Mensen overschatten zichzelf, hun vaardigheden.
• Unbiased estimator: geen structurele vertekening als je het heel vaak zou herhalen.
• Biased estimator: structurele vertekening bij herhaling.
o Voorbeeld: range.
> In beide situaties: bij één steekproef wel over- of onderschatting mogelijk (maar niet
per se beide).
> Gemiddelde, proportie en standaarddeviatie (meestal) ‘unbiased’.
• Mate van variatie over steekproeven heen
Wat is een betrouwbaarheidsinterval?
• Basisidee: je wilt een interval maken waarvan je hoopt dat in 95 procent van de gevallen de
parameter in je steekproef ligt.
> Een C%-betrouwbaarheidsinterval dekt in C% (bijv. 95%) van de intervallen de parameter.
Alle blauwe lijntjes zijn intervallen. Als je heel vaak zo'n interval op zou stellen zou je in C%
van je intervallen de parameter hebben. In de praktijk heb je maar één lijntje.
• Interval staat voor allerlei uitkomsten.
Algemene vorm betrouwbaarheidsinterval:
• Puntschatting + foutenmarge
o Foutenmarge (margin of error) hangt af van percentage C, en van over welke
uitkomst je het hebt (gemiddelde, mediaan etc.)
5.2 Betrouwbaarheidsintervallen voor proporties
• Puntschatting (π met een dakje).
o π is werkelijke proportie in de populatie
o ^ staat voor ‘schatting’