Aantekeningen statistische modellen 1
Mailen;
We kunnen vaak niet de hele populatie ondervragen, en daarom trekken we een steekproef. Veel
onderzoek is gebaseerd op een steekproef. Vaak worden er wel uitspraken gedaan over de populatie
op basis van de steekproef.
Populatiegemiddelde = µ
Het populatiegemiddelde is altijd onbekend, maar we kunnen er wel iets over zeggen aan de hand
van het gemiddelde van de steekproef ӯ.
Parameter = numerieke samenvatting van een bepaalde eigenschap in de populatie
Steekproef = numerieke samenvatting van een bepaalde eigenschap in de steekproef
Als onderzoeker moet je ervoor zorgen dat de steekproef representatief is voor de hele populatie;
kunnen de steekproefresultaten wel vergeleken worden met de verwachte waardes van de
parameter? Het is het beste om te kiezen voor een aselecte steekproef, dat is vrijwel altijd beter dan
een steekproef die niet willekeurig gekozen is. In het boek wordt er vaak vanuit gegaan dat er een
willekeurige steekproef is gebruikt, maar in de praktijk is dit vaak niet zo (praktische overwegingen).
Als de steekproef niet willekeurig is, moet je je afvragen voor welke populatie je steekproef nou
eigenlijk representaties is.
Een kansenverdeling geeft aan wat er op de lange termijn gebeurt en stelt de vraag; wat gebeurt er
als je heel vaak een steekproef trekt? Een steekproevenverdeling is de verdeling die we krijgen als we
heel vaak een steekproef zouden trekken. Vaak komen verschillende steekproeven toch op net
andere uitkomsten uit. Een steekproevenverdeling is een hypothetisch iets, in de praktijk trekken we
niet oneindig aantal steekproeven; meestal wordt er slechts één steekproef getrokken.
Het gemiddelde van de steekproevenverdeling is altijd gelijk aan het populatiegemiddelde.
Je kan een steekproevenverdeling ook opstellen aan de hand van een proportie. Dan kan je een
verdeling maken van de percentages.
De statistiek is vrijwel altijd ongelijk aan de populatieparameter, maar
vaak is dat niet erg. De mate van onzekerheid kunnen we aangeven in
betrouwbaarheidsinterval.
Een steekproevenverdeling kan opgesteld worden aan de hand van alle
statistieken, vaak gebeurt het voor het gemiddelde maar het kan ook voor
bijvoorbeeld de correlatie
,De steekproevenverdeling:
- Gemiddelde is gelijk aan de parameter
- De steekproevengemiddeldes variëren minder dan de scores binnen de populatie
- Verdeling van de steekproevenverdeling is meer normaal dan de scores in de populatie
De standaardfout en dus ook de variantie van de steekproevenverdeling, zijn kleiner dan die
van de populatieverdeling.
Hoe groter n, hoe meer de steekproevenverdeling gaat lijken op een normale verdeling
centrale limietstelling.
Als de populatie exact normaal verdeeld is, is de steekproevenverdeling dit ook
Het gemiddelde van de steekproevenverdeling is gelijk aan het gemiddelde van de populatie
De standaarddeviatie van de steekproevenverdeling is gelijk aan de populatie standaarddeviatie
gedeeld door de wortel van n:
De spreiding in de steekproevenverdeling heet ook wel de standaardfout. De standaarddeviatie is de
spreiding binnen één steekproef of binnen de populatie. :
De standaardfout hangt samen met de standaarddeviatie van de populatie bij gemiddelden:
De steekproevenverdeling is er vooral om je inzicht te geven in hoe bijzonder jouw
steekproefuitkomst is. Het geeft ons de mogelijkheid om de gevonden uitkomst te vergelijken met
alle mogelijke uitkomsten.
Alles wat we doen in steekproeven zijn schattingen van parameters. De waarde van de parameter
kunnen we op twee manieren schatten:
1. Puntschatting je geeft één waarde voor de schatting van de parameter
2. Intervalschatting je hebt een interval aan waardes waarop de verwachte parameter ligt
Unbiased schatter geen structurele vertekening als we heel vaak een steekproef zouden trekken.
Biased er is structureel een hogere of lagere schatting.
, Hoorcollege 2 – betrouwbaarheidsintervallen
Het betrouwbaarheidsinterval is een vorm van een intervalschatting. De parameter is onbekend, om
die te kunnen schatten is er een statistiek nodig. Als we meer informatie willen hebben dan een
puntschatting, dan kunnen we een intervalschatting gebruiken. De intervalschatting geeft een
schatting van waar de parameter ongeveer zou kunnen liggen.
Het betrouwbaarheidsinterval:
- Een interval rondom de puntschatting
- In c% van de gevallen dekt het betrouwbaarheidsinterval de parameter; als je heel vaak zo’n
interval op zou stellen zou je in c% van je intervallen de parameter hebben
Om een betrouwbaarheidsinterval op te zetten, heb je ook de steekproevenverdeling nodig. Wanneer
we weten wat er gebeurt als we heel vaak een steekproef zouden trekken, dan kunnen we afleiden
hoe dicht de schatting van de steekproef bij de parameter ligt. De meeste waardes liggen niet meer
dan twee standaardfouten af van de parameter. Het grootste gedeelte van de statistieken ligt niet
meer dan twee standaardfouten van de parameter af.
Dit gegeven kunnen we ook omdraaien; wanneer we weten dat 95% van de statistieken niet verder
dan twee standaardfouten van de parameter afligt, dan ligt de parameter in 95% van de gevallen dus
niet verder dan 2 standaardfouten van de statistiek. Dit wil zeggen dat de afstand van de statistiek tot
de parameter dus hetzelfde is als de afstand van de parameter tot de statistiek. Als we gebruik maken
van dit gegeven zien we dat 95% van de intervallen de parameter bevat.
Betrouwbaarheidsinterval =puntschatting ± foutenmarge (margin of error)
De margin of error is afhankelijk van het betrouwbaarheidslevel dat we kiezen (bijv. 95%) en van de
uitkomst (gemiddelde, mediaan e.d.). Margin of error (M) = z-score * standaardfout.
Betrouwbaarheidsinterval voor een proportie:
De z-score kunnen we afleiden aan de hand van de steekproevenverdeling. We gaan opzoek naar de
middelste 95% van de scores. Aan de linker kant en aan de rechter kant van de z waarde moet dus
allebei 2,5% zitten. De z waarde is afhankelijk van de c%. We moeten dus opzoek naar de z waarde die
hoort bij 0,025 (want 2,5%), dit doen we aan de hand van tabel A. De normale verdeling is
symmetrisch, dus de kans voor de bovengrens is 1,96 en voor de ondergrens dus -1,96. De
steekproevenverdeling voor een proportie is ongeveer normaal verdeeld.
- Π = populatieproportie
- Pi dakje = schatting van de populatieproportie (o.b.v. steekproef) =puntschatting
De steekproefproportie ligt altijd op het interval! De populatieproportie niet altijd maar wel vaak.
Als n groter wordt, wordt het betrouwbaarheidsinterval smaller. Als het c% level groter wordt, wordt
het interval breder. Als je kiest voor 100% bhi, dan krijg je zo’n breed interval dat je er niet meer
zoveel aan hebt.
Mailen;
We kunnen vaak niet de hele populatie ondervragen, en daarom trekken we een steekproef. Veel
onderzoek is gebaseerd op een steekproef. Vaak worden er wel uitspraken gedaan over de populatie
op basis van de steekproef.
Populatiegemiddelde = µ
Het populatiegemiddelde is altijd onbekend, maar we kunnen er wel iets over zeggen aan de hand
van het gemiddelde van de steekproef ӯ.
Parameter = numerieke samenvatting van een bepaalde eigenschap in de populatie
Steekproef = numerieke samenvatting van een bepaalde eigenschap in de steekproef
Als onderzoeker moet je ervoor zorgen dat de steekproef representatief is voor de hele populatie;
kunnen de steekproefresultaten wel vergeleken worden met de verwachte waardes van de
parameter? Het is het beste om te kiezen voor een aselecte steekproef, dat is vrijwel altijd beter dan
een steekproef die niet willekeurig gekozen is. In het boek wordt er vaak vanuit gegaan dat er een
willekeurige steekproef is gebruikt, maar in de praktijk is dit vaak niet zo (praktische overwegingen).
Als de steekproef niet willekeurig is, moet je je afvragen voor welke populatie je steekproef nou
eigenlijk representaties is.
Een kansenverdeling geeft aan wat er op de lange termijn gebeurt en stelt de vraag; wat gebeurt er
als je heel vaak een steekproef trekt? Een steekproevenverdeling is de verdeling die we krijgen als we
heel vaak een steekproef zouden trekken. Vaak komen verschillende steekproeven toch op net
andere uitkomsten uit. Een steekproevenverdeling is een hypothetisch iets, in de praktijk trekken we
niet oneindig aantal steekproeven; meestal wordt er slechts één steekproef getrokken.
Het gemiddelde van de steekproevenverdeling is altijd gelijk aan het populatiegemiddelde.
Je kan een steekproevenverdeling ook opstellen aan de hand van een proportie. Dan kan je een
verdeling maken van de percentages.
De statistiek is vrijwel altijd ongelijk aan de populatieparameter, maar
vaak is dat niet erg. De mate van onzekerheid kunnen we aangeven in
betrouwbaarheidsinterval.
Een steekproevenverdeling kan opgesteld worden aan de hand van alle
statistieken, vaak gebeurt het voor het gemiddelde maar het kan ook voor
bijvoorbeeld de correlatie
,De steekproevenverdeling:
- Gemiddelde is gelijk aan de parameter
- De steekproevengemiddeldes variëren minder dan de scores binnen de populatie
- Verdeling van de steekproevenverdeling is meer normaal dan de scores in de populatie
De standaardfout en dus ook de variantie van de steekproevenverdeling, zijn kleiner dan die
van de populatieverdeling.
Hoe groter n, hoe meer de steekproevenverdeling gaat lijken op een normale verdeling
centrale limietstelling.
Als de populatie exact normaal verdeeld is, is de steekproevenverdeling dit ook
Het gemiddelde van de steekproevenverdeling is gelijk aan het gemiddelde van de populatie
De standaarddeviatie van de steekproevenverdeling is gelijk aan de populatie standaarddeviatie
gedeeld door de wortel van n:
De spreiding in de steekproevenverdeling heet ook wel de standaardfout. De standaarddeviatie is de
spreiding binnen één steekproef of binnen de populatie. :
De standaardfout hangt samen met de standaarddeviatie van de populatie bij gemiddelden:
De steekproevenverdeling is er vooral om je inzicht te geven in hoe bijzonder jouw
steekproefuitkomst is. Het geeft ons de mogelijkheid om de gevonden uitkomst te vergelijken met
alle mogelijke uitkomsten.
Alles wat we doen in steekproeven zijn schattingen van parameters. De waarde van de parameter
kunnen we op twee manieren schatten:
1. Puntschatting je geeft één waarde voor de schatting van de parameter
2. Intervalschatting je hebt een interval aan waardes waarop de verwachte parameter ligt
Unbiased schatter geen structurele vertekening als we heel vaak een steekproef zouden trekken.
Biased er is structureel een hogere of lagere schatting.
, Hoorcollege 2 – betrouwbaarheidsintervallen
Het betrouwbaarheidsinterval is een vorm van een intervalschatting. De parameter is onbekend, om
die te kunnen schatten is er een statistiek nodig. Als we meer informatie willen hebben dan een
puntschatting, dan kunnen we een intervalschatting gebruiken. De intervalschatting geeft een
schatting van waar de parameter ongeveer zou kunnen liggen.
Het betrouwbaarheidsinterval:
- Een interval rondom de puntschatting
- In c% van de gevallen dekt het betrouwbaarheidsinterval de parameter; als je heel vaak zo’n
interval op zou stellen zou je in c% van je intervallen de parameter hebben
Om een betrouwbaarheidsinterval op te zetten, heb je ook de steekproevenverdeling nodig. Wanneer
we weten wat er gebeurt als we heel vaak een steekproef zouden trekken, dan kunnen we afleiden
hoe dicht de schatting van de steekproef bij de parameter ligt. De meeste waardes liggen niet meer
dan twee standaardfouten af van de parameter. Het grootste gedeelte van de statistieken ligt niet
meer dan twee standaardfouten van de parameter af.
Dit gegeven kunnen we ook omdraaien; wanneer we weten dat 95% van de statistieken niet verder
dan twee standaardfouten van de parameter afligt, dan ligt de parameter in 95% van de gevallen dus
niet verder dan 2 standaardfouten van de statistiek. Dit wil zeggen dat de afstand van de statistiek tot
de parameter dus hetzelfde is als de afstand van de parameter tot de statistiek. Als we gebruik maken
van dit gegeven zien we dat 95% van de intervallen de parameter bevat.
Betrouwbaarheidsinterval =puntschatting ± foutenmarge (margin of error)
De margin of error is afhankelijk van het betrouwbaarheidslevel dat we kiezen (bijv. 95%) en van de
uitkomst (gemiddelde, mediaan e.d.). Margin of error (M) = z-score * standaardfout.
Betrouwbaarheidsinterval voor een proportie:
De z-score kunnen we afleiden aan de hand van de steekproevenverdeling. We gaan opzoek naar de
middelste 95% van de scores. Aan de linker kant en aan de rechter kant van de z waarde moet dus
allebei 2,5% zitten. De z waarde is afhankelijk van de c%. We moeten dus opzoek naar de z waarde die
hoort bij 0,025 (want 2,5%), dit doen we aan de hand van tabel A. De normale verdeling is
symmetrisch, dus de kans voor de bovengrens is 1,96 en voor de ondergrens dus -1,96. De
steekproevenverdeling voor een proportie is ongeveer normaal verdeeld.
- Π = populatieproportie
- Pi dakje = schatting van de populatieproportie (o.b.v. steekproef) =puntschatting
De steekproefproportie ligt altijd op het interval! De populatieproportie niet altijd maar wel vaak.
Als n groter wordt, wordt het betrouwbaarheidsinterval smaller. Als het c% level groter wordt, wordt
het interval breder. Als je kiest voor 100% bhi, dan krijg je zo’n breed interval dat je er niet meer
zoveel aan hebt.