Chapter 1: sampling distributie
Het verzamelen van gegevens is duur, dus we willen zo min mogelijk gegevens verzamelen
om conclusies te trekken over een grotere set.
Inferentiële statistieken: technieken voor het maken van verklaringen over een grotere
set waarnemingen uit gegevens die zijn verzameld voor een kleinere set waarneming.
Populatie: De grote set waarnemingen waarover we een verklaring willen afleggen.
De kleinere set wordt de sample genoemd. We willen de verklaring van de sample
generaliseren naar een verklaring over de populatie waaruit de steekproef is getrokken.
iek: een waarde die het kenmerk van de sample beschrijft. Bijvoorbeeld het aantal gele
snoepjes.
De sampling space: Alle mogelijke uitkomstscores van het sample statistiek. Bijvoorbeeld
de nummers 0 tot 10 van de aantal gele snoepjes in een zak.
- De sample statistiek wordt a genoemd, dit is een willekeurige variabele. Het is een
willekeurige variabele omdat verschillende samples verschillende scores kunnen
hebben. De willekeurige variabele hangt af van toeval.
Sommige statistische steekproefresultaten komen vaker voor dan anderen. We kunnen
hierachter komen door willekeurige steekproeven te trekken en de frequenties in een
tabel of grafiek te verzamelen.
Steekproevenverdeling: De verdeling van de uitkomstscores van heel veel samples.
- De steekproevenverdeling vertelt ons alle mogelijke samples die we hadden
kunnen trekken.
- We kunnen de steekproevenverdeling gebruiken om de kans te krijgen om
bijvoorbeeld een zak met precies 5 gele snoepjes te kopen. Je deelt dan het aantal
samples met 5 gele snoepjes door het totaal aantal samples dat je hebt getrokken:
26/1000=.026
Kansverdeling van de steekproefstatistiek: Een sampling space met een
waarschijnlijkheid (tussen 0 en 1) voor elke uitkomst van de steekproefstatistiek. We
hebben meestal meer interesse in kansen (waarschijnlijkheden), daarom hebben
steekproevenverdelingen meestal verhoudingen in plaats van frequenties op de verticale
as.
Discrete kansverdeling: Slechts een beperkt aantal uitkomsten zijn mogelijk. Het is dan
mogelijk om de kans van elke uitkomst afzonderlijk op te sommen.
,Is het aandeel gele snoepjes in de populatie 0,20 (20%)? Dan verwachten we dat 1 op de 5
snoepjes in een sample geel is. 1 op de 5 snoepjes of de populatieverhouding x het toale
aantal snoepjes = de verwachte waarde. Dit is 0.2 * 10 = 2,0.
De verwachte waarde: Het gemiddelde van de steekproevenverdeling van een
willekeurige variabele. Wordt ook wel de verwachting van een kansverdeling genoemd.
De verwachte waarde = gelijk aan de populatiestatistiek. Om deze reden is het steekproef
aandeel een onbevooroordeelde schatter van het aandeel in de populatie.
Sample statistiek is een onbevooroordeelde schatter van de populatiestatistiek als de
verwachte waarde gelijk is aan de populatiestatistiek.
De populatiestatistiek noemen we meestal een parameter.
- Niet alle sample statistieken zijn onbevooroordeelde schatters van de
populatiestatistiek. Als we bijvoorbeeld het aantal in de populatie (parameter)
zouden schatten op basis van het aantal in de steekproef -, schatten we dat er
twee gele snoepjes zijn in de populatie van alle snoepjes, omdat we er twee in
onze steekproef van tien snoepjes hebben. Dan gaan we het aantal onderschatten:
neerwaarts bevooroordeeld.
- Het aandeel snoepjes is daarentegen wel een onbevooroordeelde schatter van het
populatieaandeel. Daarom gebruiken we het aandeel gele snoepjes om te
generaliseren.
We verwachten dat een willekeurige steekproef lijkt op de populatie waaruit die is
getrokken.
Een sample is representatief voor de populatie als: variabelen in de sample op dezelfde
manier worden verdeeld als in de populatie.
– In strikte zin is een sample nooit volledig representatief, omdat het door toeval verschilt
van de populatie, maar we noemen het wel representatief in statistische zin van de
populatie.
Extra opmerkingen:
, - De steekproevenverdeling is een cruciale link tussen de sample en de populatie,
want de steekproevenverdeling is verbonden met de populatie (parameter). Het
gemiddelde gewicht van alle snoepjes is gelijk aan het gemiddelde in de
steekproevenverdeling. Aan de andere kant is het verbonden met de sample, want
het vertelt ons welke sample gemiddelden we krijgen met welke kansen.
Continue variabele: we kunnen altijd een nieuwe waarde bedenken tussen twee waarden.
Denk aan gewicht: 2,8 en 2,81 gram.
Continue sample statistiek: kans op 1 enkele waarde = 0
We zijn geïnteresseerd in het gemiddelde gewicht van alle snoepjes in onze sample, dus het
gemiddelde snoepgewicht is ons sample statistiek. We willen de kans weten om een sample
te tekenen met een gemiddeld snoepgewicht van 2,8 gram.
Het is echter zeer onwaarschijnlijk dat we een sample trekken met een gemiddeld
snoepgewicht van precies 2,8 gram, met een oneindig aantal nullen. Dan moeten we
samples uitsluiten met een gewicht van 2,800001 gram etc.
De kans op een bepaald sample is dus voor alle doeleinden nul.
Kansdichtheid bij continue sample statistiek
Met continue sample statistiek moeten we kijken naar een reeks waarden, in plaats van 1
enkele waarde. We kiezen een drempel, en bepalen de waarschijnlijkheid van waarden
boven of onder deze drempel. We kunnen ook twee drempels gebruiken: kans op een
gemiddeld snoepgewicht tussen 2,75 & 2,85 gram.
Waarschijnlijkheden/kansen moeten we weergeven als een gebied tussen de horizontale as
en een curve. Deze curve wordt a genoemd kansdichtheidsfunctie, in plaats van kans.
Het totale gebied onder deze curve is op 1 ingesteld, dus het gebied dat tot een reeks
sample uitkomsten behoort is 1 of minder.
De kansdichtheidsfunctie kan:
, De waarschijnlijkheid van waarden tussen twee drempel geven.
De waarschijnlijkheid geven van waarden tot (en inclusief) een drempelwaarde: kans
op links.
De waarschijnlijkheid van boven (en inclusief) een drempelwaarde: kans op rechts.
- In een nulhypothese significantietest worden deze rechter- en linker
waarschijnlijkheden gebruikt om p-waarden te berekenen.
Chapter II: Inferentiele statistiek
Hoorcollege 2: Kansmodellen
Probability models
Waarom hebben we die kansmodellen nodig?
We moeten een manier hebben om de steekproevenverdeling overbodig te maken, zodat
we dit niet helemaal hoeven te doen. Het trekken van zoveel samples kost namelijk te veel
moeite en tijd.
Welke methoden zijn er om die steekproevenverdeling te benaderen of misschien wel exact
te berekenen?
1. Exacte methode
- De exacte methode is geen benadering, maar een exacte berekening van de kansen.
De binomiale verdeling past hierbij.
- Een exacte benadering vermeldt en telt alle mogelijke combinaties. Dit kan alleen als
we werken met discrete of categorische variabelen.
- Exacte benaderingen zijn ook beschikbaar voor het verband tussen twee categorische
variabelen in een contingentietabel. zijn gele snoepjes vaker plakkerig dan rode
snoepjes? Als we dit willen onderzoeken, hebben we twee variabelen. De eerste
variabele is snoepkleur (geel versus rood) en de tweede variabele is plakkerig
(plakkerig versus niet plakkerig).
- Discrete variabelen hebben een beperkt aantal waarden, daarom kan de exacte
benadering worden toegepast. De exacte benadering is computerintensief.
Een voorbeeld: Je gooit 2 keer kop of munt. Je hebt dan de volgende mogelijke
uitkomsten om kop te gooien: