STATISTIEK 2
HC 2: KANSVERDELING
1. INLEIDING
We willen een populatieparameter kennen, maar we kunnen niet de volledige
populatie observeren.
Oplossing? Op basis van steekproefgegevens uitspraken trachten te doen
over een populatieparameter.
Statistische inferentie is het proces waarbij op basis van een steekproef
conclusies getrokken worden over een populatie, waarbij we de mate van
zekerheid van die conclusies expliciet kwantificeren.
2. KANSVERDELING
Binnen statistiek 2 gaan we aan de slag met een kansverdeling, deze lijkt op
een frequentieverdeling…
Frequentieverdeling is een verdeling die de geobserveerde realiteit
weergeeft.
Je kan een frequentieverdeling op verschillende manieren weergeven.
Voorbeeld: op basis van een histogram kan je bepalen hoe vaak een bepaalde
waarde voorkomt (frequentie) in de steekproef.
MAAR kansverdeling geeft een hypothetische realiteit weer.
Dit is de theoretische kans op het voorkomen van alle mogelijke waarden van
een variabele.
Deze hypothetische realiteit kan gekend zijn (zoals bij een dobbelsteen) of niet
(zoals scores op een examen).
2.1 KANSVERDELING GEKEND: DOBBELSTEEN
Stel dat we werpen met één dobbelsteen:
Mogelijke uitkomsten bij worp (X): 1, 2, 3, 4, 5 of 6
Alle mogelijke uitkomsten staat in het universum notatie:
Ω={ 1 ,2 , 3 , 4 , 5 , 6 } (alle mogelijke opties opsommen)
Eerlijke dobbelsteen kans op ieder uitkomst is gelijk
Aantal gunstige uitkomsten voor x
P(X = x i) =
totaal aantaluitkomsten∈ Ω
De kans dat je een bepaalde waarde gooit is steeds 1/6 (=P(probability))
1
P (x=1) = P(x=2) = P(x=3) = P(x=4) = P(x=5) = P(x=6) = = 0.17
6
Op basis van deze kennis kan je een kansverdeling opmaken voor het gooien
met één dobbelsteen
1
,De kans op een gebeurtenis wordt altijd uitgedrukt als een proportie of als een
percentage.
Een kans kan nooit kleiner zijn dan 0 of 0% en kan nooit groter zijn dan 1 of
100%
De kans is namelijk de verhouding tussen (teller) aantal gunstige uitkomsten
voor X en (noemer) totaal aantal uitkomsten, waarbij deze teller nooit groter kan
zijn dan deze noemer.
Proportie percentage = x 100
Percentage proportie = : 100
Stel dat we werpen met twee dobbelstenen:
Aantal gunstige uitkomsten voor x
P(X = x i) =
totaal aantaluitkomsten∈ Ω
De kans dat je bepaalde waardes gooit is niet meer gelijk!
Je kan een kansverdeling opmaken voor het gooien met twee dobbelstenen:
6 1
P(X = 7 ) ¿ ¿ =0.17
36 6
1
P(X = 2) ¿ ¿ 0.0 3
36
Het verschil tussen de hypothetische kansverdeling en de
frequentieverdeling van geobserveerde worpen wordt kleiner naarmate we
vaker werpen.
Heeft het
verleden invloed op toekomstige uitkomsten?
Elke worp blijft een onafhankelijke gebeurtenis. Een dobbelsteen heeft
geen geheugen.
De kans op een 3 bij twee dobbelstenen blijft 2/36, ongeacht het
verleden.
Enkel op lange termijn zal de relatieve frequentie steeds dichter bij de
theoretische kans komen (zie later Wet van de Grote Getallen). Op korte termijn
2
,is variabiliteit normaal: Je kunt een reeks resultaten krijgen die niet aansluit bij
de verwachte kans.
2.2 KANSVERDELING GEKEND: NORMERING
Bij dobbelstenen, munten, kansspelen, … zijn de kansverdelingen gekend.
Het is eerder uitzonderlijk dat we de kansverdeling van variabelen
theoretisch kunnen bepalen. Als de
kansverdeling gekend is dan is dat vaak
het gevolg van normering. Zij hebben
een gemodelleerde kansverdeling.
o IQ score
o MMPI-2
o Wechsler Memory Scale
o Big Five Personality Traits
o BDI-II
o …
Voorbeeld:
IQ score (WAIS)
Ruwe scores op de test worden getransformeerd zodat:
IQ ∼ N(100,15)
We kennen de kansverdeling omdat dit werd opgelegd bij de ontwikkeling van
de test.
2.3 KANSVERDELING GEKEND: CENTRUM EN SPREIDING
Omdat een kansverdeling, net als een frequentieverdeling, ook een verdeling is,
kunnen we ook een aantal centrummaten en spreidingsmaten berekenen.
Het gemiddelde van de kansverdeling of de verwachte waarde
De variantie en de standaarddeviatie van de kansverdeling
2.3.1 GEMIDDELDE VAN EEN KANSVERDELING
Het gemiddelde van een kansverdeling: Als we informatie hebben over de
kansen van bepaalde uitkomsten bij een steekproeftrekking, kunnen we de
verwachte waarde berekenen aan de hand van de algemene formule
(gelijkaardig aan gemiddelde bij de frequentietabel):
k
E ( X )=∑ x i ∙ P( X =x i)→ E ( X )=x 1 ∙ P ( X=x 1 ) + x 2 ∙ P ( X=x 2 ) +…+ x k ∙ P( x=x k )
i=1
Met:
x 1 , x 2 , … x k zijn de mogelijke waarden van X
P( X=x ¿¿ i)¿ is de bijbehorende kans op die waarde.
k
∑ xi is het sommatieteken, je leest dit als de som voor een bepaalde
i=1
bewerking van meetwaarde i= 1 tot de laatste meetwaarde k.
Voorbeeld:
We kunnen de verwachte waarde berekenen voor het gooien met 1 dobbelsteen
(= variabele X).
Het universum voor variabele X is Ω={ 1,2,3,4,5 , 6 } , we weten dus dat
wanneer we gooien we een van deze waarden als uitkomt gaan krijgen.
We kunnen de kans berekenen op elke mogelijke uitkomst
3
, Aantal gunstige uitkomsten voor x
P(X = x i) = , deze is voor elke uitkomst gelijk
totaal aantaluitkomsten∈Ω
namelijk 1/6.
Als we nu de formule invullen voor deze variabele (= gooien met 1 dobbelsteen)
dan krijgen we:
1 1 1 1 1 1
E ( X ) =1∙ +2 ∙ +3 ∙ + 4 ∙ +5 ∙ +6 ∙ =3.5
6 6 6 6 6 6
2.3.2 STANDAARDDEVIATIE VAN EEN KANSVERDELING
De variantie van een kansverdeling geeft informatie over de spreiding van de
kansen rond de verwachte waarde (= het gemiddelde van de kansverdeling),
net zoals een variantie bij een frequentieverdeling informatie geeft over de
spreiding van de observaties rond het gemiddelde.
k
σ x =∑ P( X=x ¿¿ i) ( x i - μ x ) =P( X=x ¿¿ 1) ( x 1 - μ x ) + P( X=x ¿¿ 2) ( x 2 - μ x ) + …+ P(X =x ¿¿ k ) ( x k - μ x ) ¿
2 2 2 2 2
i=1
Met:
x 1 , x 2 , … x k is de mogelijke waarden van variabele X
µx wordt hier gebruikt als symbool voor je verwachte waarde E(X)
P voor de kans dat deze waarde voorkomt.
De standaarddeviatie van een kansverdeling geeft informatie over de spreiding
van de kansen rond de verwachte waarde (= het gemiddelde van de
kansverdeling).
De standaarddeviatie bekomen we adhv de vierkantswortel uit deze variantie:
σ =√ σ x
²
Voorbeeld:
We kunnen de spreiding van de kansen rond de verwachte waarde berekenen
voor het gooien met 1 dobbelsteen (= variabele X).
k
σ =∑ P( X=x ¿¿ i) ( x i - μ x ) ¿
2 2
x
i=1
1
Met P ( X =xi ) = en μ x =3.5
6
Variantie:
1 1 1 1 1 +1
σ ² x = ∙ ( 1−3.5 )2+ ∙ ( 2−3.5 )2+ ¿ ∙ ( 3−3.5 )2+ ∙ ( 4−3.5 )2+ ∙ (5−3.5 )2 ∙ ( 6−3.5 )2 =2.92
6 6 6 6 6 6
Standaarddeviatie
σ x =√ σ ² x → σ x =√ 2.92=1.71
2.4 KANSVERDELINGEN: KANSVERDELING ONGEKEND
Bij dobbelstenen (en andere kansmechanismen) is de verdeling gekend.
Bij vele bestaande (psychologische) testen is de kansverdeling
genormeerd (niet intrinsiek gekend).
Deze situatie is uitzonderlijk. Bij heel wat onderzoeksvragen kennen we a
priori de kansverdeling in de onderzochte populatie niet.
Voorbeelden met IQ:
Wat is de verdeling van IQ bij toegepaste psychologie?
Is het IQ van leerlingen in Steinerscholen hoger dan reguliere scholen?
4
HC 2: KANSVERDELING
1. INLEIDING
We willen een populatieparameter kennen, maar we kunnen niet de volledige
populatie observeren.
Oplossing? Op basis van steekproefgegevens uitspraken trachten te doen
over een populatieparameter.
Statistische inferentie is het proces waarbij op basis van een steekproef
conclusies getrokken worden over een populatie, waarbij we de mate van
zekerheid van die conclusies expliciet kwantificeren.
2. KANSVERDELING
Binnen statistiek 2 gaan we aan de slag met een kansverdeling, deze lijkt op
een frequentieverdeling…
Frequentieverdeling is een verdeling die de geobserveerde realiteit
weergeeft.
Je kan een frequentieverdeling op verschillende manieren weergeven.
Voorbeeld: op basis van een histogram kan je bepalen hoe vaak een bepaalde
waarde voorkomt (frequentie) in de steekproef.
MAAR kansverdeling geeft een hypothetische realiteit weer.
Dit is de theoretische kans op het voorkomen van alle mogelijke waarden van
een variabele.
Deze hypothetische realiteit kan gekend zijn (zoals bij een dobbelsteen) of niet
(zoals scores op een examen).
2.1 KANSVERDELING GEKEND: DOBBELSTEEN
Stel dat we werpen met één dobbelsteen:
Mogelijke uitkomsten bij worp (X): 1, 2, 3, 4, 5 of 6
Alle mogelijke uitkomsten staat in het universum notatie:
Ω={ 1 ,2 , 3 , 4 , 5 , 6 } (alle mogelijke opties opsommen)
Eerlijke dobbelsteen kans op ieder uitkomst is gelijk
Aantal gunstige uitkomsten voor x
P(X = x i) =
totaal aantaluitkomsten∈ Ω
De kans dat je een bepaalde waarde gooit is steeds 1/6 (=P(probability))
1
P (x=1) = P(x=2) = P(x=3) = P(x=4) = P(x=5) = P(x=6) = = 0.17
6
Op basis van deze kennis kan je een kansverdeling opmaken voor het gooien
met één dobbelsteen
1
,De kans op een gebeurtenis wordt altijd uitgedrukt als een proportie of als een
percentage.
Een kans kan nooit kleiner zijn dan 0 of 0% en kan nooit groter zijn dan 1 of
100%
De kans is namelijk de verhouding tussen (teller) aantal gunstige uitkomsten
voor X en (noemer) totaal aantal uitkomsten, waarbij deze teller nooit groter kan
zijn dan deze noemer.
Proportie percentage = x 100
Percentage proportie = : 100
Stel dat we werpen met twee dobbelstenen:
Aantal gunstige uitkomsten voor x
P(X = x i) =
totaal aantaluitkomsten∈ Ω
De kans dat je bepaalde waardes gooit is niet meer gelijk!
Je kan een kansverdeling opmaken voor het gooien met twee dobbelstenen:
6 1
P(X = 7 ) ¿ ¿ =0.17
36 6
1
P(X = 2) ¿ ¿ 0.0 3
36
Het verschil tussen de hypothetische kansverdeling en de
frequentieverdeling van geobserveerde worpen wordt kleiner naarmate we
vaker werpen.
Heeft het
verleden invloed op toekomstige uitkomsten?
Elke worp blijft een onafhankelijke gebeurtenis. Een dobbelsteen heeft
geen geheugen.
De kans op een 3 bij twee dobbelstenen blijft 2/36, ongeacht het
verleden.
Enkel op lange termijn zal de relatieve frequentie steeds dichter bij de
theoretische kans komen (zie later Wet van de Grote Getallen). Op korte termijn
2
,is variabiliteit normaal: Je kunt een reeks resultaten krijgen die niet aansluit bij
de verwachte kans.
2.2 KANSVERDELING GEKEND: NORMERING
Bij dobbelstenen, munten, kansspelen, … zijn de kansverdelingen gekend.
Het is eerder uitzonderlijk dat we de kansverdeling van variabelen
theoretisch kunnen bepalen. Als de
kansverdeling gekend is dan is dat vaak
het gevolg van normering. Zij hebben
een gemodelleerde kansverdeling.
o IQ score
o MMPI-2
o Wechsler Memory Scale
o Big Five Personality Traits
o BDI-II
o …
Voorbeeld:
IQ score (WAIS)
Ruwe scores op de test worden getransformeerd zodat:
IQ ∼ N(100,15)
We kennen de kansverdeling omdat dit werd opgelegd bij de ontwikkeling van
de test.
2.3 KANSVERDELING GEKEND: CENTRUM EN SPREIDING
Omdat een kansverdeling, net als een frequentieverdeling, ook een verdeling is,
kunnen we ook een aantal centrummaten en spreidingsmaten berekenen.
Het gemiddelde van de kansverdeling of de verwachte waarde
De variantie en de standaarddeviatie van de kansverdeling
2.3.1 GEMIDDELDE VAN EEN KANSVERDELING
Het gemiddelde van een kansverdeling: Als we informatie hebben over de
kansen van bepaalde uitkomsten bij een steekproeftrekking, kunnen we de
verwachte waarde berekenen aan de hand van de algemene formule
(gelijkaardig aan gemiddelde bij de frequentietabel):
k
E ( X )=∑ x i ∙ P( X =x i)→ E ( X )=x 1 ∙ P ( X=x 1 ) + x 2 ∙ P ( X=x 2 ) +…+ x k ∙ P( x=x k )
i=1
Met:
x 1 , x 2 , … x k zijn de mogelijke waarden van X
P( X=x ¿¿ i)¿ is de bijbehorende kans op die waarde.
k
∑ xi is het sommatieteken, je leest dit als de som voor een bepaalde
i=1
bewerking van meetwaarde i= 1 tot de laatste meetwaarde k.
Voorbeeld:
We kunnen de verwachte waarde berekenen voor het gooien met 1 dobbelsteen
(= variabele X).
Het universum voor variabele X is Ω={ 1,2,3,4,5 , 6 } , we weten dus dat
wanneer we gooien we een van deze waarden als uitkomt gaan krijgen.
We kunnen de kans berekenen op elke mogelijke uitkomst
3
, Aantal gunstige uitkomsten voor x
P(X = x i) = , deze is voor elke uitkomst gelijk
totaal aantaluitkomsten∈Ω
namelijk 1/6.
Als we nu de formule invullen voor deze variabele (= gooien met 1 dobbelsteen)
dan krijgen we:
1 1 1 1 1 1
E ( X ) =1∙ +2 ∙ +3 ∙ + 4 ∙ +5 ∙ +6 ∙ =3.5
6 6 6 6 6 6
2.3.2 STANDAARDDEVIATIE VAN EEN KANSVERDELING
De variantie van een kansverdeling geeft informatie over de spreiding van de
kansen rond de verwachte waarde (= het gemiddelde van de kansverdeling),
net zoals een variantie bij een frequentieverdeling informatie geeft over de
spreiding van de observaties rond het gemiddelde.
k
σ x =∑ P( X=x ¿¿ i) ( x i - μ x ) =P( X=x ¿¿ 1) ( x 1 - μ x ) + P( X=x ¿¿ 2) ( x 2 - μ x ) + …+ P(X =x ¿¿ k ) ( x k - μ x ) ¿
2 2 2 2 2
i=1
Met:
x 1 , x 2 , … x k is de mogelijke waarden van variabele X
µx wordt hier gebruikt als symbool voor je verwachte waarde E(X)
P voor de kans dat deze waarde voorkomt.
De standaarddeviatie van een kansverdeling geeft informatie over de spreiding
van de kansen rond de verwachte waarde (= het gemiddelde van de
kansverdeling).
De standaarddeviatie bekomen we adhv de vierkantswortel uit deze variantie:
σ =√ σ x
²
Voorbeeld:
We kunnen de spreiding van de kansen rond de verwachte waarde berekenen
voor het gooien met 1 dobbelsteen (= variabele X).
k
σ =∑ P( X=x ¿¿ i) ( x i - μ x ) ¿
2 2
x
i=1
1
Met P ( X =xi ) = en μ x =3.5
6
Variantie:
1 1 1 1 1 +1
σ ² x = ∙ ( 1−3.5 )2+ ∙ ( 2−3.5 )2+ ¿ ∙ ( 3−3.5 )2+ ∙ ( 4−3.5 )2+ ∙ (5−3.5 )2 ∙ ( 6−3.5 )2 =2.92
6 6 6 6 6 6
Standaarddeviatie
σ x =√ σ ² x → σ x =√ 2.92=1.71
2.4 KANSVERDELINGEN: KANSVERDELING ONGEKEND
Bij dobbelstenen (en andere kansmechanismen) is de verdeling gekend.
Bij vele bestaande (psychologische) testen is de kansverdeling
genormeerd (niet intrinsiek gekend).
Deze situatie is uitzonderlijk. Bij heel wat onderzoeksvragen kennen we a
priori de kansverdeling in de onderzochte populatie niet.
Voorbeelden met IQ:
Wat is de verdeling van IQ bij toegepaste psychologie?
Is het IQ van leerlingen in Steinerscholen hoger dan reguliere scholen?
4