Samenvatting Statistiek 1
Week 1
Meetniveaus
• Nominaal = wordt gebruikt bij categorische data zonder volgorde.
Bijvoorbeeld: wat het favoriete huisdier van mensen is of hoeveel mannen en
vrouwen er zijn. De volgorde van de categorie maakt niks uit.
• Ordinaal = wordt gebruikt bij categorische data met een volgorde.
Bijvoorbeeld: wie er 1e, 2e, 3e en 4e zijn geworden bij een race, hierbij maakt
de volgorde van de categorie dus wel uit.
• Interval = wordt gebruikt bij data met gelijke intervallen tussen de categorieën.
Bijvoorbeeld: bij tijd is 20 minuten twee keer zo lang als 10 minuten en 6
minuten is zes keer zo langs als een minuut. Dat kunnen we zeggen omdat dit
data is met gelijke intervallen.
• Ratio = wordt gebruikt bij data met gelijke intervallen tussen de categorieën
en een betekenisvol nulpunt.
Bijvoorbeeld: hoeveel kinderen iemand heeft is van het meetniveau ratio
omdat iemand ook 0 kinderen kan hebben en 6 kinderen is twee keer zoveel
als 3 kinderen. Je kan niet minder dan 0 kinderen hebben.
Frequentieverdeling en kans
• Frequentieverdeling (histogram) = grafiek met waardes van uitkomsten op
x-as en frequentie op y-as. Bijvoorbeeld een grafiek van hoe vaak een leeftijd
voorkomt.
• Er zijn diverse frequentieverdelingen:
- Uniforme verdeling: alle uitkomsten komen even vaak voor.
- Unimodale verdeling: normaalverdeling (één piek).
- Bimodale verdeling: twee pieken.
- Multimodale verdeling: meerdere pieken.
Standaardnormaal verdeling
• Er bestaat maar 1 standaardnormaal verdeling (z-verdeling) en heeft een
gemiddelde van 0 en een SD van 1.
• In een normaalverdeling liggen de meeste uitkomsten in de buurt van het
gemiddelde.
• Normaalverdeling is een unimodale verdeling, het gemiddelde is gelijk aan de
mediaan en de modus.
• Bij een normale verdeling ligt 95% van de uitkomsten tussen -1,96 en +1,96
standaarddeviaties van het gemiddelde.
• Verder ligt 68% van de uitkomsten tussen -1 en 1 SD en ongeveer 100%
tussen -3 en 3.
• Z-score = aantal standaarddeviatie units boven of onder het gemiddelde, een
z-score van 1,6 zegt bijvoorbeeld dat je 1,6 standaardafwijkingen boven het
gemiddelde zit.
Z = (uitkomst – gemiddelde) / standaarddeviatie
,Normaliteit controleren
• De dataverdeling bepaalt welke centrummaat een goede afspiegeling geeft
van de data.
• Skewness = maat voor scheefheid. Een positieve skewness betekent een
grafiek met een staart aan de rechterkant, een negatieve skewness betekent
een grafiek met een staart aan de linkerkant.
• Wanneer de skewness groter is dan 1 of kleiner is dan -1 is de verdeling niet
normaal verdeeld.
• Kurtosis = maat voor platheid. Een positieve kurtosis betekent dat de grafiek
leptokurtisch verdeeld is en dat er dus weinig data in de staarten van de
verdeling zit. Een negatieve kurtosis betekent dat de grafiek platykurtisch
verdeeld is en dat er dus veel data in de staarten van de verdeling zit.
• Wanneer kurtosis waarde groter is dan 1 of kleiner is dan -1 is de verdeling
niet normaal verdeeld.
Populatie en steekproef (toetsende statistiek)
• Om iets te weten te komen over een populatie nemen we een steekproef.
• Steekproef wordt getrokken op basis van toeval, een aselecte steekproef.
• Onderscheid tussen populatie en steekproef is belangrijk, in een onderzoek is
de populatie meestal onbekend, maar de steekproef data is wel bekend.
• Daarom worden verschillende symbolen gebruikt voor parameters bij de
populatie en kengetallen bij de steekproef.
• Steekproef resultaat komt deels tot stand door toeval, als we een nieuwe
steekproef uit de populatie trekken zal deze net wat andere waarden geven
voor gemiddelde en standaarddeviatie.
• Er bestaat dus variatie in steekproefgemiddelden door toeval, gemiddelde van
populatie staat wel vast.
• Op basis van steekproefdata maken we dus een schatting over de populatie.
• Het probleem is dat er altijd “random ruis” is die kan zorgen voor de beleving
dat er een patroon in de populatie is terwijl de meetuitkomst slechts het
resultaat van toeval is.
• Er is wel een voorwaarde dat de steekproef aselect en betrouwbaar is, dus
alle elementen uit de populatie hebben gelijke kans om in de steekproef te
komen. Toch blijft toeval altijd een rol spelen in onderzoek met aselecte
steekproeven.
, Steekproeven en kansuitspraken
• Met steekproefresultaten kun je kansuitspraken doen over hypotheses, omdat
sommige uitkomsten waarschijnlijker zijn dan andere.
• Hier maken we gebruik van bij toetsende statistiek, we berekenen hoe
waarschijnlijk bepaalde uitkomsten zijn onder de aanname dat H0 waar is.
• Deze waarschijnlijkheid wordt gevat met de p-waarde, een uitkomst die heel
onwaarschijnlijk is heeft een lage p-waarde en een uitkomst die heel
waarschijnlijk is heeft een hoge p-waarde.
• Als de p-waarde onder een besliscriterium valt, verwerpen we de H0
hypothese.
Hypothese
• Met een hypothese doe je een uitspraak over de populatie, vaak een
voorspelling van een parameter in de populatie.
• Nulhypothese (H0) kent meestal de vorm: “er is geen effect”, alleen toeval
zorgt voor verschil.
• Alternatieve-/onderzoekshypothese kent meestal de vorm: “er is een effect”,
oftewel het verschil in resultaat tussen groepen is niet 0.
• De nulhypothese proberen we met onze statistische toets op het steekproef
resultaat te verwerpen, in dat geval wordt de alternatieve hypothese
aangenomen.
• Een eenzijdige toets gebruik je als je al een bepaalde verwachting over een
bepaalde groep hebt.
• Een tweezijdige toets gebruik je om te kijken of er een verschil is tussen twee
groepen.
Week 1
Meetniveaus
• Nominaal = wordt gebruikt bij categorische data zonder volgorde.
Bijvoorbeeld: wat het favoriete huisdier van mensen is of hoeveel mannen en
vrouwen er zijn. De volgorde van de categorie maakt niks uit.
• Ordinaal = wordt gebruikt bij categorische data met een volgorde.
Bijvoorbeeld: wie er 1e, 2e, 3e en 4e zijn geworden bij een race, hierbij maakt
de volgorde van de categorie dus wel uit.
• Interval = wordt gebruikt bij data met gelijke intervallen tussen de categorieën.
Bijvoorbeeld: bij tijd is 20 minuten twee keer zo lang als 10 minuten en 6
minuten is zes keer zo langs als een minuut. Dat kunnen we zeggen omdat dit
data is met gelijke intervallen.
• Ratio = wordt gebruikt bij data met gelijke intervallen tussen de categorieën
en een betekenisvol nulpunt.
Bijvoorbeeld: hoeveel kinderen iemand heeft is van het meetniveau ratio
omdat iemand ook 0 kinderen kan hebben en 6 kinderen is twee keer zoveel
als 3 kinderen. Je kan niet minder dan 0 kinderen hebben.
Frequentieverdeling en kans
• Frequentieverdeling (histogram) = grafiek met waardes van uitkomsten op
x-as en frequentie op y-as. Bijvoorbeeld een grafiek van hoe vaak een leeftijd
voorkomt.
• Er zijn diverse frequentieverdelingen:
- Uniforme verdeling: alle uitkomsten komen even vaak voor.
- Unimodale verdeling: normaalverdeling (één piek).
- Bimodale verdeling: twee pieken.
- Multimodale verdeling: meerdere pieken.
Standaardnormaal verdeling
• Er bestaat maar 1 standaardnormaal verdeling (z-verdeling) en heeft een
gemiddelde van 0 en een SD van 1.
• In een normaalverdeling liggen de meeste uitkomsten in de buurt van het
gemiddelde.
• Normaalverdeling is een unimodale verdeling, het gemiddelde is gelijk aan de
mediaan en de modus.
• Bij een normale verdeling ligt 95% van de uitkomsten tussen -1,96 en +1,96
standaarddeviaties van het gemiddelde.
• Verder ligt 68% van de uitkomsten tussen -1 en 1 SD en ongeveer 100%
tussen -3 en 3.
• Z-score = aantal standaarddeviatie units boven of onder het gemiddelde, een
z-score van 1,6 zegt bijvoorbeeld dat je 1,6 standaardafwijkingen boven het
gemiddelde zit.
Z = (uitkomst – gemiddelde) / standaarddeviatie
,Normaliteit controleren
• De dataverdeling bepaalt welke centrummaat een goede afspiegeling geeft
van de data.
• Skewness = maat voor scheefheid. Een positieve skewness betekent een
grafiek met een staart aan de rechterkant, een negatieve skewness betekent
een grafiek met een staart aan de linkerkant.
• Wanneer de skewness groter is dan 1 of kleiner is dan -1 is de verdeling niet
normaal verdeeld.
• Kurtosis = maat voor platheid. Een positieve kurtosis betekent dat de grafiek
leptokurtisch verdeeld is en dat er dus weinig data in de staarten van de
verdeling zit. Een negatieve kurtosis betekent dat de grafiek platykurtisch
verdeeld is en dat er dus veel data in de staarten van de verdeling zit.
• Wanneer kurtosis waarde groter is dan 1 of kleiner is dan -1 is de verdeling
niet normaal verdeeld.
Populatie en steekproef (toetsende statistiek)
• Om iets te weten te komen over een populatie nemen we een steekproef.
• Steekproef wordt getrokken op basis van toeval, een aselecte steekproef.
• Onderscheid tussen populatie en steekproef is belangrijk, in een onderzoek is
de populatie meestal onbekend, maar de steekproef data is wel bekend.
• Daarom worden verschillende symbolen gebruikt voor parameters bij de
populatie en kengetallen bij de steekproef.
• Steekproef resultaat komt deels tot stand door toeval, als we een nieuwe
steekproef uit de populatie trekken zal deze net wat andere waarden geven
voor gemiddelde en standaarddeviatie.
• Er bestaat dus variatie in steekproefgemiddelden door toeval, gemiddelde van
populatie staat wel vast.
• Op basis van steekproefdata maken we dus een schatting over de populatie.
• Het probleem is dat er altijd “random ruis” is die kan zorgen voor de beleving
dat er een patroon in de populatie is terwijl de meetuitkomst slechts het
resultaat van toeval is.
• Er is wel een voorwaarde dat de steekproef aselect en betrouwbaar is, dus
alle elementen uit de populatie hebben gelijke kans om in de steekproef te
komen. Toch blijft toeval altijd een rol spelen in onderzoek met aselecte
steekproeven.
, Steekproeven en kansuitspraken
• Met steekproefresultaten kun je kansuitspraken doen over hypotheses, omdat
sommige uitkomsten waarschijnlijker zijn dan andere.
• Hier maken we gebruik van bij toetsende statistiek, we berekenen hoe
waarschijnlijk bepaalde uitkomsten zijn onder de aanname dat H0 waar is.
• Deze waarschijnlijkheid wordt gevat met de p-waarde, een uitkomst die heel
onwaarschijnlijk is heeft een lage p-waarde en een uitkomst die heel
waarschijnlijk is heeft een hoge p-waarde.
• Als de p-waarde onder een besliscriterium valt, verwerpen we de H0
hypothese.
Hypothese
• Met een hypothese doe je een uitspraak over de populatie, vaak een
voorspelling van een parameter in de populatie.
• Nulhypothese (H0) kent meestal de vorm: “er is geen effect”, alleen toeval
zorgt voor verschil.
• Alternatieve-/onderzoekshypothese kent meestal de vorm: “er is een effect”,
oftewel het verschil in resultaat tussen groepen is niet 0.
• De nulhypothese proberen we met onze statistische toets op het steekproef
resultaat te verwerpen, in dat geval wordt de alternatieve hypothese
aangenomen.
• Een eenzijdige toets gebruik je als je al een bepaalde verwachting over een
bepaalde groep hebt.
• Een tweezijdige toets gebruik je om te kijken of er een verschil is tussen twee
groepen.