Aantekeningen hoorcolleges inferentiële statistiek
Hoorcollege 1: introductie
- Bepal
en of wat je in de steekproef vindt toeval is of in de populatie ook zo is
- Berekenen wat voor een resultaat je verwacht bij de steekproef en hoe zich dat
verhoudt in de populatie
- In de conclusie hoeft niet per se de waarheid te zitten ( niet per definitie extern valide)
- Hoe groter de steekproef hoe relevanter
Intuitief
- Op basis van één steekproef (vb aantal gele snoepjes)
o In mco→ kenmerk en verdeling beschrijven
o IS→ wat gebeurt er als er een ander steekproef wordt getrokken (ander aantal)
- Het doen van veel steekproeven, geeft een globale verdeling van alle kansen→
steekproevenverdeling→ variatie op basis van toeval
- Kansvariabele
o Verschillende waarden→ sommige waarden hebben meer kans om voor te
komen als andere
o Één getal representeert de hele steekproef
o Kans op de x as weergegeven
o Gemiddelde = populatiewaarde (parameter)→ in het midden van de verdeling
- Oneindig veel steekproeven trekken kost ontzettend veel tijd→ gebruiken van een
theoretische kansverdeling→ de normaalverdeling
- Zelf de middelste waarde kiezen→ nulhypothese opstellen op basis van een
veronderstelling hoe het onderzochte normaal gesproken voorkomt in de populatie
(waarde in midden van verdeling)
- Is de kans op een bepaalde waarde meer of minder dan 5%
o Minder → berust op te veel toeval, dus dan verwerpen 0 hypothese
- Er worden griekse letters gebruikt wanneer er gesproken wordt over de populatie
Relevant resultaat
1. Populatie is algemeen→ statistisch relevanter als er een grote steekproef is getrokken
2. Nulhypothese is zinnig→ anders is het vinden van een significant resultaat niet juist
3. Er is een groot verschil tussen de steekproefresultaat en de nulhypothese(effectgrootte)
o Berekenen naast significantie, hoe groot het verschil is
o Effectgrootte bepaalt de relevantie van significantie
Steekproef, populatie, representatie
1
, - Representatieve steekproef→ elke combinatie van variabelen is in de steekproef
hetzelfde verdeeld als in de populatie
- Aselecte steekproef is in principe altijd representatief voor de populatie
- Excacte gelijkheid in de variabelen is wel erg lastig te realiseren
- In populatie heeft 20% een bepaald kenmerk→ 20% kans om te selecteren op dat
kenmerk→ in de steekproef moet dan ook ongeveer 20% van dat kenmerk voorkomen
Steekproeven in IS
- Eenvoudig aselecte steekproef met teruglegging
o Andere te ingewikkeld om te gebruiken
o Altijd nagaan welke steekproef de juiste is
- Steekproef met teruglegging
o Kans op bepaalde uitkomst blijft altijd gelijk bij elke trekking
o Teruglegging maakt kansberekening eenvoudiger
- In praktijk is de steekproef vaak zonder teruglegging
o Dit hoeft geen probleem te vormen als de populatie veel groter is dan de
steekproef die getrokken word, want de blijven de kansen nagenoeg gelijk
o Geen vuistregel over hoe groot de groep moet zijn, maar het moet groot
genoeg zijn dat de kansen ongeveer gelijk blijven bij elke trekking.
Populatie→ 2 betekenissen
1. Empirische populatie→ verzameling alle onderzoekseenheden (alle snoepjes)
2. Statistische populatie→ een reeks metingen die bij elkaar horen in een analyse,
waarvoor een aparte steekproef getrokken kan worden (gewicht rood, gewicht geel)
- Verschil van definitie is van belang→ de hoeveelheid aan statistische populaties
bepaalt welke toets moet worden uitgevoerd
Statistische populaties
1. Onafhankelijke steekproeven→ metingen voor verschillende groepen
onderzoekseenheden. Verschillende groepen in onderzoekspopulatie worden los van
elkaar gezien (kijken naar verschillen in groepen)
2. Afhankelijke steekproeven→ de eerste steekproef bepaalt hoe de andere steekproef
getrokken moet worden. De eenheden zijn dan gelijk aan elkaar (kijken naar
verschillen over tijd)
2
Hoorcollege 1: introductie
- Bepal
en of wat je in de steekproef vindt toeval is of in de populatie ook zo is
- Berekenen wat voor een resultaat je verwacht bij de steekproef en hoe zich dat
verhoudt in de populatie
- In de conclusie hoeft niet per se de waarheid te zitten ( niet per definitie extern valide)
- Hoe groter de steekproef hoe relevanter
Intuitief
- Op basis van één steekproef (vb aantal gele snoepjes)
o In mco→ kenmerk en verdeling beschrijven
o IS→ wat gebeurt er als er een ander steekproef wordt getrokken (ander aantal)
- Het doen van veel steekproeven, geeft een globale verdeling van alle kansen→
steekproevenverdeling→ variatie op basis van toeval
- Kansvariabele
o Verschillende waarden→ sommige waarden hebben meer kans om voor te
komen als andere
o Één getal representeert de hele steekproef
o Kans op de x as weergegeven
o Gemiddelde = populatiewaarde (parameter)→ in het midden van de verdeling
- Oneindig veel steekproeven trekken kost ontzettend veel tijd→ gebruiken van een
theoretische kansverdeling→ de normaalverdeling
- Zelf de middelste waarde kiezen→ nulhypothese opstellen op basis van een
veronderstelling hoe het onderzochte normaal gesproken voorkomt in de populatie
(waarde in midden van verdeling)
- Is de kans op een bepaalde waarde meer of minder dan 5%
o Minder → berust op te veel toeval, dus dan verwerpen 0 hypothese
- Er worden griekse letters gebruikt wanneer er gesproken wordt over de populatie
Relevant resultaat
1. Populatie is algemeen→ statistisch relevanter als er een grote steekproef is getrokken
2. Nulhypothese is zinnig→ anders is het vinden van een significant resultaat niet juist
3. Er is een groot verschil tussen de steekproefresultaat en de nulhypothese(effectgrootte)
o Berekenen naast significantie, hoe groot het verschil is
o Effectgrootte bepaalt de relevantie van significantie
Steekproef, populatie, representatie
1
, - Representatieve steekproef→ elke combinatie van variabelen is in de steekproef
hetzelfde verdeeld als in de populatie
- Aselecte steekproef is in principe altijd representatief voor de populatie
- Excacte gelijkheid in de variabelen is wel erg lastig te realiseren
- In populatie heeft 20% een bepaald kenmerk→ 20% kans om te selecteren op dat
kenmerk→ in de steekproef moet dan ook ongeveer 20% van dat kenmerk voorkomen
Steekproeven in IS
- Eenvoudig aselecte steekproef met teruglegging
o Andere te ingewikkeld om te gebruiken
o Altijd nagaan welke steekproef de juiste is
- Steekproef met teruglegging
o Kans op bepaalde uitkomst blijft altijd gelijk bij elke trekking
o Teruglegging maakt kansberekening eenvoudiger
- In praktijk is de steekproef vaak zonder teruglegging
o Dit hoeft geen probleem te vormen als de populatie veel groter is dan de
steekproef die getrokken word, want de blijven de kansen nagenoeg gelijk
o Geen vuistregel over hoe groot de groep moet zijn, maar het moet groot
genoeg zijn dat de kansen ongeveer gelijk blijven bij elke trekking.
Populatie→ 2 betekenissen
1. Empirische populatie→ verzameling alle onderzoekseenheden (alle snoepjes)
2. Statistische populatie→ een reeks metingen die bij elkaar horen in een analyse,
waarvoor een aparte steekproef getrokken kan worden (gewicht rood, gewicht geel)
- Verschil van definitie is van belang→ de hoeveelheid aan statistische populaties
bepaalt welke toets moet worden uitgevoerd
Statistische populaties
1. Onafhankelijke steekproeven→ metingen voor verschillende groepen
onderzoekseenheden. Verschillende groepen in onderzoekspopulatie worden los van
elkaar gezien (kijken naar verschillen in groepen)
2. Afhankelijke steekproeven→ de eerste steekproef bepaalt hoe de andere steekproef
getrokken moet worden. De eenheden zijn dan gelijk aan elkaar (kijken naar
verschillen over tijd)
2