College 1a: Intro + steekproevenverdeling (eind H4) | 13-11-2023
Practica: afwezigheid en vragen over practica:
Maximaal 1x afwezig, 2x inhalen, 3x onvoldoende
Deadlines elke dinsdag voor het volgende practicum
Boeken:
Statistical Methods for the social sciences → H4 tm H9
Practicumopgaven
Collegeslides
Goede rooster staan in de syllabus!!
Wat bij inleiding onderzoek?
• Beschrijven één variabele
o centrum(bijv. gemiddelde)
o spreiding (bijv. standaarddeviatie)
o verdeling (bijv. histogram)
• Beschrijven samenhang 2 variabelen
o bijv. correlatie, spearman’s rho
• Kansrekening
Kansrekening
• Gaat uit van random gebeurtenissen
o Bijv. 4 kinderen: hoeveel meisjes →random
▪ Je kunt een kansverdeling maken
Inferentiele statestiek: houdt zich bezig met generaliseren van uitkomsten
• Veel onderzoeken gebaseerd op steekproeven
o n = 64 groep 8-ers van drie Groningse scholen
o n = 173 adolescenten uit Noord-Nederland
• Toch vaak uitspraak over een grotere groep
o Uitspraak doen over alle groep 8-ers
o Alle adolescenten in Nederland
o Een bekend gemiddelde algemeniseren als het
onbekende gemiddelde
Populatie: groep waarvan onderzoeker eigenschappen wil weten (bijv. alle groep 8-ers in NL)
• Parameter: numerieke samenvatting van eigenschap in populatie (bijv. proportie,
gemiddelde)
o Onbekende waarde = onbekende gemiddelde van populatie (mu)
Steekproef: subgroep uit populatie die onderzocht wordt(bijv. 43 groep 8-ers van drie Groningse
basisscholen)
• Statistiek: numerieke samenvatting van eigenschap in steekproef (bijv.
steekproefgemiddelde)
• Bekend gemiddelde van de steekproef
,Populatie en steekproef
• Random= beter
• Meer = niet altijd beter
o Zegt de onderzoeken groep ook echt iets over wat je wilt onderzoeken
• Representativiteit
o Agresti: gaat ervan uit dat alle steekproeven random zijn
▪ Maar: in veel onderzoeken geen sprake van random steekproef → voor welke
populatie is steekrpef dan representatief?
▪ Steekproef = alle 9-jarige leerlingen van vier Groningse basisscholen
• 4 scholen representatief voor alle Groningse basisscholen?
o ja: populatie = alle 9-jarige leerlingen in Groningen
o Nee: populatie = selectie van 9-jarige leerlingen in Groningen
• 4 scholen representatief voor alle basisscholen in Noord-NL?
o ja: populatie = alle 9-jarige leerlingen in Noord-NL
Voorbeeld:
Onderzoeksvraag: Wat is gemiddelde leestijd van 9-jarige kinderen in Groningen?
Onderzoeker wil iets weten over
Populatie: alle 9-jarige kinderen in Groningen
Steekproef is dan een selectie van 9-jarige kinderen uit de stad Groningen
Populatie: alle 9-jarige kinderen uit de stad Groningen
Welke steekproef is representatief? Hoe kom je aan je data? Bijv. data van:
• alle 9-jarige leerlingen van vier Groningse basisscholen (omdat je hier contacten mee hebt)
• 200 random 9-jarige leerlingen van alle Groningse basisscholen
Steekproefverdelingen = kansverdeling
• Kansverdeling = geeft aan wat er op de lange duur gebeurt (wat als je heel vaak de
steekproef zou trekken)
o Streekproeftrekking is een random gebeurtenis
o Kansrekening gebruikt om op basis van ene steekproef kansuitspraken te doen
,Steekproefverdelingen (sampling distribution)
• Theoretisch idee → doe je in de praktijk eigenlijk niet
• Is een kansverdeling voor steekproeven
o Wat is de verdeling als je heel vaak de streekproef zou trekken
▪ In de praktijk trek je maar 1 steekproef… is dus een theoretisch idee
o Wat voor waardes kunnen eruit komen
Voorbeeld:
Onderzoeksvraag: Zijn jongens vaardiger in balspelen dan meisjes?
Onderzoek
• Trek een random steekproef van 50 jongens en 50 meisjes
• Meet vaardigheid in balspelen (schaal 0 – 12 punten, assumptie intervalniveau)
Bevindingen
• Jongens: gemiddelde score 8.98
• Meisjes: gemiddelde score 7.14
Wat als we een andere steekproef zouden hebben gehad?
• Steekproef van jongens:
o μ = (mu) weten we normaal niet maar nu theoretisch gezien wel
Het steekproefgemiddelde varieert tussen steekproeven
, Voorbeeld:
Welk deel van po-leraren gaf aan minder werkdruk te
ervaren door extra budget werkdrukakkoord? Stel: in
werkelijkheid was dit percentage 52% (= in de
populatie)
We nemen een aantal steekproeven van 50 mensen
• Steekproef 1: 48% minder werkdruk
• Steekproef 2: 55% minder werkdruk
• Steekproef 3: 50% minder werkdruk Iedere
steekproef (net) een andere uitkomst!
Uitkomst dus een random variabele
Deze verdeling staat boven de verdeling van
individuele scores.
Steekproevenverdeling kun je voor elke statistiek maken:
• Proportie (0.43) (percentage (43%)) en gemiddelde
• correlatie
• regressiecoëfficiënt
oefenen steekproevenverdeling: https://onlinestatbook.com/stat_sim/sampling_dist/
Stel, je trekt heel vaak een steekproef uit een populatie, dan de volgende bevindingen:
1. steekproefgemiddelden variëren minder dan de losse scores in populatie
a. je trekt gemiddelden dus hele hoge en hele lage scores vallen weg
2. verdeling van steekproefgemiddelden is ‘meer’ normaal verdeeld dan de losse scores in de
populatie
a. extremen vallen weg doordat gemiddelde genomen wordt
ALGEMENE GELDENDE UITSPRAKEN
• Verdeling van steekproefgemiddelden NIET hetzelfde als verdeling van scores in populatie
• Variantie van steekproefgemiddelden is KLEINER dan variantie van scores in populatie
• Gemiddelde van steekproefgemiddelden= HETZELFDE als gemiddelde van scores in populatie
• Naarmate je n groter wordt (grotere steekproef), lijkt de steekproevenverdeling steeds meer
op een normale verdeling
Centrale limietstelling (Central limit theorem)
Practica: afwezigheid en vragen over practica:
Maximaal 1x afwezig, 2x inhalen, 3x onvoldoende
Deadlines elke dinsdag voor het volgende practicum
Boeken:
Statistical Methods for the social sciences → H4 tm H9
Practicumopgaven
Collegeslides
Goede rooster staan in de syllabus!!
Wat bij inleiding onderzoek?
• Beschrijven één variabele
o centrum(bijv. gemiddelde)
o spreiding (bijv. standaarddeviatie)
o verdeling (bijv. histogram)
• Beschrijven samenhang 2 variabelen
o bijv. correlatie, spearman’s rho
• Kansrekening
Kansrekening
• Gaat uit van random gebeurtenissen
o Bijv. 4 kinderen: hoeveel meisjes →random
▪ Je kunt een kansverdeling maken
Inferentiele statestiek: houdt zich bezig met generaliseren van uitkomsten
• Veel onderzoeken gebaseerd op steekproeven
o n = 64 groep 8-ers van drie Groningse scholen
o n = 173 adolescenten uit Noord-Nederland
• Toch vaak uitspraak over een grotere groep
o Uitspraak doen over alle groep 8-ers
o Alle adolescenten in Nederland
o Een bekend gemiddelde algemeniseren als het
onbekende gemiddelde
Populatie: groep waarvan onderzoeker eigenschappen wil weten (bijv. alle groep 8-ers in NL)
• Parameter: numerieke samenvatting van eigenschap in populatie (bijv. proportie,
gemiddelde)
o Onbekende waarde = onbekende gemiddelde van populatie (mu)
Steekproef: subgroep uit populatie die onderzocht wordt(bijv. 43 groep 8-ers van drie Groningse
basisscholen)
• Statistiek: numerieke samenvatting van eigenschap in steekproef (bijv.
steekproefgemiddelde)
• Bekend gemiddelde van de steekproef
,Populatie en steekproef
• Random= beter
• Meer = niet altijd beter
o Zegt de onderzoeken groep ook echt iets over wat je wilt onderzoeken
• Representativiteit
o Agresti: gaat ervan uit dat alle steekproeven random zijn
▪ Maar: in veel onderzoeken geen sprake van random steekproef → voor welke
populatie is steekrpef dan representatief?
▪ Steekproef = alle 9-jarige leerlingen van vier Groningse basisscholen
• 4 scholen representatief voor alle Groningse basisscholen?
o ja: populatie = alle 9-jarige leerlingen in Groningen
o Nee: populatie = selectie van 9-jarige leerlingen in Groningen
• 4 scholen representatief voor alle basisscholen in Noord-NL?
o ja: populatie = alle 9-jarige leerlingen in Noord-NL
Voorbeeld:
Onderzoeksvraag: Wat is gemiddelde leestijd van 9-jarige kinderen in Groningen?
Onderzoeker wil iets weten over
Populatie: alle 9-jarige kinderen in Groningen
Steekproef is dan een selectie van 9-jarige kinderen uit de stad Groningen
Populatie: alle 9-jarige kinderen uit de stad Groningen
Welke steekproef is representatief? Hoe kom je aan je data? Bijv. data van:
• alle 9-jarige leerlingen van vier Groningse basisscholen (omdat je hier contacten mee hebt)
• 200 random 9-jarige leerlingen van alle Groningse basisscholen
Steekproefverdelingen = kansverdeling
• Kansverdeling = geeft aan wat er op de lange duur gebeurt (wat als je heel vaak de
steekproef zou trekken)
o Streekproeftrekking is een random gebeurtenis
o Kansrekening gebruikt om op basis van ene steekproef kansuitspraken te doen
,Steekproefverdelingen (sampling distribution)
• Theoretisch idee → doe je in de praktijk eigenlijk niet
• Is een kansverdeling voor steekproeven
o Wat is de verdeling als je heel vaak de streekproef zou trekken
▪ In de praktijk trek je maar 1 steekproef… is dus een theoretisch idee
o Wat voor waardes kunnen eruit komen
Voorbeeld:
Onderzoeksvraag: Zijn jongens vaardiger in balspelen dan meisjes?
Onderzoek
• Trek een random steekproef van 50 jongens en 50 meisjes
• Meet vaardigheid in balspelen (schaal 0 – 12 punten, assumptie intervalniveau)
Bevindingen
• Jongens: gemiddelde score 8.98
• Meisjes: gemiddelde score 7.14
Wat als we een andere steekproef zouden hebben gehad?
• Steekproef van jongens:
o μ = (mu) weten we normaal niet maar nu theoretisch gezien wel
Het steekproefgemiddelde varieert tussen steekproeven
, Voorbeeld:
Welk deel van po-leraren gaf aan minder werkdruk te
ervaren door extra budget werkdrukakkoord? Stel: in
werkelijkheid was dit percentage 52% (= in de
populatie)
We nemen een aantal steekproeven van 50 mensen
• Steekproef 1: 48% minder werkdruk
• Steekproef 2: 55% minder werkdruk
• Steekproef 3: 50% minder werkdruk Iedere
steekproef (net) een andere uitkomst!
Uitkomst dus een random variabele
Deze verdeling staat boven de verdeling van
individuele scores.
Steekproevenverdeling kun je voor elke statistiek maken:
• Proportie (0.43) (percentage (43%)) en gemiddelde
• correlatie
• regressiecoëfficiënt
oefenen steekproevenverdeling: https://onlinestatbook.com/stat_sim/sampling_dist/
Stel, je trekt heel vaak een steekproef uit een populatie, dan de volgende bevindingen:
1. steekproefgemiddelden variëren minder dan de losse scores in populatie
a. je trekt gemiddelden dus hele hoge en hele lage scores vallen weg
2. verdeling van steekproefgemiddelden is ‘meer’ normaal verdeeld dan de losse scores in de
populatie
a. extremen vallen weg doordat gemiddelde genomen wordt
ALGEMENE GELDENDE UITSPRAKEN
• Verdeling van steekproefgemiddelden NIET hetzelfde als verdeling van scores in populatie
• Variantie van steekproefgemiddelden is KLEINER dan variantie van scores in populatie
• Gemiddelde van steekproefgemiddelden= HETZELFDE als gemiddelde van scores in populatie
• Naarmate je n groter wordt (grotere steekproef), lijkt de steekproevenverdeling steeds meer
op een normale verdeling
Centrale limietstelling (Central limit theorem)