100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Samenvatting Volledige Sample Sessions uitleg + voorbeelden PDA

Beoordeling
-
Verkocht
-
Pagina's
49
Geüpload op
15-12-2025
Geschreven in
2025/2026

Alle Sample Sessions uitleg bij elkaar, met voorbeelden tot nu toe, dus Sample Sessions 1 tot 5












Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
15 december 2025
Aantal pagina's
49
Geschreven in
2025/2026
Type
Samenvatting

Voorbeeld van de inhoud

Practicum Data-Analyse: Sample Sessions
Week 1: Schattingen en toetsen
Geheugen opfrissen wat betreft de schatting van populatie parameters, zoals het gemiddelde en de
variantie (Agresti 2018/2024, hoofdstuk 5), en statistische toetsing (Agresti 2018/2024, hoofdstuk 6).

A.​ Puntschattingen
De verdeling van een variabele zoals uurloon in de populatie wordt een populatieverdeling genoemd.
We kunnen geïnteresseerd zijn in het gemiddelde uurloon of de variatie in het uurloon, omdat ze
belangrijke aspecten van de verdeling in de populatie kunnen overbrengen. Ofwel: deze twee
aspecten zijn kenmerkend voor de populatieverdeling. Daarom zullen wij ons voornamelijk focussen
op deze twee aspecten en willen we schattingen maken voor deze twee aspecten met behulp van een
(willekeurige) steekproef (ook wel bekend als:(random) sample) van de populatie.

In het geval van continue variabelen (d.w.z., ratio/interval meetniveau) wordt het
steekproefgemiddelde (bv gemiddelde uurloon) vaak gebruikt als puntschatting (of schatting) voor
het populatiegemiddelde.

In het geval van discrete variabelen (d.w.z., nominaal/ordinaal meetniveau) is de
steekproefproportie van de mensen met een bepaald kenmerk een vaak gebruikte puntschatting
voor het populatiegemiddelde. (bv de proportie mensen die zegt te zullen gaan stemmen als er
momenteel verkiezingen zijn).

Omdat de relevante puntschatting (en later ook toetsen) afhangt van het meetniveau is het belangrijk
om altijd de variabelen te inspecteren. Welk meetniveau heeft de variabele? Inspecteer hiervoor
bijvoorbeeld de data met het View() commando.

Het gemiddelde en de proporties zijn maten voor centraliteit/centrale tendentie (central tendency), terwijl
de standaarddeviatie/standaardafwijking en ook bijvoorbeeld het bereik (range) maten zijn voor de
variantie (variance).

Bij het schatten van de populatieproportie is het belangrijk om te beseffen dat een proportie eigenlijk
het gemiddelde is van een 0-1 variabele. Daarom kan dezelfde methode worden toegepast als bij
het schatten van het populatiegemiddelde van een continue variabele. Het is jammer dat Agresti
2018/2024 niet wijst op deze gelijkenis tussen het gemiddelde en een proportie.

Er zijn verschillende manieren in R om deze puntschattingen te achterhalen. Voorbeelden hiervan zijn
table(), prop.table(), summary() of mean().

Door sbs399[sbs399$sex == 1, ] of sbs399[sbs399$sex == 0, ] te gebruiken selecteer je uit de
data alleen de observaties die een 1 of 0 scoren op de variabele sex.

De populatiestandaardafwijking (sigma; σ) wordt geschat door de steekproefstandaardafwijking/
deviatie (sof SD). De noemer van s is n-1 en wordt ook wel “vrijheidsgraden” genoemd.

B.​ Betrouwbaarheidsintervallen
Puntschattingen zijn noodzakelijkerwijs onnauwkeurig (behalve als de steekproef de gehele populatie
omvat). Een puntschatting zelf heeft dus een verdeling, genaamd de STEEKPROEVENVERDELING
(in het Engels: SAMPLING DISTRIBUTION). Deze verdeling kan worden gezien als een resultaat van

,het herhaaldelijk steekproeven trekken uit een populatie en het vormen van de verdeling van de
puntschattingen.

De standaarddeviatie van een sampling distribution wordt STANDAARDFOUT (SE; in het Engels

STANDARD ERROR) genoemd. Verwar dit niet met de standaarddeviatie van een steekproef voor
een bepaalde variabele (s of SD), alhoewel deze twee wel gerelateerd zijn aan elkaar. Het zal je niet
verrassen dat de standaardfout afhangt van bepaalde kenmerken in de verdeling van de populatie.
Dus de standaardfout van een steekproefgemiddelde hangt af van de populatiestandaarddeviatie
(sigma) en de steekproefomvang (n).


Hoe groter de omvang van de steekproef (n), des te kleiner is de standaardfout, wat logisch is. Merk
op dat we over het algemeen niet de populatiestandaarddeviatie (sigma) weten. We kunnen aan de
hand van data van een steekproef een schatting doen over de sigma: de steekproefstandaarddeviatie.

Extra weetje: In sommige gevallen is er niet een simpele schatting beschikbaar voor een
standaardfout. In deze gevallen kunnen we gebruikmaken van de ‘bootstrap’ procedure om zo toch
nog de standaardfout te schatten.

Extra weetje: Maximum Likelihood (ML) schatting is de belangrijkste statistische manier om schatting
van populatie parameters te construeren. ML schattingen hebben aantrekkelijke eigenschappen: 1)
Ze zijn EFFICIENT, wat betekent dat ze een kleine variantie hebben, 2) ze zijn ZUIVERE schattingen
(in het Engels: unbiased estimates) voor grote waarden van n, 3) ze hebben ongeveer NORMALE
sampling distributions.

Standaardfouten kunnen gebruikt worden om betrouwbaarheidsintervallen (in het Engels:
Confidence Intervals; CI) te construeren, wat een bereik van getallen is, aangeduid als “(ondergrens,
bovengrens)”, bijv. (0.455, 0.987), waarbinnen de populatieparameter (niet de steekproefstatistiek!)
met een zekere waarschijnlijkheid valt. De zekerheid wordt de BETROUWBAARHEIDSCOËFFICIËNT
genoemd. Dus als we een kans hebben van .90 voor een populatieparameter om binnen de CI te
vallen, spreken we van een 90% CI.

Hoe kleiner de standaardfout, des te accurater de schatting. (1-betrouwbaarheidscoëfficiënt) wordt de
foutkans ALPHA (α) (error probability) genoemd. Lees zorgvuldig Agresti (2018, p.115-116) (2024,
p.121-122) over sampling distributions, zuivere schattingen en efficiënte schattingen.

Interpretatie CI: Een 95% CI houdt in dat we met 95% zekerheid kunnen zeggen dat het
betrouwbaarheidsinterval van de puntschatting de daadwerkelijke POPULATIE parameter omvat. Of
nog specifieker: als we herhaaldelijk willekeurige steekproeven trekken van dezelfde omvang uit de
populatie en een 95% betrouwbaarheidsinterval construeren, dan geldt dat 95% van deze
betrouwbaarheidsintervallen het populatiegemiddelde bevat. Bestudeer zorgvuldig figuur 5.4 in
Agresti (2018, p.123)(2024, p.128).

C.​ Betrouwbaarheidsinterval voor het gemiddelde
Laten we kijken naar het CI voor een gemiddelde. We kunnen aannemen dat de sampling
distribution van het gemiddelde voor een steekproefomvang van n>30 ongeveer normaal verdeeld is
met een standaardfout SE_gemiddelde gelijk aan de standaarddeviatie van de populatie (sigma)
gedeeld door de wortel van de steekproefomvang (√n). Dit resulteert in de volgende formule:

,Over het algemeen is sigma niet bekend en deze wordt daarom geschat aan de hand van de
standaarddeviatie in de steekproef. Als de steekproefomvang n kleiner is dan 30, dan moeten we
gebruikmaken van de t-verdeling in plaats van een normaalverdeling.

Gegeven een normaalverdeling weten we dat 95% van het oppervlak onder de normaal curve valt
binnen twee (om precies te zijn 1.96) standaarddeviaties van het gemiddelde. Dus een 95% CI voor
een geschatte gemiddelde kan als volgt worden berekend:


Naast een 95% CI, kun je ook andere CI’s berekenen, bijvoorbeeld een 90% CI of een 99% CI. De
formule hierboven is dan hetzelfde maar je gebruikt dan niet een z-waarde van 1.96, maar andere
z-waarden. De z-waarde voor een 90% CI is gelijk aan 1.645 en voor een 99% CI: 2.575.

Merk op dat de breedte van een CI afneemt als de foutkans alpha toeneemt (1-alpha). Ook neemt de
breedte van een CI af als de omvang van de steekproef n toeneemt. Dit is het geval omdat de SE
afneemt, als de n toeneemt (d.w.z. de puntschattingen zijn meer accuraat als we meer data hebben
waar we de puntschattingen op baseren).

D.​ Betrouwbaarheidsinterval voor een proportie
Onthoud dat een proportie niets anders is dan het gemiddelde van een 0-1 variabele (ook bekend als
een binomiale/dichotome/dummy variabele). Bijvoorbeeld, de variabele religie heeft de waarden “1”
(als de persoon religieus is) en “0” (als de persoon niet-religieus is).

Als we de populatieproportie “pi” noemen, dan is de populatievariantie van pi gelijk aan pi x (1-pi).

De standaardfout van een steekproefproportie (= pi-voorspeld) kan daarom als volgt worden
berekend:



Voor een n > 30 en (.30 < pi <.70) kunnen we aannemen dat de sampling distribution wordt benaderd
door een normale verdeling (een bij benadering normale verdeling dus). Als pi buiten dit bereik (.30;
.70) valt, dan is de sampling distribution scheef voor een kleine n, en hebben we minstens 10
observaties nodig in ZOWEL de 0 ALS de 1 categorie voor een goede/ juiste benadering van de
sampling distribution door de normaalverdeling.

Een voorbeeld: we berekenen het 95% CI voor de proportie religieuze mensen. De proportie
religieuze mensen is .507, de n is 3350. De SE van de pi-voorspeld kan worden berekend als de
wortel van {.507 × (1 - .507)/ 3350} = .0086. Dus het 95% CI komt overeen met .507 ± (1.96 × .0086)
ofwel (.49, .52). Afronden op twee decimalen volstaat hier om zo nauwkeurig mogelijk te zijn.

De SE van de steekproefproportie kan je handmatig uitrekenen met commando’s var() en
length()óf met behulp van het describe() commando uit het psych pakket.

E.​ Principe van toetsing
Als onderzoekers hebben we vaak een inhoudelijke hypothese wat betreft de populatie. We kunnen
statistieken gebruiken om te onderzoeken of er bewijs is voor deze inhoudelijke hypothese aan de
hand van een willekeurige steekproef van een populatie. Bijvoorbeeld, we hebben de inhoudelijke
hypothese opgesteld dat de gemiddelde leeftijd waarop een kind het ouderlijk huis verlaat in 2008
hoger is in vergelijking met 1978.

Door middel van beschrijvende statistieken (gemiddelde, maximum, minimum etc.) van een
steekproef kunnen we nagaan of de gemiddelde leeftijd van kinderen die het ouderlijke huis verlaten

, daadwerkelijke hoger is in 2008 dan in 1978. Echter, op basis van de beschrijvende statistieken
kunnen we geen uitspraak doen of de toename een “echte” toename is of dat het puur toeval is. Om
te kijken of de verandering in de gemiddelde leeftijd of de kinderen die het ouderlijk huis verlaten
tussen 2008 en 1978 een “echte” (significante) toename is, moeten we gebruik maken van statistische
(of significantie) toetsen (Agresti 2018/2024, hoofdstuk 6).

In de traditie van frequentistische statistieken (in het Engels: frequentist statistics) stellen we altijd
onze inhoudelijke (alternatieve) hypothese tegenover een nulhypothese. Deze nulhypothese neemt
aan dat er niets aan de hand is in de populatie (bijv. mannen en vrouwen verschillen niet wat betreft
wiskundecijfers). Het is belangrijk om te weten dat je eigenlijk de nulhypothese toetst en dus NIET de
alternatieve hypothese. Dit houdt in dat je toetst of de hypothese dat er “niets gebeurt/niets aan de
hand is in de populatie” wordt ondersteund door jouw data. Als je toets daadwerkelijk laat zien dat er
een “echt” of significant verschil is te vinden tussen de groepen, zou je kunnen concluderen dat de
nulhypothese wordt verworpen op basis van de resultaten en dat er bewijs is voor je
inhoudelijke/alternatieve hypothese.

F.​ Elementen van een statistische toets
Over het algemeen bestaat een statistische toets uit vijf elementen.

1. Assumpties van de toets. Deze refereren naar:

●​ Type data (bijv. kwantitatieve versus kwalitatieve data)
●​ Vorm van de populatieverdeling (vaak wordt er een normaalverdeling aangenomen, maar een
binaire of een multinomiale verdeling komen ook voor)
●​ Methode van steekproeven trekken (doorgaans een simpele willekeurige steekproef)
●​ De steekproefgrootte (de nauwkeurigheid van een toets verbetert met een toename van de
omvang van de steekproef)

2. Hypotheses

Een statistische toets neemt twee hypothesen in acht met betrekking tot de populatieparameter. 1) De
nulhypothese (H0) die voor ‘waar’ wordt aangenomen totdat het tegendeel is bewezen op basis van
statistische bewijzen. H0 wordt meestal als oninteressant beschouwd vanuit een inhoudelijk oogpunt.
2) De alternatieve hypothese (Ha), die de H0 weerspreekt.

Het is belangrijk om te onthouden dat statistische toetsen direct de nulhypothese toetsen. De
nulhypothese is gewoonlijk – maar niet altijd – een bewering dat: 1) de populatieparameter een
bepaalde waarde heeft (meestal nul) 2) twee parameters gelijk aan elkaar zijn 3) een
populatieparameter niet over de tijd heen is veranderd 4) de verandering niet meer dan een bepaalde
waarde bedraagt.

Bijvoorbeeld: Neem aan dat we willen toetsen of het percentage katholieken in Nederland in 2012
gedaald is t.o.v. het percentage katholieken in Nederland in 1973 (37%; gebaseerd op data van het
CBS). De nulhypothese luidt dan als volgt:

H0: % katholieken in 2012 ≠ .37

De alternatieve hypothese is:

Ha: % katholieken in 2012 < .37

We hebben een inhoudelijke hypothese opgesteld die aanneemt dat het percentage van katholieken
in Nederland in 2012 kleiner is geworden ten opzichte van het percentage in 1973. Bovendien kunnen
we stellen dat Ha een eenzijdige hypothese is, aangezien we expliciet een richting benoemen. Als er
€7,46
Krijg toegang tot het volledige document:

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Maak kennis met de verkoper
Seller avatar
lottesamwel

Maak kennis met de verkoper

Seller avatar
lottesamwel Universiteit Utrecht
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
2
Lid sinds
7 maanden
Aantal volgers
0
Documenten
15
Laatst verkocht
1 maand geleden

0,0

0 beoordelingen

5
0
4
0
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen