Statistische Modellen 1
Volledige Tentamenvoorbereiding
Samenvatting | Begrippenlijst | Formuleblad | Oefententamen
Behandelde onderwerpen (HC1-HC7):
HC1: Inferentiele statistiek & steekproevenverdelingen
HC2: Betrouwbaarheidsintervallen
HC3: Significantietoetsen (5-stappenplan)
HC4: Eenzijdig toetsen & Power/Type-fouten
HC5: Vergelijken van twee groepen
HC6: Regressieanalyse & Correlatie
HC7: Chi-kwadraattoetsen
, DEEL 1: VOLLEDIGE SAMENVATTING
HC1: Inferentiële Statistiek &
Steekproevenverdelingen
Wat is inferentiële statistiek?
Inferentiële statistiek is het trekken van conclusies over een populatie op basis van
gegevens uit een steekproef. Je generaliseert dus van een kleine, gemeten groep naar een
grotere, ongemeten groep. Omdat je nooit de volledige populatie meet, werk je altijd met
onzekerheid.
Kernbegrippen
Begriff Symbool Omschrijving
Populatie N (geheel) De volledige groep waarover je een uitspraak wilt
doen
Parameter μ, π, ρ Numerieke eigenschap van de populatie (bijv. het
(Grieks) echte gemiddelde)
Steekproef n Een subgroep uit de populatie die daadwerkelijk
(steekproef) onderzocht wordt
Statistiek ȳ, p̂, r (Latijn) Numerieke eigenschap van de steekproef;
schatting van de parameter
Symbolen: steekproef vs. populatie
Concept Steekproef (Latijn) Populatie (Grieks)
Gemiddelde ȳ (y-bar) μ (mu)
Standaarddeviatie s σ (sigma)
Proportie p̂ (p-dak) π (pi)
Correlatie r ρ (rho)
Grootte n N
Representatieve steekproef
• Een random steekproef geeft een grotere kans op representativiteit
• Grotere steekproef betekent NIET automatisch beter — representativiteit is
belangrijker dan grootte
Steekproevenverdeling (Sampling Distribution)
,De steekproevenverdeling is de kansverdeling van een statistiek (bijv. het gemiddelde). Ze
ontstaat wanneer je heel vaak een steekproef trekt uit dezelfde populatie. Elke steekproef
geeft een iets andere uitkomst.
Eigenschappen van de steekproevenverdeling:
1. Het gemiddelde van alle steekproefgemiddelden = populatiegemiddelde (μ)
2. Steekproefgemiddelden variëren minder dan individuele scores
3. De verdeling is normaler verdeeld dan de populatieverdeling (centrale limietstelling)
4. Variantie van de steekproefgemiddelden is kleiner dan de populatievariantie
Centrale Limietstelling
Als steekproeven willekeurig worden getrokken en n groot genoeg is, is de
steekproevenverdeling van het gemiddelde ongeveer normaal verdeeld. Vuistregel: n ≥ 30 is
doorgaans voldoende. Is de populatie al normaal verdeeld, dan is de steekproevenverdeling
voor elke n exact normaal.
Standaardfout (Standard Error, SE)
De standaardfout meet de spreiding tussen steekproefuitkomsten. Hoe groter de steekproef,
hoe kleiner de standaardfout — steekproefresultaten liggen dan dichter bij elkaar.
• SE = σ / √n (als σ bekend is)
• SE = s / √n (als σ onbekend is, schatting met s)
Puntschatting vs. Intervalschatting
Soort schatting Omschrijving Voorbeeld
Puntschatting Één getal dat de beste schatting is p̂ = 0.60 (60% van de
van de parameter steekproef zegt 'ja')
Intervalschatting (BHI) Een bereik waarbinnen de parameter 95% BHI: (0.52, 0.68)
waarschijnlijk ligt
Bias van een Schatter
• Unbiased (zuivere schatting): geen systematische afwijking bij herhaalde
steekproeven. Voorbeelden: steekproefgemiddelde, proportie, standaarddeviatie
• Biased: systematische overschatting of onderschatting
, HC2: Betrouwbaarheidsintervallen
Wat is een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval (BHI) geeft een bereik van waarden aan waarbinnen we
verwachten dat de onbekende populatieparameter valt.
⚠ Correcte interpretatie van een BHI
NIET zeggen: 'Er is 95% kans dat de parameter in dit interval ligt.'WEL zeggen: 'Als we deze
methode heel vaak zouden herhalen, zou 95% van de berekende intervallen de echte parameter
bevatten. Dit interval is één van die intervallen.'
Algemene formule BHI
BHI = puntschatting ± foutmarge
Foutmarge = z × SE (of t × SE)
Ondergrens = puntschatting − (z of t) × SE
Bovengrens = puntschatting + (z of t) × SE
BHI voor een Proportie
Formule: p̂ ± z × √(p̂(1 − p̂) / n)
Hierbij is p̂ de steekproefproportie en n de steekproefgrootte.
Betrouwbaarheidsniveau z-waarde
90% 1.645
95% (meest gebruikt) 1.96
99% 2.576
BHI voor een Gemiddelde
Formule: ȳ ± t × (s / √n)
Gebruik t-verdeling wanneer n < 150 (en σ onbekend is). Gebruik z-verdeling wanneer n >
150.
Vrijheidsgraden (df) = n − 1
T-verdeling
• De t-verdeling lijkt op de standaardnormaalverdeling, maar heeft dikkere staarten
• T-waarden zijn groter dan z-waarden → het interval wordt breder (extra
voorzichtigheid bij kleine steekproef)
• Hoe meer vrijheidsgraden (df = n−1), hoe meer de t-verdeling lijkt op de z-verdeling
• Vanaf df ≈ 30 lijkt de t-verdeling al sterk op de normale verdeling
Volledige Tentamenvoorbereiding
Samenvatting | Begrippenlijst | Formuleblad | Oefententamen
Behandelde onderwerpen (HC1-HC7):
HC1: Inferentiele statistiek & steekproevenverdelingen
HC2: Betrouwbaarheidsintervallen
HC3: Significantietoetsen (5-stappenplan)
HC4: Eenzijdig toetsen & Power/Type-fouten
HC5: Vergelijken van twee groepen
HC6: Regressieanalyse & Correlatie
HC7: Chi-kwadraattoetsen
, DEEL 1: VOLLEDIGE SAMENVATTING
HC1: Inferentiële Statistiek &
Steekproevenverdelingen
Wat is inferentiële statistiek?
Inferentiële statistiek is het trekken van conclusies over een populatie op basis van
gegevens uit een steekproef. Je generaliseert dus van een kleine, gemeten groep naar een
grotere, ongemeten groep. Omdat je nooit de volledige populatie meet, werk je altijd met
onzekerheid.
Kernbegrippen
Begriff Symbool Omschrijving
Populatie N (geheel) De volledige groep waarover je een uitspraak wilt
doen
Parameter μ, π, ρ Numerieke eigenschap van de populatie (bijv. het
(Grieks) echte gemiddelde)
Steekproef n Een subgroep uit de populatie die daadwerkelijk
(steekproef) onderzocht wordt
Statistiek ȳ, p̂, r (Latijn) Numerieke eigenschap van de steekproef;
schatting van de parameter
Symbolen: steekproef vs. populatie
Concept Steekproef (Latijn) Populatie (Grieks)
Gemiddelde ȳ (y-bar) μ (mu)
Standaarddeviatie s σ (sigma)
Proportie p̂ (p-dak) π (pi)
Correlatie r ρ (rho)
Grootte n N
Representatieve steekproef
• Een random steekproef geeft een grotere kans op representativiteit
• Grotere steekproef betekent NIET automatisch beter — representativiteit is
belangrijker dan grootte
Steekproevenverdeling (Sampling Distribution)
,De steekproevenverdeling is de kansverdeling van een statistiek (bijv. het gemiddelde). Ze
ontstaat wanneer je heel vaak een steekproef trekt uit dezelfde populatie. Elke steekproef
geeft een iets andere uitkomst.
Eigenschappen van de steekproevenverdeling:
1. Het gemiddelde van alle steekproefgemiddelden = populatiegemiddelde (μ)
2. Steekproefgemiddelden variëren minder dan individuele scores
3. De verdeling is normaler verdeeld dan de populatieverdeling (centrale limietstelling)
4. Variantie van de steekproefgemiddelden is kleiner dan de populatievariantie
Centrale Limietstelling
Als steekproeven willekeurig worden getrokken en n groot genoeg is, is de
steekproevenverdeling van het gemiddelde ongeveer normaal verdeeld. Vuistregel: n ≥ 30 is
doorgaans voldoende. Is de populatie al normaal verdeeld, dan is de steekproevenverdeling
voor elke n exact normaal.
Standaardfout (Standard Error, SE)
De standaardfout meet de spreiding tussen steekproefuitkomsten. Hoe groter de steekproef,
hoe kleiner de standaardfout — steekproefresultaten liggen dan dichter bij elkaar.
• SE = σ / √n (als σ bekend is)
• SE = s / √n (als σ onbekend is, schatting met s)
Puntschatting vs. Intervalschatting
Soort schatting Omschrijving Voorbeeld
Puntschatting Één getal dat de beste schatting is p̂ = 0.60 (60% van de
van de parameter steekproef zegt 'ja')
Intervalschatting (BHI) Een bereik waarbinnen de parameter 95% BHI: (0.52, 0.68)
waarschijnlijk ligt
Bias van een Schatter
• Unbiased (zuivere schatting): geen systematische afwijking bij herhaalde
steekproeven. Voorbeelden: steekproefgemiddelde, proportie, standaarddeviatie
• Biased: systematische overschatting of onderschatting
, HC2: Betrouwbaarheidsintervallen
Wat is een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval (BHI) geeft een bereik van waarden aan waarbinnen we
verwachten dat de onbekende populatieparameter valt.
⚠ Correcte interpretatie van een BHI
NIET zeggen: 'Er is 95% kans dat de parameter in dit interval ligt.'WEL zeggen: 'Als we deze
methode heel vaak zouden herhalen, zou 95% van de berekende intervallen de echte parameter
bevatten. Dit interval is één van die intervallen.'
Algemene formule BHI
BHI = puntschatting ± foutmarge
Foutmarge = z × SE (of t × SE)
Ondergrens = puntschatting − (z of t) × SE
Bovengrens = puntschatting + (z of t) × SE
BHI voor een Proportie
Formule: p̂ ± z × √(p̂(1 − p̂) / n)
Hierbij is p̂ de steekproefproportie en n de steekproefgrootte.
Betrouwbaarheidsniveau z-waarde
90% 1.645
95% (meest gebruikt) 1.96
99% 2.576
BHI voor een Gemiddelde
Formule: ȳ ± t × (s / √n)
Gebruik t-verdeling wanneer n < 150 (en σ onbekend is). Gebruik z-verdeling wanneer n >
150.
Vrijheidsgraden (df) = n − 1
T-verdeling
• De t-verdeling lijkt op de standaardnormaalverdeling, maar heeft dikkere staarten
• T-waarden zijn groter dan z-waarden → het interval wordt breder (extra
voorzichtigheid bij kleine steekproef)
• Hoe meer vrijheidsgraden (df = n−1), hoe meer de t-verdeling lijkt op de z-verdeling
• Vanaf df ≈ 30 lijkt de t-verdeling al sterk op de normale verdeling