Statistiek 2- hoorcolleges 2025
Hoorcollege 1: Multivariante Verbanden
Algemene statistische geletterdheid: leren evalueren van statische resultaten, leidraad
voor privé en publieke keuzes, kritisch naar informatie leren kijken
Sociale werkveld: goed kiezen wat relevant is voor doelpopulatie
Basis statistiek 1
Steekproeven: representativiteit, manieren verzamelen
Beschrijvende statistiek: samenvatten steekproef of populatie met tabellen, figuren,
getallen
Inferentiële statistiek: voorspellingen maken over populatie parameters, gebaseerd op
steekproef
Correlatie = geen causatie
Opletten voor spurieuze verbanden (schijnverband)
Er is een verband tussen A en B, maar, dit verband is te verklaren door andere
variabelen die zowel A als B veroorzaken; A veroorzaakt B niet
Vragen in vakgebied gaan vaak over causaliteit: Zorgen kleinere klassen (x) voor betere
leerprestaties (y)?
John Stuart Mill (1843): 3 criteria om causaliteit vast te stellen
We kunnen alleen beargumenteren dat B veroorzaakt wordt door A als:
1. Er een verband bestaat tussen A en B (associatie)
2. B moet plaatsvinden na A (volgordelijkheid)
3. Het verband tussen A en B niet wordt verklaard door andere factoren (alternatieve
verklaringen zijn uitgesloten)
Alternatieve verklaringen uitsluiten:
- Experimentele controle: in onderzoeksdesign
Random control trial: volg-ordelijkheid gemanipuleerd en alternatieve verklaringen
(deels) uitgesloten door randomisaties
Zowel observeerbare als niet-oberveerbare kenmerken moeten gelijk zijn
- Statistische controle: in data-analyse strategie
Optie 1: Onderzoek x-y verband binnen subgroepen (op basis van andere
variabelen). → Vaak niet realistisch
Optie 2: Neem alternatieve verklaringen op in je statistische model.
Multivariate relaties: relatie x, y veranderd door herkennen Z
Belangrijk om relevante alternatieve verklaringen te herkennen sociale theorie kennen
Statistische analyses en interpretatie aanpassen statistiek
Zodat je vertekende resultaten door lurking (sluimerende) variabele kunt
vermijden. Variabelen die niet zijn meegenomen in een studie, maar wel de onderzochte
relatie verklaren of beïnvloeden.
1. Spurieus verband (schijnverband):
tussen x en y; wanneer beide variabelen ook samenhangen met een 3de variabele
en de relatie tussen x en y verdwijnt als gecontroleerd wordt op 3 de variabele
- Het geschatte verband tussen variabelen kan drastisch veranderen, afhankelijk
van de gekozen data-analyse strategie
2. Suppressie (onderdrukking):
soms (bijna) geen verband tussen x en y, tot controleren voor 3de variabele
- Het verband tussen interventie (x) en woordenschat (y) wordt onderdrukt door
conditie voorafgaand aan onderzoek
3. Simpson’s paradox (omgekeerd)
Verband tussen x (typfouten), y (snelheid) omgekeerd nadat controle 3de variabele
type-ervaring (positief negatief)
1
, - Gemiddeld genomen hebben ervaren typisten sneller en minder typefouten
- Individueel niveau juist hoe sneller je typt, hoe minder fouten
4. Kettingrelatie (mediatie)
Een andere reden waardoor het verband tussen x1 en y soms verdwijnt na
controle voor x2; x1 heeft indirect effect op y, via mediator x2
- x1 veroorzaakt x2, x2 veroorzaakt y vaak onderwerp interventies
‘mechanisme van verandering’
→ Het verband tussen onderwijs (x1) en levensverwachting (y) verdwijnt of
verzwakt als inkomen (x2) wordt meegenomen als mediator
5. Statistische interactie; interactie effect tussen voorspellers voorspellers bias
Relatie tussen x1 en y is verschillend voor verschillende niveaus x2 (moderator)
- Eerst geen verband tussen x en y, tot kijken naar subpopulaties op basis x2
- Positieve relatie tussen x en y: sterker bij een groep dan de andere
- Negatieve relatie tussen x en y: minder sterk of negatief binnen subpopulatie x2
Multivariate relaties: meerdere oorzaken
Meestal hebben verschillen in een uitkomstvariabelen echter meerdere oorzaken:
• Verschillende variabelen verklaren tezamen verschillen in y
Deze oorzaken zijn meestal gecorreleerd:
• We noemen dit ook wel confounding [verwarring].
• Het verband tussen x en y verandert (deels) wanneer een extra x wordt opgenomen in
het model; Bijv. In het geval van spurieuze verbanden, suppressie en Simpson’s paradox.
En soms ongecorreleerd:
• Het verband tussen x en y verandert niet (of nauwelijks) wanneer een extra x wordt
opgenomen in het model. Desondanks kan er sprake zijn van statistische interactie
Correlationele verbanden zijn ook interessant. Bijvoorbeeld om te onderzoeken welke
subgroepen problemen ervaren en baad kunnen hebben bij een interventie. Beperk je in
je eigen onderzoek dus vooral niet tot het trekken van causale conclusie, maar wees
bewust van verschillende
verbanden die het onderzoeken
waard zijn en wees voorzichtig
met causale interpretaties.
Samenvatting:
Vaak is het nuttig om extra
variabelen op te nemen in een
statistisch model, zodat de
relatie tussen je primaire
voorspeller en uitkomstmaat
betekenisvol geïnterpreteerd
kan worden. Om rekening te
houden met:
• Confounding (i.e., vermijden
sluimerende variabelen):
• Spurieuze verbanden
• Suppressie
• Simpson’s paradox
• Interactie-effecten
• Verschilt het verband
tussen x en y tussen niveaus (of subgroepen) van x2?
• Meerdere oorzaken
• Verklaren variabelen x1 en x2 onafhankelijk verschillen in y?
• OF verklaart x2 extra verschillen in y, naast de verschillen die al door x1
verklaard worden?
2
,Multivariate statistiek:
• Eén kwantitatieve uitkomst
• Twee of meer categorische en/of
kwantitatieve voorspellers
Incl. controle variabelen en
interactie-effecten
• Data beschrijven met uni- en
bivariate statistieken
Hoorcollege 2: Enkelvoudige
regressie (Hoofdstuk 9)
Formuleer een hypothese
Ongericht: x hangt samen met y →
Klasgrootte hangt samen met
schoolprestaties
Met richting:
Positief verband: Hogere x
voorspelt hogere y (en vice versa)
→ Gemiddeld nemen prestaties toe wanneer de klasgrootte toeneemt
→ Gemiddeld nemen prestaties af wanneer de klasgrootte afneemt
Negatief verband: Hogere x voorspelt lagere y (en vice versa)
→ Prestaties zijn meestal beter in kleinere klassen
→ Prestaties zijn meestal slechter in grotere klassen
Onderzoek kenmerken en variabelen inspecteren
Cross-sectionele studie → onder willekeurig geselecteerde basisscholen in Nederland
Class size: Gemeten als de gemiddelde klasgrootte van een school
→ Voorspeller → Kwantitatief
Academic performance: De schools gemiddelde score op een gestandaardizeerde test
→ Criterium (uitkomstmaat) → Kwantitatief
Beschrijvende statistieken
Univeriate statistieken beschrijven van één variabele
• Vorm: klok-vormig (scheef/uniform/bimodaal)
• Locatie parameter: Gemiddelde (of Mediaan/Modus)
• Schaal: Standaard deviatie (SD; of variantie/min/max)
Spreidingsdiagrammen visualiseren het verband tussen uitkomst (y) en voorspellende (x)
variabele:
• Elke stip is een observatie
• Inspecteer: Is een lineair model (ŷ = 𝑎 + 𝑏𝑥) geschikt om het verband te beschrijven?
Ja dan kleinste kwadranten methode om lineaire model te schatten= best passende lijn
Lineaire regressievergelijking
Ŷ = 𝑎 + 𝑏𝑥
ŷ = voorspelde uitkomst 𝑎 = y-intercept
→ Voorspelde Y waarde wanneer x = 0
𝑏 = helling [slope]
→ Gemiddelde verandering in y voor een 1-punts toename in x
Het verband tussen uitkomst (y) en voorspeller (x) kan zijn:
• Positief (𝑏 > 0):
→ Hoge waarden op x komen vaak voor icm hoge waardes op y (en lage x met lage y)
• Negatief (𝑏 < 0)
→ Hoge waarden op x komen vaak voor icm lage warden op y (en lage x met hoge y)
• Niet bestaand (𝑏 = 0)
→ Geen verband tussen x en y
Kleinste kwadratenschatting van lineair model
Hoe a en b bepaald worden:
3
, 𝑏 = ∑(𝑥− x ) (𝑦− y ) = ∑(𝑥− x )2
a = y – bx
b is positief als: Hoge waarden op x vaak voorkomen icm hoge waardes op y (en lage x
met lage y)
b is negatief als: Hoge waarden op x vaak voorkomen icm lage waarden op y (en lage x
met hoge y)
We kunnen b meestal niet gebruiken om de sterkte van het verband tussen x en y te
interpreteren! → b hangt af van de schaal waarop x en y zijn gemeten.
Oplossing: Inspecteer de effectmaat (een schaal-vrije maat van het verband)
= b-schalen op gestandaarde helling of Pearson’s correlatie; b* = r = (sx/ sy)b
Een aantal feiten over 𝑟:
• r valt altijd tussen -1 en 1
• r heeft hetzelfde ‘teken’ als b:
• r < 0 als b < 0; 𝑟 = 0 als b = 0; r > 0 als b > 0
• 𝑟 = -1 of 1 als x perfecte voorspeller van y : er zijn geen residuen
Y = geobserveerd data punt individueel
ŷ = verwachte datapunt aan de hand van linieare regressie lijn
y = gemiddelde van Y (mean)
Residuen: punten die afwijken van de perfecte lijn. Gebruiken om te bepalen hoe goed het
model y voorspelt.
y = 𝑎 + 𝑏𝑥 + 𝑒 E = y – ŷ afwijking van gemiddelde
Ŷ = a + bx
4
Hoorcollege 1: Multivariante Verbanden
Algemene statistische geletterdheid: leren evalueren van statische resultaten, leidraad
voor privé en publieke keuzes, kritisch naar informatie leren kijken
Sociale werkveld: goed kiezen wat relevant is voor doelpopulatie
Basis statistiek 1
Steekproeven: representativiteit, manieren verzamelen
Beschrijvende statistiek: samenvatten steekproef of populatie met tabellen, figuren,
getallen
Inferentiële statistiek: voorspellingen maken over populatie parameters, gebaseerd op
steekproef
Correlatie = geen causatie
Opletten voor spurieuze verbanden (schijnverband)
Er is een verband tussen A en B, maar, dit verband is te verklaren door andere
variabelen die zowel A als B veroorzaken; A veroorzaakt B niet
Vragen in vakgebied gaan vaak over causaliteit: Zorgen kleinere klassen (x) voor betere
leerprestaties (y)?
John Stuart Mill (1843): 3 criteria om causaliteit vast te stellen
We kunnen alleen beargumenteren dat B veroorzaakt wordt door A als:
1. Er een verband bestaat tussen A en B (associatie)
2. B moet plaatsvinden na A (volgordelijkheid)
3. Het verband tussen A en B niet wordt verklaard door andere factoren (alternatieve
verklaringen zijn uitgesloten)
Alternatieve verklaringen uitsluiten:
- Experimentele controle: in onderzoeksdesign
Random control trial: volg-ordelijkheid gemanipuleerd en alternatieve verklaringen
(deels) uitgesloten door randomisaties
Zowel observeerbare als niet-oberveerbare kenmerken moeten gelijk zijn
- Statistische controle: in data-analyse strategie
Optie 1: Onderzoek x-y verband binnen subgroepen (op basis van andere
variabelen). → Vaak niet realistisch
Optie 2: Neem alternatieve verklaringen op in je statistische model.
Multivariate relaties: relatie x, y veranderd door herkennen Z
Belangrijk om relevante alternatieve verklaringen te herkennen sociale theorie kennen
Statistische analyses en interpretatie aanpassen statistiek
Zodat je vertekende resultaten door lurking (sluimerende) variabele kunt
vermijden. Variabelen die niet zijn meegenomen in een studie, maar wel de onderzochte
relatie verklaren of beïnvloeden.
1. Spurieus verband (schijnverband):
tussen x en y; wanneer beide variabelen ook samenhangen met een 3de variabele
en de relatie tussen x en y verdwijnt als gecontroleerd wordt op 3 de variabele
- Het geschatte verband tussen variabelen kan drastisch veranderen, afhankelijk
van de gekozen data-analyse strategie
2. Suppressie (onderdrukking):
soms (bijna) geen verband tussen x en y, tot controleren voor 3de variabele
- Het verband tussen interventie (x) en woordenschat (y) wordt onderdrukt door
conditie voorafgaand aan onderzoek
3. Simpson’s paradox (omgekeerd)
Verband tussen x (typfouten), y (snelheid) omgekeerd nadat controle 3de variabele
type-ervaring (positief negatief)
1
, - Gemiddeld genomen hebben ervaren typisten sneller en minder typefouten
- Individueel niveau juist hoe sneller je typt, hoe minder fouten
4. Kettingrelatie (mediatie)
Een andere reden waardoor het verband tussen x1 en y soms verdwijnt na
controle voor x2; x1 heeft indirect effect op y, via mediator x2
- x1 veroorzaakt x2, x2 veroorzaakt y vaak onderwerp interventies
‘mechanisme van verandering’
→ Het verband tussen onderwijs (x1) en levensverwachting (y) verdwijnt of
verzwakt als inkomen (x2) wordt meegenomen als mediator
5. Statistische interactie; interactie effect tussen voorspellers voorspellers bias
Relatie tussen x1 en y is verschillend voor verschillende niveaus x2 (moderator)
- Eerst geen verband tussen x en y, tot kijken naar subpopulaties op basis x2
- Positieve relatie tussen x en y: sterker bij een groep dan de andere
- Negatieve relatie tussen x en y: minder sterk of negatief binnen subpopulatie x2
Multivariate relaties: meerdere oorzaken
Meestal hebben verschillen in een uitkomstvariabelen echter meerdere oorzaken:
• Verschillende variabelen verklaren tezamen verschillen in y
Deze oorzaken zijn meestal gecorreleerd:
• We noemen dit ook wel confounding [verwarring].
• Het verband tussen x en y verandert (deels) wanneer een extra x wordt opgenomen in
het model; Bijv. In het geval van spurieuze verbanden, suppressie en Simpson’s paradox.
En soms ongecorreleerd:
• Het verband tussen x en y verandert niet (of nauwelijks) wanneer een extra x wordt
opgenomen in het model. Desondanks kan er sprake zijn van statistische interactie
Correlationele verbanden zijn ook interessant. Bijvoorbeeld om te onderzoeken welke
subgroepen problemen ervaren en baad kunnen hebben bij een interventie. Beperk je in
je eigen onderzoek dus vooral niet tot het trekken van causale conclusie, maar wees
bewust van verschillende
verbanden die het onderzoeken
waard zijn en wees voorzichtig
met causale interpretaties.
Samenvatting:
Vaak is het nuttig om extra
variabelen op te nemen in een
statistisch model, zodat de
relatie tussen je primaire
voorspeller en uitkomstmaat
betekenisvol geïnterpreteerd
kan worden. Om rekening te
houden met:
• Confounding (i.e., vermijden
sluimerende variabelen):
• Spurieuze verbanden
• Suppressie
• Simpson’s paradox
• Interactie-effecten
• Verschilt het verband
tussen x en y tussen niveaus (of subgroepen) van x2?
• Meerdere oorzaken
• Verklaren variabelen x1 en x2 onafhankelijk verschillen in y?
• OF verklaart x2 extra verschillen in y, naast de verschillen die al door x1
verklaard worden?
2
,Multivariate statistiek:
• Eén kwantitatieve uitkomst
• Twee of meer categorische en/of
kwantitatieve voorspellers
Incl. controle variabelen en
interactie-effecten
• Data beschrijven met uni- en
bivariate statistieken
Hoorcollege 2: Enkelvoudige
regressie (Hoofdstuk 9)
Formuleer een hypothese
Ongericht: x hangt samen met y →
Klasgrootte hangt samen met
schoolprestaties
Met richting:
Positief verband: Hogere x
voorspelt hogere y (en vice versa)
→ Gemiddeld nemen prestaties toe wanneer de klasgrootte toeneemt
→ Gemiddeld nemen prestaties af wanneer de klasgrootte afneemt
Negatief verband: Hogere x voorspelt lagere y (en vice versa)
→ Prestaties zijn meestal beter in kleinere klassen
→ Prestaties zijn meestal slechter in grotere klassen
Onderzoek kenmerken en variabelen inspecteren
Cross-sectionele studie → onder willekeurig geselecteerde basisscholen in Nederland
Class size: Gemeten als de gemiddelde klasgrootte van een school
→ Voorspeller → Kwantitatief
Academic performance: De schools gemiddelde score op een gestandaardizeerde test
→ Criterium (uitkomstmaat) → Kwantitatief
Beschrijvende statistieken
Univeriate statistieken beschrijven van één variabele
• Vorm: klok-vormig (scheef/uniform/bimodaal)
• Locatie parameter: Gemiddelde (of Mediaan/Modus)
• Schaal: Standaard deviatie (SD; of variantie/min/max)
Spreidingsdiagrammen visualiseren het verband tussen uitkomst (y) en voorspellende (x)
variabele:
• Elke stip is een observatie
• Inspecteer: Is een lineair model (ŷ = 𝑎 + 𝑏𝑥) geschikt om het verband te beschrijven?
Ja dan kleinste kwadranten methode om lineaire model te schatten= best passende lijn
Lineaire regressievergelijking
Ŷ = 𝑎 + 𝑏𝑥
ŷ = voorspelde uitkomst 𝑎 = y-intercept
→ Voorspelde Y waarde wanneer x = 0
𝑏 = helling [slope]
→ Gemiddelde verandering in y voor een 1-punts toename in x
Het verband tussen uitkomst (y) en voorspeller (x) kan zijn:
• Positief (𝑏 > 0):
→ Hoge waarden op x komen vaak voor icm hoge waardes op y (en lage x met lage y)
• Negatief (𝑏 < 0)
→ Hoge waarden op x komen vaak voor icm lage warden op y (en lage x met hoge y)
• Niet bestaand (𝑏 = 0)
→ Geen verband tussen x en y
Kleinste kwadratenschatting van lineair model
Hoe a en b bepaald worden:
3
, 𝑏 = ∑(𝑥− x ) (𝑦− y ) = ∑(𝑥− x )2
a = y – bx
b is positief als: Hoge waarden op x vaak voorkomen icm hoge waardes op y (en lage x
met lage y)
b is negatief als: Hoge waarden op x vaak voorkomen icm lage waarden op y (en lage x
met hoge y)
We kunnen b meestal niet gebruiken om de sterkte van het verband tussen x en y te
interpreteren! → b hangt af van de schaal waarop x en y zijn gemeten.
Oplossing: Inspecteer de effectmaat (een schaal-vrije maat van het verband)
= b-schalen op gestandaarde helling of Pearson’s correlatie; b* = r = (sx/ sy)b
Een aantal feiten over 𝑟:
• r valt altijd tussen -1 en 1
• r heeft hetzelfde ‘teken’ als b:
• r < 0 als b < 0; 𝑟 = 0 als b = 0; r > 0 als b > 0
• 𝑟 = -1 of 1 als x perfecte voorspeller van y : er zijn geen residuen
Y = geobserveerd data punt individueel
ŷ = verwachte datapunt aan de hand van linieare regressie lijn
y = gemiddelde van Y (mean)
Residuen: punten die afwijken van de perfecte lijn. Gebruiken om te bepalen hoe goed het
model y voorspelt.
y = 𝑎 + 𝑏𝑥 + 𝑒 E = y – ŷ afwijking van gemiddelde
Ŷ = a + bx
4