MMC Deel B
Let op: De samenvatting is in de volgorde van de paragrafen. Niet in de volgorde van de colleges.
Hier is een overzicht.
College 8 Sampling
3.3
IRM P1, C5
College 9 Betrouwbaarheid, validiteit en causaliteit
2.7
IRM pp. 53-70
College 10 Experimenteel onderzoek
3.2 (m.u.v.182-185*); 4.1, 5.1
IRM P1, C7
College 11 Steekproevenverdeling en betrouwbaarheidsintervallen (7 mei)
5.1, 5.2, 6.1
College 12 Z-toets en caveats (18 mei)
6.2, 6.3
College 13 Power, Type I en II fouten, t-toets (28 mei)
6.4, 7.1
College 14 Relaties in kruistabellen en de chi-kwadraattoets (4 juni)
2.6, 9.1
,2.6 Data Analysis for Two-Way Tables
Voor het analyseren van twee kwantitatieve variabelen gebruiken we spreidingsdiagrammen
(scatterplots). Voor twee categorische variabelen gebruiken we kruistabellen.
Tweerichtingstabel
In zo’n tabel zie je de relatie tussen de twee variabelen. In de kolommen stop je de afhankelijke
variabele en in de rijen de onafhankelijke variabele.
Een 2x3 tabel is een tabel met 2 rijen en 3 kolommen.
Voorbeeld 2x2 tabel met leeftijd als afhankelijke variabele en ‘effect’ als onafhankelijke:
---------------------------- Leeftijd 5-10 jaar 11-13 jaar
Effect ---------------------------- ---------------------------- ----------------------------
Nee ---------------------------- 194 557
Ja ---------------------------- 861 417
Gezamenlijke distributie (joint distribution)
Een handige manier om dit soort data te kunnen lezen is de getallen uit te drukken in proporties. De
totale steekproef hierboven aangegeven is 2029. Van die 2029 zijn 194 tussen de 5-10 jaar en
hebben geen effect ondervonden. De proportie is hier 0.0956 (194:2029). De distributie is zo beter
leesbaar.
Marginale distributies
De marginale distributie is de 2029 te delen door het totaal van een afhankelijke variabele. Dus bv
alle kinderen van 5-10 jaar. 194+861=1055 en 1055:2029 = 0.52. Het liefste gebruiken wij
procenten. De proportie 0.52 is dan 52% (percentage is niet hetzelfde als proportie. Let op waar ze
naar vragen op je tentamen).
Het beschrijven van relaties in tweerichtingstabellen
Stel de vraag is ‘welk percentage kinderen tussen 5-10 jaar hebben effect ondervonden?’.
861+194=1055 en 861:1055 = 0.8161. Ze vragen naar percentage dus 81.61%.
Simpson’s paradox
Een tweerichtingstabel kan misleidend zijn door een loerende variabele.
De loerende variabele hier zijn de dagen. In dit
voorbeeld scoor jij niet zo goed als je vriend.
Maar gemiddeld gezien scoor jij beter. Dat is de
paradox. Het verband keert zich dus om als je er
een variabele bij doet die van belang is.
, 2.7 The Question of Causation
Soms is er een verband tussen twee variabelen. Maar wanneer is er causatie? Causatie is als de ene
variabele de oorzaak is van de andere.
Causatie: Als X dan ook Y. Door het ene gebeurt het andere.
Gemeenschappelijke reactie: Z veroorzaakt X en Y. Je ziet dan beide X en Y, maar er is niet
zozeer causatie tussen X en Y. Voorbeeld: de meer ijsjes mensen eten (X) de meer mensen er
verdrinken (Y). Dit komt door de zomer (Z). De zomer is hier een loerende variabele.
Verstoring (confounding): X, Y en Z worden allen in relatie met elkaar gezien. Er is onbekend wat
door wat komt omdat de variabelen in elkaar verward zijn. Voorbeeld: hoge BMI van dochters
wordt veroorzaakt door hoogte BMI van hun moeders? Of komt het door een ongezond eetpatroon
of leefgewoonten. Alles is in elkaar verstrengeld.
Indirecte relatie: X veroorzaakt Z, en Z veroorzaakt Y. Dit wordt niet in het boek genoemd, maar
wel in het college.
Het vaststellen van causatie
Het vinden van causatie kan door onderzoeken voorzichtig en volledig te formuleren. Er moet veel
oog zijn voor enige loerende variabelen. Bepaalde mogelijke causatie zijn niet te onderzoeken.
Bijvoorbeeld omdat het niet ethisch is of omdat er ‘verstoring’ is.
Wat zijn de criteria voor het vaststellen van causatie als we niet kunnen experimenteren:
– De associatie is sterk: bv veel mensen met longkanker hebben gerookt of roken nog steeds.
– De associatie is consistent: veel studies linken roken met longkanker.
– hogere doses zijn geassocieerd met sterkere reacties: mensen die meer roken krijgen vaker
longkanker.
– De oorzaak is vóór de reactie: pas na jaren roken krijg je longkanker.
– De oorzaak is aannemelijk: Tar van sigarettenrook veroorzaakt kanker als het bij muizen op de
rug wordt gesmeerd.
Let op: De samenvatting is in de volgorde van de paragrafen. Niet in de volgorde van de colleges.
Hier is een overzicht.
College 8 Sampling
3.3
IRM P1, C5
College 9 Betrouwbaarheid, validiteit en causaliteit
2.7
IRM pp. 53-70
College 10 Experimenteel onderzoek
3.2 (m.u.v.182-185*); 4.1, 5.1
IRM P1, C7
College 11 Steekproevenverdeling en betrouwbaarheidsintervallen (7 mei)
5.1, 5.2, 6.1
College 12 Z-toets en caveats (18 mei)
6.2, 6.3
College 13 Power, Type I en II fouten, t-toets (28 mei)
6.4, 7.1
College 14 Relaties in kruistabellen en de chi-kwadraattoets (4 juni)
2.6, 9.1
,2.6 Data Analysis for Two-Way Tables
Voor het analyseren van twee kwantitatieve variabelen gebruiken we spreidingsdiagrammen
(scatterplots). Voor twee categorische variabelen gebruiken we kruistabellen.
Tweerichtingstabel
In zo’n tabel zie je de relatie tussen de twee variabelen. In de kolommen stop je de afhankelijke
variabele en in de rijen de onafhankelijke variabele.
Een 2x3 tabel is een tabel met 2 rijen en 3 kolommen.
Voorbeeld 2x2 tabel met leeftijd als afhankelijke variabele en ‘effect’ als onafhankelijke:
---------------------------- Leeftijd 5-10 jaar 11-13 jaar
Effect ---------------------------- ---------------------------- ----------------------------
Nee ---------------------------- 194 557
Ja ---------------------------- 861 417
Gezamenlijke distributie (joint distribution)
Een handige manier om dit soort data te kunnen lezen is de getallen uit te drukken in proporties. De
totale steekproef hierboven aangegeven is 2029. Van die 2029 zijn 194 tussen de 5-10 jaar en
hebben geen effect ondervonden. De proportie is hier 0.0956 (194:2029). De distributie is zo beter
leesbaar.
Marginale distributies
De marginale distributie is de 2029 te delen door het totaal van een afhankelijke variabele. Dus bv
alle kinderen van 5-10 jaar. 194+861=1055 en 1055:2029 = 0.52. Het liefste gebruiken wij
procenten. De proportie 0.52 is dan 52% (percentage is niet hetzelfde als proportie. Let op waar ze
naar vragen op je tentamen).
Het beschrijven van relaties in tweerichtingstabellen
Stel de vraag is ‘welk percentage kinderen tussen 5-10 jaar hebben effect ondervonden?’.
861+194=1055 en 861:1055 = 0.8161. Ze vragen naar percentage dus 81.61%.
Simpson’s paradox
Een tweerichtingstabel kan misleidend zijn door een loerende variabele.
De loerende variabele hier zijn de dagen. In dit
voorbeeld scoor jij niet zo goed als je vriend.
Maar gemiddeld gezien scoor jij beter. Dat is de
paradox. Het verband keert zich dus om als je er
een variabele bij doet die van belang is.
, 2.7 The Question of Causation
Soms is er een verband tussen twee variabelen. Maar wanneer is er causatie? Causatie is als de ene
variabele de oorzaak is van de andere.
Causatie: Als X dan ook Y. Door het ene gebeurt het andere.
Gemeenschappelijke reactie: Z veroorzaakt X en Y. Je ziet dan beide X en Y, maar er is niet
zozeer causatie tussen X en Y. Voorbeeld: de meer ijsjes mensen eten (X) de meer mensen er
verdrinken (Y). Dit komt door de zomer (Z). De zomer is hier een loerende variabele.
Verstoring (confounding): X, Y en Z worden allen in relatie met elkaar gezien. Er is onbekend wat
door wat komt omdat de variabelen in elkaar verward zijn. Voorbeeld: hoge BMI van dochters
wordt veroorzaakt door hoogte BMI van hun moeders? Of komt het door een ongezond eetpatroon
of leefgewoonten. Alles is in elkaar verstrengeld.
Indirecte relatie: X veroorzaakt Z, en Z veroorzaakt Y. Dit wordt niet in het boek genoemd, maar
wel in het college.
Het vaststellen van causatie
Het vinden van causatie kan door onderzoeken voorzichtig en volledig te formuleren. Er moet veel
oog zijn voor enige loerende variabelen. Bepaalde mogelijke causatie zijn niet te onderzoeken.
Bijvoorbeeld omdat het niet ethisch is of omdat er ‘verstoring’ is.
Wat zijn de criteria voor het vaststellen van causatie als we niet kunnen experimenteren:
– De associatie is sterk: bv veel mensen met longkanker hebben gerookt of roken nog steeds.
– De associatie is consistent: veel studies linken roken met longkanker.
– hogere doses zijn geassocieerd met sterkere reacties: mensen die meer roken krijgen vaker
longkanker.
– De oorzaak is vóór de reactie: pas na jaren roken krijg je longkanker.
– De oorzaak is aannemelijk: Tar van sigarettenrook veroorzaakt kanker als het bij muizen op de
rug wordt gesmeerd.