Categorische data beschrijven = je noemt de frequentie (counts) of percentage van individuen dat in een
bepaalde categorie valt.
Kruistabel = hierin kun je data van 2 categorische variabelen samenvatten.
Rijvariabele = de variabele aan de linkerkant van de kruistabel → horizontaal wordt er informatie gegeven over
deze variabele.
Kolomvariabele = de variabele aan de bovenkant van de kruistabel → verticaal wordt er informatie gegeven
over deze variabele.
Cellen = elke combinatie van waarden van de kolomvariabele en de rijvariabele.
Joint distribution = het deel dat je krijgt wanneer je de cel deelt door de totale steekproefgrootte.
Marginale distributie = wanneer je kijkt naar de verdeling van één variabele in een kruistabel. Je deelt het
totale aantal van een variabele door de totale steekproefgrootte. Dit kan eventueel vermenigvuldigd worden
met 100 voor een percentage.
Conditionele verdeling = je gaat het percentage uitrekenen over de onafhankelijke variabele → cel / totaal
onafhankelijke variabele * 100. Door de conditionele verdelingen te vergelijken, kun je de relatie tussen de
variabelen beschrijven.
Mosaic plot = grafische weergave van de joint distribution.
Simpsons paradox = het lijkt alsof er een sterke relatie is tussen twee categorische variabelen, maar dit komt
eigenlijk door het feit dat er een lurking variable in het spel is. Wanneer je de variabelen uitsplitst op de lurking
variable, zal het omgekeerde effect zichtbaar worden.
MMC Hoofdstuk 2.7: The Question of Causation
Causaal verband = is lastig vast te stellen: zelfs als je een sterk verband hebt aangetoond, kun je nog niet met
zekerheid spreken over een causaal verband. Er kan namelijk nog een 3e variabele (lurking variabele) in het
spel zijn die beide variabelen beïnvloedt wanneer deze variabele verandert (ijsje → verdrinkingen – mooi weer;
common response). Verder kan er een 3e variabele zijn die, net als x, y beïnvloedt (confounding). Bij confounded
variabelen zijn de effecten van deze variabelen niet van elkaar te onderscheiden. Toch kun je causaliteit
onderzoeken: als je x verandert en voor de rest alle factoren stabiel houdt, zal y ook veranderen wanneer er
sprake is van een causaal verband. Dit kan echter niet altijd om praktische of ethische redenen; in dat geval kun
je kijken of er sprake is van causaliteit als het aan de volgende criteria voldoet: het verband is sterk, het
verband is consequent (over meerdere onderzoeken), hogere doses zijn gelinkt aan sterkere responses, de
beweerde oorzaak gaat vooraf aan het effect (in tijd) & de beweerde oorzaak is plausibel (omdat het bijv op
dieren is getest).
MMC H 3.2 Design of Experiments
Experiment doel = de respons van een variabele als reactie op een verandering in een of meerdere variabelen.
Hierbij wordt de explanatory variable de factor genoemd; het aantal waarden waarin de variabele kan variëren,
heet het level. Een experiment kan goed bewijs leveren voor causaliteit, omdat je de effecten van lurking
variabelen controleert (mits in een wetenschappelijk gecontroleerde omgeving). Bij een onderzoek kan je ook
de gecombineerde effecten van meerdere factoren bestuderen (door alle mogelijke combinaties factoren te
onderzoeken).
Placebo-effect = wanneer een niet werkzame behandeling tóch effect heeft.
Comparative experiment = zo’n soort experiment kun je uitvoeren om confounding effecten (zoals het
placebo-effect) te voorkomen. Hierbij heb je twee groepen waarbij één groep wél de behandeling krijgt
(onderzoeksgroep) en de andere groep niet (controlegroep). Voor de rest worden de groepen hetzelfde
behandelt.
Experimental design = beschrijft de (respons) variabele, de factoren en behandelingen. Ook wordt beschreven
hoe de onderzoeksgroep de behandeling ondergaat.
Vergelijkbare onderzoeksgroepen = deze kun je maken door matching of door randomiseren (het lot deelt de
groepen in (kansberekening)). Randomiseren kan ook met software wanneer je elke participant een label geeft.