Kruistabel
Categorische/ bevat heel wat informatie in compacte vorm. Om die informatie duidelijk
kwalitatieve variabelen te maken, moet je bijna altijd de procenten berekenen. Daarna beslis de
welke percentages je nodig hebt.
, Manieren om relaties tussen 2 variabelen weer te geven:
Scatterplot
Kwalitatieve variabelen
X-as Y-as
Explanatory/ independent variabele Two-way table/ crosstabs
Een response/dependent variable
=veroorzaakt verandering in de response variable of legt = meet een uitkomst van een studie.
de verandering in de response variable uit.
causaal verband; andere variabele veroorzaakt Voor elke cel kun je een proportie berekenen
criterion variabele
Predictor variabele Joint distribution
= alleen een relatie bekijken, maar geen causaal verband = Hoeveel een cel is van het echte totaal
Dus; alle cellen = 100%
Marginal distribution
Vorm? Richting? Sterkte?
Maginalen = de rand/ de totalen = Hoeveel een totaal van een rij/kolom is van het
gehele totaal
Positief = links onder naar rechts boven (a) Hoe dichter die punten bij
Is het een lineaire Als x toeneemt, neemt y ook toe Dus: marginalen per categorie van rij / kolom=100%.
elkaar liggen, hoe sterker het
relatie? -> de vorm
verband als de meeteenheid
moet passen bij een Negatief = rechts boven naar links onder(b)
gelijk blijft
rechte lijn (b) Als x toeneemt, zal y afnemen
Het kan namelijk (geldt alleen bij een lineare relatie) Door te kijken hoe dicht de
ook anders zijn, bijv. Conditional puntjes bij het model liggen die
distribution
= een verdeling de puntenwolk het bestewaarin
binnen een kolom/rij
een parabool (d)
beschrijft;
je kijkt naar de waarde van de andere
hoe dicht liggen de punten bij
variabele. -> cel delen door totaal kolom
de lijn;
Dus: cellen per rijwat is de=100%
of kolom verticale afstand van
de punten en->de
Gegeven [variabele, variabele] duslijn.
binnen die
variabele rekenen -> een cel delen door het totaal van
Wanneer is er een samenhang? die gegeven variabele
Kijken naar de kans gegeven [variabele 1] en dat vergelijk je met de kans van gegeven [variabele 2]
-> De proportie [variabele 1] bij gegeven is > of < dan de proportie van variabele 2
Pas op voor outliers, de r wordt daardoor makkelijk
beïnvloed
Bivariatie outlier = een outlier die afwijkend is ten
opzichte van een puntenwolk.
Beinvloedt de r heel erg -> kijken wat zo’n outlier
met de r doet
Simpson’s paradox
=een vereniging of vergelijking die geldt voor alle verschillende groepen kan van richting veranderen als de data wordt
samengevoegd tot één groep.
Dat is een extreme vorm van het feit dat geobserveerde associaties misleidend kunnen zijn als er lurking variables
aanwezig zijn. (is vaak bij categorische variabelen)
Je kunt data ook weergeven in een three-way table, die informatie geeft over de aantallen voor
elke combinatie van drie categorische variabelen.