Samenvatting syllabus statistische methoden deel 2
Hoofdstuk 10: kruistabellen
Een belangrijk aspect van statistiek is het zoeken naar statische verbanden. we willen weten of variabelen elkaar
beïnvloeden en hoe sterk de samenhang is. Hoofdstuk 10 gaat over de samenhang tussen categorische variabelen
(nominale of ordinale variabelen). De categorieën van beide variabelen worden tegen elkaar afgezet in een
kruistabel.
● De sterkte van een verband worden bepaald met associatiematen;
● Bivariate relaties = verbanden tussen twee variabelen;
● Multivariate relaties = verbanden tussen meer dan twee variabelen (uitsplitsen).
10.1 kruistabellen
= een frequentieverdeling van een combinatie van twee variabelen.
In een cel (rij + kolom) staat het aantal waarnemingen dat voldoet aan de eigenschappen van zowel de rij- als de
kolomcategorie. Het aantal waarnemingen in een cel noemen we de celfrequentie.
- In een kruistabel worden de rijen met een ‘i’ aangeduid, de kolommen worden met een ‘j’ aangeduid. >
Elke cel is dus gedefinieerd door een unieke combinatie ‘ij’ .
Regels kruistabel:
1. Een tabel heeft altijd een tabelnummer, titel en een bron;
2. De onderscheiden categorieën van elke variabelen dienen uitputtend en elkaar wederzijds uitsluitend te
zijn. Dit betekent dat elke waarneming in een cel past, maar ook slechts in 1 cel;
3. Onderscheid niet teveel categorieën (niet meer dan 5);
4. Vermijd lege cellen: voeg categorieën met weinig of geen waarnemingen samen met andere
categorieën;
5. Zet de variabelen waarvan je de categorieën of groepen met elkaar wil vergelijken (bij causale relaties
is dit de oorzakelijke variabele) in de kolommen, en precenteer verticaal (kolommen tellen op tot
100%);
6. Zet in de kruistabel zowel de absolute frequenties (aantallen) als de relatieve frequenties
(kolompercentages: bij interpreteren de belangrijkste percentages noemen). Verwachte celfrequenties
worden nooit opgenomen;
7. In de onderste rij en rechter kolom staan de marginalen of randtotalen. Dit zijn de
frequentieverdelingen van de afzonderlijke variabelen. Er geldt: totaal rijen = totaal kolommen = totaal
celfrequenties = totaal aantal waarnemingen (n).
10.2 Chi-kwadraat toets op onafhankelijkheid
= Met de Chi-kwadraattoets voor onafhankelijkheid (independence) wordt onderzocht of er een significant
verband bestaat tussen de categorische variabelen in een kruistabel. Hierbij worden de waargenomen
celfrequenties (observed frequenties) van de kruistabel vergeleken met de celfrequenties die je zou verwachten
als de celverdeling op toeval berust (expected frequencies): dus als er geen statistisch verband is.
Waargenomen celfrequenties:
= De gemeten frequenties. Ze worden aangeduid met Oij (observerend frequency van de cel van rij i en kolom j).
Verwachte celfrequenties:
= De celfrequenties die we zouden verwachten die we zouden verwachten als de verdeling over de cellen op
toeval berust (en er dus geen statisch verband is) worden de Expected frequencies genoemd. Ze worden
aangeduid met Eij. We kunnen de verwachte celfrequenties berekenen.
Als de waargenomen celfrequenties hetzelfde zijn als de verwachte, berust de verdeling in de kruistabel op
toeval. Er is dan geen statisch verband; de variabelen zijn onafhankelijk. Als er een duidelijk verschil is tussen
1
Hoofdstuk 10: kruistabellen
Een belangrijk aspect van statistiek is het zoeken naar statische verbanden. we willen weten of variabelen elkaar
beïnvloeden en hoe sterk de samenhang is. Hoofdstuk 10 gaat over de samenhang tussen categorische variabelen
(nominale of ordinale variabelen). De categorieën van beide variabelen worden tegen elkaar afgezet in een
kruistabel.
● De sterkte van een verband worden bepaald met associatiematen;
● Bivariate relaties = verbanden tussen twee variabelen;
● Multivariate relaties = verbanden tussen meer dan twee variabelen (uitsplitsen).
10.1 kruistabellen
= een frequentieverdeling van een combinatie van twee variabelen.
In een cel (rij + kolom) staat het aantal waarnemingen dat voldoet aan de eigenschappen van zowel de rij- als de
kolomcategorie. Het aantal waarnemingen in een cel noemen we de celfrequentie.
- In een kruistabel worden de rijen met een ‘i’ aangeduid, de kolommen worden met een ‘j’ aangeduid. >
Elke cel is dus gedefinieerd door een unieke combinatie ‘ij’ .
Regels kruistabel:
1. Een tabel heeft altijd een tabelnummer, titel en een bron;
2. De onderscheiden categorieën van elke variabelen dienen uitputtend en elkaar wederzijds uitsluitend te
zijn. Dit betekent dat elke waarneming in een cel past, maar ook slechts in 1 cel;
3. Onderscheid niet teveel categorieën (niet meer dan 5);
4. Vermijd lege cellen: voeg categorieën met weinig of geen waarnemingen samen met andere
categorieën;
5. Zet de variabelen waarvan je de categorieën of groepen met elkaar wil vergelijken (bij causale relaties
is dit de oorzakelijke variabele) in de kolommen, en precenteer verticaal (kolommen tellen op tot
100%);
6. Zet in de kruistabel zowel de absolute frequenties (aantallen) als de relatieve frequenties
(kolompercentages: bij interpreteren de belangrijkste percentages noemen). Verwachte celfrequenties
worden nooit opgenomen;
7. In de onderste rij en rechter kolom staan de marginalen of randtotalen. Dit zijn de
frequentieverdelingen van de afzonderlijke variabelen. Er geldt: totaal rijen = totaal kolommen = totaal
celfrequenties = totaal aantal waarnemingen (n).
10.2 Chi-kwadraat toets op onafhankelijkheid
= Met de Chi-kwadraattoets voor onafhankelijkheid (independence) wordt onderzocht of er een significant
verband bestaat tussen de categorische variabelen in een kruistabel. Hierbij worden de waargenomen
celfrequenties (observed frequenties) van de kruistabel vergeleken met de celfrequenties die je zou verwachten
als de celverdeling op toeval berust (expected frequencies): dus als er geen statistisch verband is.
Waargenomen celfrequenties:
= De gemeten frequenties. Ze worden aangeduid met Oij (observerend frequency van de cel van rij i en kolom j).
Verwachte celfrequenties:
= De celfrequenties die we zouden verwachten die we zouden verwachten als de verdeling over de cellen op
toeval berust (en er dus geen statisch verband is) worden de Expected frequencies genoemd. Ze worden
aangeduid met Eij. We kunnen de verwachte celfrequenties berekenen.
Als de waargenomen celfrequenties hetzelfde zijn als de verwachte, berust de verdeling in de kruistabel op
toeval. Er is dan geen statisch verband; de variabelen zijn onafhankelijk. Als er een duidelijk verschil is tussen
1