Multivariate data-analyse
LES 1: BESCHRIJVENDE MATEN EN KRUISTABELLEN
MEETNIVEAUS:
‣ Proberen op een bondige manier te omschrijven hoeveel data aanwezig zijn in een variabele
‣ Variabele = meting van een kenmerk
‣ Meetniveau = een inschatting maken van hoe we die variabele kunnen categoriseren
Toenemend meetniveau: hoger kan steeds herleid worden tot lager
‣ Categorische variabele
o Nominaal: waarden die wederzijds uitsluitend en exhaustief zijn
→ alle mogelijke waarden zijn aanwezig, iedereen kan maar 1 waarde hebben, de
waarden overlappen niet
→ er is diversiteit, maar er is geen ordening (vb. biologisch geslacht)
o Ordinaal: betekenisvolle ordening van de waarden
→ kunnen gerangschikt worden in iets ‘meer’ of ‘minder’ (vb. opleiding: geen opleiding
– lager opgeleid – hoger opgeleid)
‣ Metrische variabele
o Interval: waarden met geijkte afstanden (vb. temperatuur: is geijkt door het aantal
graden)
→ geen absoluut nulpunt: de waarde 0 is niet per se de laagste mogelijke waarde
o Ratio: betekenisvol of met een absoluut nulpunt
→ de waarde 0 is wèl de laagst mogelijke waarde (vb. aantal ijsjes dat je eet tijdens de
zomer)
→ je kan een betekenisvolle ratio bereken (vb. ik heb op vrijdag 2x zo veel ijsjes gegeten
als maandag)
o In de praktijk komt het meetniveau niet altijd overeen met in de theorie
vb. “hoeveel kinderen zet iemand op de wereld” = voor biologische mannen geen
variabele want hier gaat het antwoord altijd “0” zijn
→ nulpunt is niet betekenisvol
vb. “hoeveel kinderen zet iemand op de wereld”: als iedereen in je onderzoek 2
kinderen heeft, heb je ook geen variatie meer → heb je in de praktijk geen nulpunt of
geen betekenisvolle ratio’s
Altijd belangrijk om het meetniveau af te toetsen tijdens de dataverzameling!
,Multivariate data-analyse
Analysetechnieken:
‣ Je kan altijd van een meer complexe techniek naar een simpelere techniek (vb. lineaire regressie
kan je altijd omzetten naar Anova of naar kruistabel)
‣ Moeilijker om van een simpelere techniek naar een complexe techniek te gaan → voor
complexe techniek: meer informatie nodig
‣ Je kan meetniveaus wel omzetten naar elkaar (vb. categorisch kenmerk gebruiken voor lineaire
regressie) → via omzetting naar ‘dummies’ = nabootsing van metrische variabelen
‣ Een metrisch kenmerk kan je ook altijd categorisch maken (vb. bij lengte, tijd, …)
Databeheer:
‣ Van 1 naar 1: variabele(n) op hoger niveau naar variabele(n) op lager niveau; nooit
omgekeerd!
‣ Van meer naar 1: kunnen meerdere variabelen op een ordinaal meetniveau omgevormd
worden tot een (bij benadering) metrische variabele
o Kernassumptie: onderliggend kenmerk is metrisch
o Schaalconstructie en datareductie
o Duimregel: min. 3 ordinale variabelen nodig om naar 1 metrisch variabele om te
zetten
o Grondig testen! Gedraagt de variabele zich als een metrische variabele?
,Multivariate data-analyse
BESCHRIJVENDE MATEN:
‣ 3 soorten maten: centraliteit – spreiding – vorm
‣ Nominaal:
o Centraliteit: modus → welke categorie bevat de hoogste frequentie?, geen ordening,
geen systematiek
o Spreiding: geen
o Vorm: staafdiagram → elke categorie krijgt een eigen staafje; welk staafje eerst komt
te staan is volledig eigen keuze, er zit geen logica in de volgorde van het staafdiagram
‣ Ordinaal:
o Centraliteit: mediaan → middelpunt: middelste waarde (bij 7 waarden: 4e waarde is de
middelste waarde) → vergt systematiek en ordening
o Spreiding: geen
o Vorm: staafdiagram → geen ijking, maar staven zijn wel gerangschikt volgens een
bepaalde systematiek
‣ Interval:
o Centraliteit: gemiddelde → zwaartepunt
o Spreiding: gaan over de breedte van de distributie (“Hoe breed is de distributie?”
“Liggen de kenmerken dicht bij de mate van centraliteit?”)
→ range, interkwartielafstand, variantie, standaardafwijking
▪ Range: wat is de laagste en hoogste waarde? Tussen welke waarden variëren
de waarden?
▪ Interkwartielafstand: afstand tussen 1e kwartiel en het 3e kwartiel
IQR = Q3 – Q1 → 1e kwartiel = mediaan van de onderste helft van de data (25e percentiel)
→ 3e kwartiel = mediaan van de bovenste helft van de data (75e percentiel)
(𝑿𝒊 − )𝟐
▪ Variantie: gemiddelde kwadratische afwijking van de waarden t.o.v. het
𝟐 =
𝑵
gemiddelde → geeft aan hoe ver de waarden verspreid zijn
= √ 𝟐 ▪ Standaardafwijking: wortel van de variantie, geeft de gemiddelde afwijking
van het gemiddelde
o Vorm: histogram (staafdiagram waarbij balkjes aan elkaar plakken), stem and leaf
plot, skewness en kurtosis
‣ Ratio:
o Centraliteit: gemiddelde
o Spreiding: range, interkwartielafstand, variantie, standaardafwijking
o Vorm: histogram, stem and leaf plot, skewness en kurtosis
, Multivariate data-analyse
Voorbeelden:
(nominale variabele)
(nominale variabele)
(ratio variabele, histogram)
LES 1: BESCHRIJVENDE MATEN EN KRUISTABELLEN
MEETNIVEAUS:
‣ Proberen op een bondige manier te omschrijven hoeveel data aanwezig zijn in een variabele
‣ Variabele = meting van een kenmerk
‣ Meetniveau = een inschatting maken van hoe we die variabele kunnen categoriseren
Toenemend meetniveau: hoger kan steeds herleid worden tot lager
‣ Categorische variabele
o Nominaal: waarden die wederzijds uitsluitend en exhaustief zijn
→ alle mogelijke waarden zijn aanwezig, iedereen kan maar 1 waarde hebben, de
waarden overlappen niet
→ er is diversiteit, maar er is geen ordening (vb. biologisch geslacht)
o Ordinaal: betekenisvolle ordening van de waarden
→ kunnen gerangschikt worden in iets ‘meer’ of ‘minder’ (vb. opleiding: geen opleiding
– lager opgeleid – hoger opgeleid)
‣ Metrische variabele
o Interval: waarden met geijkte afstanden (vb. temperatuur: is geijkt door het aantal
graden)
→ geen absoluut nulpunt: de waarde 0 is niet per se de laagste mogelijke waarde
o Ratio: betekenisvol of met een absoluut nulpunt
→ de waarde 0 is wèl de laagst mogelijke waarde (vb. aantal ijsjes dat je eet tijdens de
zomer)
→ je kan een betekenisvolle ratio bereken (vb. ik heb op vrijdag 2x zo veel ijsjes gegeten
als maandag)
o In de praktijk komt het meetniveau niet altijd overeen met in de theorie
vb. “hoeveel kinderen zet iemand op de wereld” = voor biologische mannen geen
variabele want hier gaat het antwoord altijd “0” zijn
→ nulpunt is niet betekenisvol
vb. “hoeveel kinderen zet iemand op de wereld”: als iedereen in je onderzoek 2
kinderen heeft, heb je ook geen variatie meer → heb je in de praktijk geen nulpunt of
geen betekenisvolle ratio’s
Altijd belangrijk om het meetniveau af te toetsen tijdens de dataverzameling!
,Multivariate data-analyse
Analysetechnieken:
‣ Je kan altijd van een meer complexe techniek naar een simpelere techniek (vb. lineaire regressie
kan je altijd omzetten naar Anova of naar kruistabel)
‣ Moeilijker om van een simpelere techniek naar een complexe techniek te gaan → voor
complexe techniek: meer informatie nodig
‣ Je kan meetniveaus wel omzetten naar elkaar (vb. categorisch kenmerk gebruiken voor lineaire
regressie) → via omzetting naar ‘dummies’ = nabootsing van metrische variabelen
‣ Een metrisch kenmerk kan je ook altijd categorisch maken (vb. bij lengte, tijd, …)
Databeheer:
‣ Van 1 naar 1: variabele(n) op hoger niveau naar variabele(n) op lager niveau; nooit
omgekeerd!
‣ Van meer naar 1: kunnen meerdere variabelen op een ordinaal meetniveau omgevormd
worden tot een (bij benadering) metrische variabele
o Kernassumptie: onderliggend kenmerk is metrisch
o Schaalconstructie en datareductie
o Duimregel: min. 3 ordinale variabelen nodig om naar 1 metrisch variabele om te
zetten
o Grondig testen! Gedraagt de variabele zich als een metrische variabele?
,Multivariate data-analyse
BESCHRIJVENDE MATEN:
‣ 3 soorten maten: centraliteit – spreiding – vorm
‣ Nominaal:
o Centraliteit: modus → welke categorie bevat de hoogste frequentie?, geen ordening,
geen systematiek
o Spreiding: geen
o Vorm: staafdiagram → elke categorie krijgt een eigen staafje; welk staafje eerst komt
te staan is volledig eigen keuze, er zit geen logica in de volgorde van het staafdiagram
‣ Ordinaal:
o Centraliteit: mediaan → middelpunt: middelste waarde (bij 7 waarden: 4e waarde is de
middelste waarde) → vergt systematiek en ordening
o Spreiding: geen
o Vorm: staafdiagram → geen ijking, maar staven zijn wel gerangschikt volgens een
bepaalde systematiek
‣ Interval:
o Centraliteit: gemiddelde → zwaartepunt
o Spreiding: gaan over de breedte van de distributie (“Hoe breed is de distributie?”
“Liggen de kenmerken dicht bij de mate van centraliteit?”)
→ range, interkwartielafstand, variantie, standaardafwijking
▪ Range: wat is de laagste en hoogste waarde? Tussen welke waarden variëren
de waarden?
▪ Interkwartielafstand: afstand tussen 1e kwartiel en het 3e kwartiel
IQR = Q3 – Q1 → 1e kwartiel = mediaan van de onderste helft van de data (25e percentiel)
→ 3e kwartiel = mediaan van de bovenste helft van de data (75e percentiel)
(𝑿𝒊 − )𝟐
▪ Variantie: gemiddelde kwadratische afwijking van de waarden t.o.v. het
𝟐 =
𝑵
gemiddelde → geeft aan hoe ver de waarden verspreid zijn
= √ 𝟐 ▪ Standaardafwijking: wortel van de variantie, geeft de gemiddelde afwijking
van het gemiddelde
o Vorm: histogram (staafdiagram waarbij balkjes aan elkaar plakken), stem and leaf
plot, skewness en kurtosis
‣ Ratio:
o Centraliteit: gemiddelde
o Spreiding: range, interkwartielafstand, variantie, standaardafwijking
o Vorm: histogram, stem and leaf plot, skewness en kurtosis
, Multivariate data-analyse
Voorbeelden:
(nominale variabele)
(nominale variabele)
(ratio variabele, histogram)