4.1 Soorten multivariate technieken
Wanneer we moeten kiezen voor een bepaalde techniek, maken we twee overwegingen:
1. Symmetrisch of asymmetrisch?
- Als er een duidelijk onderscheid is tussen de onafhankelijke en afhankelijke
variabele, heb je asymmetrische technieken nodig (H6, H7 en 8H)
- Als er geen duidelijk onderscheid is, maar we willen iets weten over bijvoorbeeld
het verband tussen allerlei variabelen onderling, dan gebruiken we symmetrische
technieken (H9 en H10)
2. Interval of niet interval? Een tweede onderscheid tussen technieken is dus naar
meetniveau. Technieken voor gemengde meetniveaus vindt je in H10.
Voor veel technieken geldt dat het aantal observaties ongeveer 10 keer het aantal
variabelen dient te zijn. Soms zijn er ook andere vereisten, die worden telkens uitgelegd.
Bovenstaande resulteert in het volgende schema:
Asymmetrisch Symmetrisch
Interval Multipele regressieanalyse - Principale componenten
analyse
- Factoranalyse
Niet-interval - Regressie met dummy variabelen - Niet lineaire PCA
- Logistische regressie (Y dichotoom) - Multipele
- Cox regressie (Y duurvariabele) correspondentie-analyse
(alle variabelen nominaal)
,5.1 Data cleaning
Je kan op verschillende manieren gegevens verzamelen. Voor de analyses uit dit boek heb je
gegevens nodig in een databestand. In dat bestand kunnen altijd fouten sluipen. In
onderzoeken wordt er vaak rekening gehouden met een vervuiling van 2 á 3 procent. Toch is
het verstandig om dit zo veel mogelijk tegen te gaan.
Detecteren van foute coderingen en uitbijters
De eerste methoden om te cleanen is door van alle variabelen een frequentietabel uit te
draaien. Je gaat dan kijken of er onmogelijke antwoorden zijn (Bv. kind van 117 jaar). Ook
komen op deze manier uitbijters aan het licht. Er is dan geen foute invoer, maar zij scoren
simpelweg extreem. Als iemand op één variabele een extreme uitbijter heeft, noemt je dit
een univariate uitbijter. Je kan ook een multivariate uitbijter zijn: per variabele is de score
dan niet extreem, maar de combinatie van scores wel (Bv. op 16-jarige leeftijd €30.000 per
jaar verdienen). Er zijn twee manieren om uitbijters aan te pakken:
- Verwijderen uit de dataset
- Hercoderen: als een uitbijter bv. 150 delicten heeft gepleegd, plaats hem dan in
een categorie met ’10 of meer delicten’.
Je kan ook analyses mét extreme scores vergelijken met analyses waarbij je de extreme
scores buiten beschouwing laat, om te kijken of het wel echt zoveel invloed heeft.
Onmogelijke combinaties
Verder kan je ook kijken naar de combinaties van coderingen. Je zoekt naar onmogelijke
combinaties, zoals een opa die zwanger is.
5.2 Missende waarden
Missende waarden zijn elementen waarvan we geen data hebben, maar wel coderen. Als
deze er zijn, kan je daar op twee manieren mee omgaan. Als je het SPSS laat doen, zal deze
gaan voor listwise deletion: iemand wordt dan simpelweg uit de dataset verwijderd. Maar
dit kan leiden tot verlies van power of vertekening. Missende waarden komen namelijk vaak
niet door toeval, maar simpelweg omdat mensen bijvoorbeeld geen antwoord willen geven.
Onderzoekers kiezen er daarom vaak voor om missende waarden op te vullen met
bijvoorbeeld het gemiddelde of de mediaan. Maar ook dit is niet ideaal omdat het de
associaties drukt en sneller ‘kunstmatige’ significantie op kan leveren. Als het aantal
missende waarden onder de 5% ligt, kan je dit wel doen. Maar als er meer dan 5% missende
waarden zijn, zal er moeten worden bijgeschat door middel van geavanceerde technieken,
ofwel imputatie. De scores op andere variabelen worden dan gebruikt om een waarde te
kiezen voor het opvullen.
Er zijn verschillende soorten missende waarden:
▪ Missing Completely At Random (MCAR): geheel toevallig
2
, ▪ Missing At Random (MAR): de missende waarden zijn enkel niet toevallig voor de
onafhankelijke variabelen. De persoon heeft geen systematisch andere antwoorden
gegeven op de afhankelijke variabele.
▪ Missing Not At Random (MNAR): missende afhankelijke variabele terwijl deze
waarschijnlijk wel belangrijk is gezien het antwoord op de onafhankelijke variabele.
Omgaan met missende waarden blijft hoe dan ook moeilijk. Voorkomen is dus beter dan
genezen (door bv. goede vragenlijst).
Betekenis Aanpak
MCAR Geheel toevallig - Listwise deletion
- MLE met SPSS
MAR Niet toevallig voor de onafhankelijke variabelen MLE met SPSS
MNAR Niet toevallig voor de afhankelijke variabelen Multiple imputation
Het oplappen van een dataset met missende waarden
Om te kijken of er sprake is van MCAR, MAR of MNAR gebruiken we een procedure van
uitsluiting. Eerst kijken we door middel van de test van Little of er sprake is van MCAR. Als
de toets niet significant is (dus p>.05) mogen we aannemen dat de missing MCAR zijn, het
meest gunstige geval. De personen kunnen dan simpelweg verwijderd worden.
Als data niet MCAR is, gaan we kijken of het misschien MAR is. Hiervoor gebruik je t-
toetsen. Je vergelijkt personen met missende waarden (groep 1) met personen zonder
missende waarden (groep 2) op een compleet andere variabele. Hiervoor is vaak een
‘missing values’ optie in SPSS. Als de toetsen laten zien dat er een verband is met de
onafhankelijke variabelen, dan is het MAR. Maar als de mensen met missende waarden
significant anders scoren op de afhankelijke variabelen, is het MNAR. Bij twijfel moet je
uitgaan van MNAR.
Per variabele moet bepaald worden of het MCAR of MNAR is, niet per dataset. In beide
gevallen is listwise deletion geen goede optie meer. Er zal dan moeten worden bijgeschat.
5.3 Variabelen prepareren: transformeren, hercoderen en
somschalen
Nadat je de missende waarden hebt opgevuld, moet je de dataset gereed maken voor de
analyse.
Transformeren
Variabelen zijn niet altijd normaal verdeeld, terwijl technieken daar wel vanuit gaan. Je hebt
dan twee opties:
- De variabele aanpassen zodat hij voldoet aan de eisen van de techniek
(transformeren)
- Variabele zo laten en kijken of de oplossing van de techniek te lijden heeft onder
het niet normaal zijn van de variabele
3
, Veel technieken zijn robuust tegen niet al te ernstige afwijkingen van normaliteit, zelfs als
een toets aangeeft dat een variabele significant niet normaal verdeeld is. Veel technieken
hebben de mogelijkheid om achteraf te controleren of de techniek een betrouwbare
oplossing heeft geproduceerd. In eerste instantie is het beter om dit gewoon te controleren
in plaats van een variabele weer normaal verdeeld maken. Als je dit toch wil kan je:
- Logaritme of wortel nemen d.m.v. compute in SPSS (wortel iets milder)
- Terugbrengen tot een dichotome variabele
Hercoderen en somschalen
De oorspronkelijke variabelen laten we vaak intact, maar voor de analyse hercoderen we
soms wel naar kleinere antwoordopties (Bv. neef/nicht/oom = familie). Zo maken we ook
combinaties van variabelen.
Bij de keuze voor het aantal variabelen geldt de vuistregel dat er minimaal 10 keer zoveel
respondenten als variabelen moeten zijn (10k < N). Je kan ook somvariabelen maken, als je
bijvoorbeeld 25 variabelen hebt, maakt je hier 1 variabele met verzwarende en 1 variabele
met verzachtende factoren van.
5.4 Repliceerbaarheid van analyses
In de wetenschap wordt het steeds belangrijker dat het werk controleerbaar is. In de
criminologie geldt een gangbaar idee dat dat voor 5 jaar mogelijk moet zijn.
Wetenschappers doen er dus goed aan om niet alleen hun publicaties, maar ook het
materiaal toegankelijk te laten.
Dataset, codeboek en syntax
Drie dingen die je in een archief zou moeten hebben:
- Dataset op basis waarvan de resultaten zijn verkregen. Dit is vaan een SPSS-
bestand.
- Codeboek waarin uitgelegd staat over de variabelen. Dit is nodig om het voor
anderen mogelijk te maken de gegevens te gebruiken. Daarin staat van elke
variabele wat hij meet, wat zijn betrouwbaarheid is en eventueel andere
informatie.
- Syntax: hierin kan je alle bewerkingen vinden. Ook kan je deze van commentaar
voorzien omdat je het na 4 jaar niet meer weet.
5.5 De gevaren van uitbijters
- Allereerst kan een afwijkende persoon niet passen, waardoor
er geen goede oplossing kan worden gevonden. Er is dan
sprake van een slechte fit. De uitbijter past dan niet op de
regressielijn.
- Verder kunnen ze zo extreem afwijkend zijn, dat ze een
analyse scheeftrekken en dus vertekenen. Een regressielijn
loopt daardoor dus anders. Er kan sprake zijn van een
koevoeteffect, een extreem hoge invloed/leverage. We vinden
dan bijvoorbeeld ene positief verband terwijl we zonder die
4