Professor: Karel Neels
Introductie
Het boek moet je gebruiken als aanvulling op het hoorcollege. In het boek worden zaken
uitgediept die niet worden behandeld in het hoorcollege. De secties in het boek die voorzien
zijn van een asterisk (*) zijn de verdiepende stukken. Het is nodig om deze te bestuderen
indien je hoger wilt halen dan 14.
Bij het examen wordt een formuleblad en eventueel een blad met tabellen ter beschikking
gesteld. Dit formuleblad hoef je niet zelf mee te nemen. Het is aan te raden het formuleblad
al uit te printen, zodat je het leert gebruiken. Het blad met tabellen zal afhankelijk van het
examen ook worden meegegeven (als er geen vragen zijn waarbij die tabellen nodig zijn, dan
is dat blad niet nodig).
Elke wetenschappelijke en grafische rekenmachine is toegestaan op het examen.
Hoofdstuk 1
De term ‘multivariate analysetechnieken’ is een verzamelnaam voor een groep van
statistische technieken gericht op de analyse van de samenhang tussen drie of meer
variabelen onderling. Multivariate analysetechnieken zijn als een soort gereedschappen te
zien: je moet de juiste hulpmiddelen inzetten bij de juiste problemen. Ze zijn heterogeen: ze
verschillen. Een bepaalde techniek zal moeten worden ingezet in een bepaalde situatie, waar
een andere techniek niet gebruikt kan worden.
Welke multivariate analysetechniek wordt gehanteerd, varieert in functie van de
achterliggende onderzoeksvraag:
- Bij de analyse van een probleemkenmerk (bv. politiek vertrouwen, zittenblijven) willen we
factoren bekijken die het bestudeerde kenmerk verklaren en kijken of bepaalde factoren tot
een grotere aanwezigheid van het kenmerk leiden.
- Bij de analyse van een probleemrelatie (bv. het verschil in objectieve bestaansonzekerheid
naar gewest) kijken we of het verband verklaard kan worden door andere relevante
kenmerken (bv. regionale variatie in de socio-economische positie van het gezinshoofd).
- Bij de items/uitspraken bevraagd in een survey willen we weten welke achterliggende
opinies/attitudes over een bepaald maatschappelijk thema worden gemeten. Hierbij speelt
het probleem van synthese/datareductie waarbij we een veelheid aan indicatoren proberen
te herleiden tot enkele achterliggende concepten.
Maar ook het meetniveau van de afhankelijke variabele, het aantal afhankelijke variabelen,
het meetniveau van de onafhankelijke variabelen, het (niet-)lineaire karakter van de
effecten, het additieve karakter van effecten, orthogonaliteit van onderscheiden dimensies,
etc., leiden tot verschillende modelspecificaties/analysetechnieken.
,Er zijn verschillende types variabelen:
- Een rechthoek stelt een kwantitatieve variabele voor, dus een variabele van interval- of
ratiomeetniveau. Een kwantitatieve variabele wordt manifest opgemeten. Dat wil zeggen dat
de gegevens verzameld worden door één enkele vraag te stellen. Een kwantitatieve
variabele kan zowel een afhankelijke als een onafhankelijke variabele zijn.
- Een in tweeën verdeelde rechthoek stelt een dichotome categorische variabele voor. Het
gaat hier om een kwalitatieve variabele, dus een variabele van nominaal of ordinaal
meetniveau. Een dichotome categorische variabele wordt manifest opgemeten. Een
dichotome categorische variabele kan zowel een afhankelijke als een onafhankelijke
variabele zijn. Een voorbeeld is geslacht.
- Een in drieën verdeelde rechthoek stelt een polytome categorische variabele voor. Dit is
ook een kwalitatieve variabele. Hierbij gaat het om drie of meer categorieën. Een polytome
categorische variabele wordt manifest opgemeten en kan zowel een afhankelijke als een
onafhankelijke variabele zijn. Een voorbeeld is gewest of religie.
- Een cirkel stelt een latente variabele voor. Een latente variabele is van interval- of
ratiomeetniveau. Deze kan niet direct/rechtstreeks/manifest worden opgemeten, maar
komt voort uit meerdere vragen. Denk bijvoorbeeld aan een set van vragen die een politieke
voorkeur meten. Het gaat dus niet om een variabele die voortkomt uit een vraag, maar die
wordt geconstrueerd uit meerdere vragen.
Tussen variabelen kunnen verschillende soorten samenhang bestaan:
- Een pijl met een dubbel pijlhoofd stelt symmetrische samenhang voor. Dit betekent dat het
niet uitmaakt welke variabele welke andere variabele beïnvloedt. Het gaat enkel om het feit
dat er samenhang is tussen de afhankelijke en onafhankelijke variabelen.
- Bij een pijl met een enkel pijlhoofd is er sprake van asymmetrische samenhang waarbij een
verklarende onafhankelijke variabele een lineair (causaal) effect uitoefent op een te
verklaren afhankelijke variabele. Er is sprake van een lineair effect wanneer eenzelfde
verandering in de onafhankelijke variabele altijd eenzelfde effect uitoefent op de
afhankelijke variabele.
- Bij een pijl met een enkel pijlhoofd en met een bolletje op de pijl is er sprake van een
asymmetrische samenhang, maar in dit geval oefent de ene variabele een niet-lineair effect
uit op de andere variabele. Een niet-lineair effect betekent dat eenzelfde verandering in de
onafhankelijke variabele tot een steeds grotere of een steeds kleinere verandering in de
afhankelijke variabele leidt. Er is bijvoorbeeld een niet-lineair verband tussen de sterftekans
en de leeftijd. De sterftekans is veel groter bij eenzelfde verandering in de leeftijd op hoge
leeftijd dan bij eenzelfde verandering in de leeftijd op lage leeftijd.
- Bij een pijl die voortkomt uit twee lijnen is er sprake van een interactie-effect: er is een
asymmetrische samenhang en er is sprake van een causaal effect van twee of meer
variabelen op een afhankelijke variabele. De combinatie van de twee variabelen samen
zorgen voor een veel sterker effect dan elk van de variabelen apart doen. Roken en alcohol
drinken verhogen elk de kans op cardiovasculaire aandoeningen. Samen zorgen ze voor een
grotere kans op cardiovasculaire aandoeningen dan de som van elk apart doet.
Bij een bivariate causale relatie is de variabele waarnaar het pijlhoofd wijst de afhankelijke
variabele. De variabele vanwaaruit de pijl vertrekt is de onafhankelijke variabele.
Onderzoek uit de VS toonde aan dat kinderen beter leren in kleinere klassen.
,Een causale interpretatie van regressieresultaten is enkel mogelijk als de gegevens afkomstig
zijn van een experimenteel design waar personen random aan experimentele condities
werden toegewezen.
Het blijkt dat er een verband is tussen werken en overgewicht. Overgewicht komt vaker voor
bij niet-werkenden dan bij werkenden. We kunnen niet zonder meer zeggen dat meer
werken tot minder overgewicht leidt. Er is een derde factor in het spel: de leeftijd. De
samenhang tussen werken en overgewicht wordt dus bewerkstelligt door een andere factor.
Ouderen hebben vaker overgewicht en werken niet, jongeren hebben vaker geen
overgewicht en werken wel. Niet werken en overgewicht gaan vaker samen omdat de factor
leeftijd een rol speelt. Om aan te tonen dat er inderdaad geen causale relatie is tussen
werken en overgewicht moeten we de factor van de leeftijd inbrengen. Wanneer we
controleren voor leeftijd, dan zien we geen negatief verband meer tussen werken en
overgewicht. Er is dus schijnbare causaliteit tussen werken en overgewicht. Causaliteit kan
dan ook nooit verklaard worden met een bivariate samenhang.
Het blijkt dat objectieve bestaansonzekerheid vaker voorkomt in Wallonië dan in
Vlaanderen. Er kan logisch gezien geen causaal effect zijn van regio op armoede. Wel zijn er
regionale verschillen door de regionale variatie in de sociaaleconomische activiteit van het
gezinshoofd. Onderzoek geeft namelijk aan dat gezinshoofden in Wallonië vaker
inactief/werkloos zijn dan het geval is in Vlaanderen. Er is in dit geval indirecte causaliteit:
een intermediaire of tussenliggende variabele speelt een rol. De ene variabele beïnvloedt de
intermediaire variabele, die op zijn beurt de andere variabele beïnvloedt. Het gewest
beïnvloedt de sociaaleconomische activiteit van het gezinshoofd, die op zijn beurt de
objectieve bestaansonzekerheid beïnvloedt.
In de twee bovenstaande situaties is er initieel een verband tussen variabelen, maar dat
verdwijnt door te corrigeren voor een bepaalde andere variabele, zoals leeftijd/SES. Dus na
controle voor andere variabelen verdwijnt het oorspronkelijke verband.
Er zijn ook situaties waarbij er initieel geen verband is, maar juist wel na controle voor
andere variabelen. Uit een enquête blijkt bijvoorbeeld dat er geen verband is tussen de
leeftijd en de subjectieve bestaansonzekerheid. In het algemeen weten we echter dat
werkenden over een hoger inkomen beschikken dan gepensioneerden, dus lijkt het logisch
dat leeftijd wel een effect zou hebben op de subjectieve bestaansonzekerheid. Algemeen
zou er een positief verband moeten zijn tussen leeftijd en subjectieve bestaansonzekerheid.
Dit verband wordt echter tenietgedaan door een andere variabele in te roepen, namelijk het
totaal gezinsinkomen. Eenzelfde gezinsinkomen leidt bij jongeren tot een hogere subjectieve
bestaansonzekerheid dan bij ouderen. Maar aangezien jongeren vaker een hoger
gezinsinkomen hebben dan ouderen, leidt dit weer tot relatief minder subjectieve
bestaansonzekerheid. Er is dus een negatief verband tussen leeftijd en gezinsinkomen, en op
zijn beurt ook weer een negatief verband tussen gezinsinkomen en subjectieve
bestaansonzekerheid. Beide mintekens oefenen een tegengesteld effect uit, waardoor het
verband tussen leeftijd en bestaansonzekerheid verdwijnt. Een indirect effect door een
tussenkomende variabele kan het initiële verband dus verklaren. Er is sprake van suppressie
, met als suppressorvariabele het totaal gezinsinkomen. Pas na controle voor de
suppressorvariabele wordt het werkelijk bestaande verband duidelijk.
Een ander voorbeeld laat zien dat de socio-economische gradiënt van invloed is op de
subjectieve gezondheid en de mortaliteit. De leeftijd en de beroepsklasse (white collar of
niet, diploma hoger onderwijs of niet) bijvoorbeeld hebben een invloed op de subjectieve
gezondheid. Deze gradiënt wordt sterker naarmate de leeftijd vordert. Het volstaat niet om
de som te nemen van de effecten van beide variabelen op de subjectieve gezondheid. Het
effect van de beroepsklasse wordt namelijk sterker naarmate de leeftijd toeneemt. Anders
gezegd, de gezondheid verslechtert bij alle beroepsklassen naarmate de leeftijd vordert,
maar dit effect is meer uitgesproken bij de lagere beroepsklassen dan bij de hogere
beroepsklassen. Het gecombineerde effect van leeftijd en beroepsklasse is dus van belang.
Er is dus sprake van een interactie tussen de effecten van de variabelen leeftijd en
beroepsklasse op de variabele subjectieve gezondheid.
Bij de probleemstelling van het politiek vertrouwen is er sprake van een convergent causale
structuur, omdat er meerdere onafhankelijke variabelen zijn die een effect uitoefenen op de
afhankelijke variabele. Politiek vertrouwen wordt hier geoperationaliseerd als een
kwantitatieve variabele. Hetzelfde geldt voor opleidingsniveau: dat wordt niet in het hoogst
behaalde diploma uitgedrukt (ordinaal), maar wel in het aantal gevolgde uren onderwijs
(ratio).
Bij multicollineariteit is er sprake van onafhankelijke variabelen die gecorreleerd zijn met
elkaar. Dit is bijvoorbeeld het geval met opleidingsniveau en leeftijd. Vaak geldt dat hoe
hoger de leeftijd, hoe hoger het opleidingsniveau. Ook kan er sprake zijn van niet-lineaire
effecten. Eenzelfde verhoging in de tevredenheid over overheidsinstellingen heeft bij een
lage tevredenheid een groter effect op politiek vertrouwen dan bij hoge tevredenheid.
Bij de probleemstelling van de etnische identiteit bij minderheden zien we
integratie/assimilatie als een kwantitatieve variabele. Bij de onafhankelijke variabelen zijn er
zowel kwantitatieve als kwalitatieve variabelen. Nationaliteit en woonplaats zijn de
kwalitatieve variabelen, de migratieleeftijd is de kwantitatieve variabele. Door te werken
met dummyvariabelen kunnen we als onafhankelijke variabelen ook kwalitatieve variabelen
opnemen in de analyse.
Een regressie met een dichotome onafhankelijke variabele heeft dezelfde analyse als een t-
test voor verschillen tussen gemiddelden (van 2 groepen).
Bij de schoolloopbanen van allochtone jongeren wordt zittenblijven gezien als een
kwalitatieve variabele, omdat er niet wordt gekeken naar het aantal jaar zittenblijven, maar
naar nooit een jaar over hebben gedaan (0) of wel ooit een jaar over hebben gedaan (1).
Ondanks dat er staat ‘aantal jaren zittenblijven’ gaat het dus om een kwalitatieve variabele.
Bij logistische regressie kunnen we nog een stapje verder gaan dan bij de meervoudige
regressie. Bij de meervoudige regressie was de afhankelijke variabele een kwantitatieve
variabele. Bij de logistische regressie hebben we als afhankelijke variabele een kwalitatieve