College 1: Kwantitatieve data-analyse? Van probleem naar analyse
Types variabelen / meetniveaus
o Wat is het patroon in de data? (beschrijven)
o Hoe goed sluit het model aan bij de observaties (evalueren)
o Kunnen we de conclusies veralgemenen buiten de populatie? (generaliseren – inferentie)
Types variabelen / meetniveaus
o Multivariate data-analyse
• Verzamelnaam voor groep van statistische technieken gericht op analyse van
samenhang tussen meerdere variabelen
• Multi: we gaan kijken naar patronen hoe meerdere variabelen samenhangen
• Meer dan 2 variabelen tegelijk bekijken
o Sterk heterogeen qua opzet en finaliteit: factoren die belangrijk zijn bij het kiezen van
techniek:
• analyse van probleemkenmerk of probleemrelatie
• dependente versus niet-dependente technieken
▪ Dependente: één fenomeen is afhankelijke variabele (=de uitkomst) die we
proberen verklaren aan de hand van andere zaken
▪ Niet-dependente: er is geen afhankelijke variabele, maar meerdere variabele
naast elkaar we proberen ze niet te verklaren maar hun samenhang te
bepalen
• meetniveau van afhankelijke variabele
• meetniveau onafhankelijke variabelen
• aantal dimensies
• orthogonaliteit van dimensies (= staan los van elkaar, zijn niet gerelateerd)
o Keuze van techniek hangt van van onderzoeksvraag (eerste stap) - 3 idealtypen van
onderzoeksvragen:
• analyse van probleemkenmerk (dependente techniek)
▪ Welke factoren verklaren een bepaald kenmerk?
• analyse van probleemrelatie (dependente techniek)
▪ Hoe kan een relatie tussen 2 kenmerken begrepen/verklaart worden?
• synthese/datareductie: (niet dependente techniek)
▪ welke achterliggende kenmerken worden gemeten door een set indicatoren?
o Voorbeeld: steun voor activering van werklozen
• Analyse van een probleemkenmerk:
▪ Welke factoren versterken of ondermijnen steun voor activerend beleid?
▪ Welke self-interest factoren of ideologische drijfveren zijn relevant?
▪ → welke factoren verklaren wie dat er voorstander is voor activering
• Analyse van een probleemrelatie:
▪ Hoe komt het dat lager opgeleiden vaker gewonnen zijn voor streng
activeringsbeleid, hoewel dat tegen hun belangen ingaat?
• → verklaring: autoritarisme (bestraffen van afwijking) is meer
ingeburgerd bij lager opgeleiden
▪ Welke factoren kunnen de relatie tussen opleiding en steun voor activering
verklaren?
• Synthese / data-reductie:
▪ Meten deze survey-items 1 achterliggende attitude-dimensie? Of omvatten ze
meerdere aspecten?
▪ Kunnen ze tot één index samengevoegd worden?
1
,o Types variabelen
• Continue variabele (interval- of ratiomeetniveau)
▪ Ook komma getallen
▪ manifest opgemeten (bv. leeftijd van respondenten)
• duidelijk aanwezig, rechtstreeks te observeren en in dataset aanwezig
▪ kan zowel rol van te verklaren (afhankelijke) variabele als
verklarende(onafhankelijke) variabele opnemen.
• Nominale of ordinale variabele met twee categorieën (dichotome variabele)
▪ manifest opgemeten (bv. geslacht van respondenten)
▪ kan zowel de rol van verklarende (onafhankelijke) variabele of te verklaren
(afhankelijke) variabele opnemen
▪ nominale variabelen zijn altijd discreet
• Polytome categorische variabele
▪ nominaal of ordinaal met 3 of meer categorieën
▪ manifest opgemeten (bv. gewest/woonplaats respondent)
▪ kan zowel rol van te verklaren (afhankelijke) variabele als verklarende
(onafhankelijke) variabele opnemen.
• latente variabele (interval- of ratiomeetniveau)
▪ = verborgen variabele die niet in data-set zit en we niet hebben geobserveerd
▪ Bv. sociaal economische status niet rechtstreeks te observeren, maar via bv.
inkomen en andere variabele gemeten
▪ niet rechtstreeks opgemeten bij respondenten (bv. complexe schaal berekend
op basis van opgemeten items)
o Meten en meetniveaus
• Eigenschappen van variabelen:
▪ 1) Ordenbaarheid: De variabele of meetschaal X is ordenbaar wanneer, voor
elk paar elementen x1 en x2 element van X, kan besluiten:
• Je kan orde aanbrengen, bv. beroepsstatus, inkomen
• x1 > x2 (“groter dan”)
• x1 ≤ x2 (“kleiner dan”)
▪ 2) Het bestaan van een meeteenheid: Zelfde verschillen tussen de waarden
van X weerspiegelen zelfde verschillen in de intensiteit van het bestudeerde
kenmerk. Slechts van toepassing op kwantitatieve variabelen.
• bv. temperatuur in °Celsius (°C) of °Fahrenheit (°F)
• Merk op:
o De gekozen meeteenheid kan arbitrair zijn (bv. °C of °F)
o De aanwezigheid van een 0 heeft geen bijzondere betekenis.
o Ratio’s of verhoudingen zijn betekenisloos:
o bv. 10 °C = 50 °F; 20 °C = 68 °F
o ratio 20/10 is niet gelijk aan ratio 68/50
▪ 3) Het bestaan van een absoluut nulpunt : Een absoluut nulpunt is een
waarde (0) die de afwezigheid van het bestudeerde kenmerk weergeeft.
• bv. 0 euro, er is geen budget
• bv. lengte: absoluut nulpunt (i.e. geen lengte)
• bv. °Kelvin: absoluut nulpunt (i.e. afwezigheid van Brownse beweging)
• Merk op:
o Negatieve waarden komen niet voor wanneer een absoluut
nulpunt bestaat
o Ratios of verhoudingen zijn bepaald
o bv. 1000 BEF = 24,79 EUR; 2000 BEF = 49,58 EUR
2
, o ratio 2000/1000 = ratio 49,58/24,79
Types samenhang
o Symmetrische samenhang tussen twee kenmerken
• Er wordt geen onderscheid gemaakt tussen te verklaren (afhankelijke) en verklarende
(onafhankelijke) variabelen
• Geen onderscheid tussen oorzaak en gevolg
o Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair
(causaal) effect uitoefent (een rechte) op een te verklaren (afhankelijke) variabele
• Bij een lineair effect heeft eenzelfde verandering in de onafhankelijke variabele steeds
eenzelfde verandering in de afhankelijke variabele tot gevolg
• Dependente relatie
• Onafhankelijke naar afhankelijke variabele
o Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair effect uitoefent op
afhankelijke variabele
• Bij niet-lineair effect wordt verandering in afhankelijke variabele ten gevolge van
eenzelfde verandering in onafhankelijke variabele gradueel groter of kleiner
• Bv. exponentiële effecten
o Interactie-effect: asymmetrische samenhang waarbij de combinatie van twee of meer
onafhankelijke variabelen een causaal effect uitoefent op de afhankelijke variabele
Voorbeelden & analysetechnieken
o Voorbeelden
• Probleemkenmerk
• Probleemrelatie
• Data reductie
3
, o Samenhang tussen 2 categorische variabelen
• Kruistabel: verschilt de conditionele verdeling 1 variabele (Y) binnen categorieën een
andere variabele (X) in de steekproef → beschrijving van patroon in de data
• Gaat het hier om een steekproeffluctuatie of een werkelijke samenhang in de
populatie → statistische inferentie / veralgemening
• Steun voor activering (“Langdurig werklozen moeten verplicht worden om eender
welke job te aanvaarden, zelfs al verdienen ze daarmee heel wat minder dan
voordien”; voor vs. neutraal/tegen)
• Links-rechts positie (0-4 = links; 5 = centrum; 6-10 = rechts)
• Kolompercentages
▪ Mensen in rechtse categorie zijn eerder voorstander terwijl links en centrum
eerder onbeslist zijn
• Is de samenhang een fluctuatie in onze steekproef of (waarschijnlijk) aanwezig in de
populatie?
• Chi-kwadraat-toets
▪ vertrekken vanaf nulhypothese H0: statistische onafhankelijkheid in de
populatie
▪ Bereken de verwachte celfrequenties onder H0
▪ Teststatistiek vergelijken met de Chi-kwadraat
verdeling
• Eij = expected, verwachte waarde (celfrequentie) in rij i en kolom j
• Rijtotaal maal kolomtotaal gedeeld door totale steekproefgrootte
4