Data-analyse 1
Prof. Bart Meuleman en assistent Isabelle Mannekens
Boek: Inleiding Multivariate Analyse voor de sociale wetenschappen (Karel Neels)
Hoofdstukken 1-6 = Herhaling eerste bachelor dus geen expliciete examenvragen!
Deel 1: Probleemstelling
Hoofdstuk 1: Van Probleem naar Analyse
Deel 2: Basis
Hoofdstuk 2: Meten en meetniveaus
Hoofdstuk 3: Frequentieverdelingen en Grafische voorstellingen
Hoofdstuk 4: Univariate statistische parameters - Centrumkenmerken en spreidingskenmerken
Centrumkenmerken
- Modus: waargenomen waarde met de hoogste frequentie
- Mediaan: waarde vd middelste eenheid bij een geordende steekproef
- Gemiddelde
o Rekenkundig gemiddelde: som vd scores gedeeld door aantal onderzoekseenheden
o Getrimd gemiddelde: rekenkundig gemiddelde dat minder gevoelig is vr uitschieters
o Gewogen gemiddelde: houdt rekening met het ‘gewicht’ vd gegevens waarvan een
gemiddelde wordt berekend
- Kwantielen
o Soorten? Mediaan, kwartielen, decielen of percentielen
Spreidingskenmerken
- Variatiebreedte of range of bereik: afstand tss grootste en kleinste waarneming
- Kwantielafstanden: kwantielen verdelen een frequentieverdeling in een aantal gelijke
stukken (met gelijke frequentie)
o Interkwartielafstand = lengte vh gebied rond mediaan dat de middelste helft (50%)
vd observaties omvat
(I = Q3 – Q1)
o Interdeciel = lengte vh gebied rond mediaan dat 80% vd observaties omvat
(D = D9 – D1)
- Boxplot (vormmaat): overzicht vd belangrijkste kenmerken v/e verdeling
o IQR = I = Interkwartielafstand
o Mediaan
o Extreme uitschieters
o Uitschieters
o Box (50% vd gegevens)
o Snorharen of whiskers
- Variatie: som vd gekwadrateerde deviatiescores
- Variantie: gemiddelde vd som vd gekwadrateerde deviatiescores
- Standaardafwijking: vierkantswortel vh gemiddelde vd som vd gekwadrateerde
deviatiescores
- Variatiecoëfficiënt
Vormen van verdelingen
1
, - Symmetrische verdelingen gem = mediaan
- Andere verdelingen
o Scheve verdeling = asymmetrische verdeling
Positieve/linkse asymmetrie RECHTSSCHEEF gem > mediaan
Negatieve/rechtse asymmetrie LINKSSCHEEF gem < mediaan
o Bimodale verdelingen (2 toppen of modi)
o Uitschieters
- Standaard normale verdeling (via z-scores met gem x = 0 en standaardafwijking s = 1)
Vormmaten
- Skewness = scheefheid: maat die aangeeft of een verdeling linksscheef of rechtsscheef is ivm
de normaalverdeling
- Kurtosis = gepiektheid: maat die aangeeft of de verdeling een scherpe top heeft of dat de
verdeling nogal vlak is ivm de normaalverdeling
- Empirische coëfficiënt van Pearson: indicator vn symmetrie vd verdeling door waarde
mediaan en rekenkundig gemiddelde te vergelijken
- Coëfficiënt van Yule en Kendall: indicator vn symmetrie vd verdeling door afstanden tss
kwartielen te vergelijken
Hoofdstuk 5: Inductieve statistiek
Veralgemenen vd steekproefresultaten naar de populatie < Hoe?
Hypothesetesten
Betrouwbaarheidsintervallen (adhv centrale limietstelling)
Deel 3: Analyse
Hoofdstuk 6: Samenhang en statistische controle (tss 2 variabelen)
NOMINAAL ORDINAAL (QUASI-) INTERVAL OF RATIO
NOMINAAL Kruistabel Kruistabel Independent samples t-test
ORDINAAL Kruistabel Kruistabel Independent samples t-test
METRISCH Independent samples t- Independent samples Correlatie / Covariantie
test t-test
Kruistabellen
Rij-variabele: onafhankelijke variabele X (die de afhankelijke/Y-variabele kan verklaren)
Kolom-variabele: afhankelijke variabele Y (die verklaard wordt door onafhankelijke/X-
variabele)
Significatietoetsing bij kruistabellen: CHI-KWADRAAT
o Doel = veralgemenen vd samenhang tss nominale en/of ordinale variabelen
o Mbv hypothesetest
o Chi-kwadraattoets is in de statistiek een toets om na te gaan of 2 of meer
verdelingen van elkaar verschillen
Associatiematen: samenhang beschrijven en sterkte vergelijken met andere variabelen
- Cramer’s V
- Marginale odds of conditionele odds
o Odds = kansenverhouding
- Odds-ratio: verhouding van odds of verhouding van kansverhoudingen
o Odds verschillen samenhang of afhankelijk
o Odds gelijkend geen samenhang of onafhankelijk
2
, o = 1 indien statistische onafhankelijkheid
Scatterplot of puntenwolk
- Covariantie = het gemiddelde vd kruisproducten (som vd kruisproducten gedeeld door n),
dus geen maat vr sterkte vh verband < Correlatie is dat wel!
- Covariatie = som vd kruisproducten
DUS: Covariantie is de symmetrische associatiemaat vr de mate vd lineaire samenhang tss
2 variabelen vn interval- of ratiomeetniveau mr gn maat vr de sterkte vh verband!
- Correlatiecoëfficiënt (Pearson product moment) = symmetrische associatiemaat vr de mate
vd lineaire samenhang tss 2 interval- of ratiovariabelen
Causaliteit impliceert ALTIJD een correlatie, mr een correlatie impliceert geen causaliteit!
Merkwaardige producten
1. Uitwerken van haakjes
c(a+b) = (a+b)c = ac + bc
(a+b)(c+d) = ac + ad + bc + bd
-(a+b) = -a-b
-(a-b) = -a+b
-(-a+b) = a-b
(a+b)2 = a2 + 2ab + b2
(a-b)2 = a2 - 2ab + b2
2. Ontbinden in factoren
ab + ac = a(b+c) = (b+c)a
a2 + b2 = (a+b)(a-b)
Methode van de lineaire interpolatie
f(c) = f(a) + (c-a)/(b-a) x (f(b) – f(a))
c = a + ((f(c)-f(a))/ (f(b)-f(a))) x (b-a)
Zie gehele overzicht van hoofdstukken 1 t/m 6 in slides (742 dia’s) < Geen expliciete examenvragen!
3
,Introductie
Inleiding: van probleem naar analyse
Multivariate analysetechnieken:
o Verzamelnaam voor groep van statistische technieken gericht op analyse van samenhang
tss 3 of meer variabelen onderling
o Sterk heterogeen qua opzet en finaliteit:
Analyse van probleemkenmerk of probleemrelatie
Dependente vs niet-dependente technieken
Meetniveau van afhankelijke variabele
Meetniveau van onafhankelijke variabele
Aantal dimensies
Orthogonaliteit van dimensies
…
Keuze van Multivariate Analysetechniek
o Varieert ifv achterliggende onderzoeksvraag
Analyse van probleemkenmerk
Analyse van probleemrelatie
Synthese/datadeductie
Types variabelen en types samenhang
Types variabelen
o Continue variabele (interval- of ratiomeetniveau)
o Manifest opgemeten (bv. leeftijd van respondenten)
o Kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke)
variabele opnemen
o Nominale of ordinale variabele met 2 categorieën (dichotome variabele)
o Manifest opgemeten (bv. geslacht van respondenten)
o Kan zowel de rol van verklarende (onafhankelijke) variabele of te verklaren (afhankelijke)
variabele opnemen
o Polytome categorische variabele (nominaal of ordinaal) met 3 of meer categorieën
o Manifest opgemeten (bv. gewest/woonplaats respondent)
o Kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke)
variabele opnemen
o Latente variabele (interval- of ratiomeetniveau)
o Niet rechtstreeks opgemeten bij respondenten (bv. complexe schaal berekend obv
opgemeten items)
Meten & meetniveaus
Eigenschappen van variabelen of meetschalen
1) Ordenbaarheid
De variabele of meetschaal X is ordenbaar wnr, vr elk paar elementen x 1 en x2 ∈ X, kan besluiten:
x1 > x2
x1 < x2
Bv: Opleidingsniveau, leeftijd, lengte, inkomen zijn ordenbaar
Bv: Woonplaats is niet ordenbaar
4
, 2) Het bestaan van een meeteenheid
Zelfde verschillen tss de waarden vn X weerspiegelen zelfde verschillen in de intensiteit vh
bestudeerde kenmerk < Slechts van toepassing op kwantitatieve variabelen
Bv: Temperatuur in °Celsius (°C) of °Fahrenheit (°F)
Merk op:
- Gekozen meeteenheid kan arbitrair zijn (bv. °C of °F)
- Aanwezigheid v/e 0 heeft gn bijzondere betekenis < Ratio’s/verhoudingen zijn betekenisloos:
o Bv: 10°C = 50°F en 20°C = 68°F MAAR ratio 20/10 ≠ ratio 68/50
3) Het bestaan van een absoluut nulpunt
Een absoluut nulpunt is een waarde (0) die de afwezigheid vh bestudeerde kenmerk weergeeft
Bv: Lengte: absoluut nulpunt (want geen lengte)
Bv: °Kelvin: absoluut nulpunt (want afwezigheid van Brownse beweging)
Merk op:
- Negatieve waarden komen nt vr wnr een absoluut nulpunt bestaat
- Ratio’s/verhoudingen zijn bepaald
o Bv: 1000 BEF = 24,79 EUR en 2000 BEF = 49,58 EUR DUS ratio 2000/1000 = ratio
49,58/24,79
Zie tabellen ppt (dia’s 17-18)
Types variabelen en types samenhang
Types samenhang
o Symmetrische samenhang tss 2 kenmerken: er wordt gn onderscheid gemaakt tss te
verklaren (afhankelijke) en verklarende (onafhankelijke) variabelen
o Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair
(causaal) effect uitoefent op een te verklaren (afhankelijke) variabele
o Bij een lineair effect heeft eenzelfde verandering in de onafhankelijke variabele steeds
eenzelfde verandering in de afhankelijke variabele tot gevolg
o Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair effect uitoefent
op afhankelijke variabele
o Bij niet-lineair effect w verandering in afhankelijke variabele ten gevolge vn eenzelfde
verandering in onafhankelijke variabele gradueel groter of kleiner
o Interactie-effect: asymmetrische samenhang waarbij de combinatie van 2 of meer
onafhankelijke variabelen een causaal effect uitoefent op de afhankelijke variabele
Samenhang: categorische variabelen
Inferentie voor kruistabellen
o Vaak verschilt relatieve conditionele verdeling van afhankelijke variabele Y binnen
categorieën van onafhankelijke variabele X in steekproef (SP)
o Steekproeffluctuatie of werkelijke samenhang in populatie?
o Chi-kwadraattoets voor afhankelijkheid in populatie:
Nulhypothese H0: statistische onafhankelijkheid in populatie
5