Samenvatting multivariate data-analyse
DEEL 1: probleemstelling (hoc 1)
HOC 1: Inleiding: van probleem naar analyse (hoofdstuk 1)
Wat is multivariate data-analyse?
= Gelijktijdige analyses van data met meer dan 2 variabelen
= Meten, verklaren en voorspellen van de mate van samenhang in gewogen combinaties van
variabelen
= Alle analyses met meer dan 2 variabalen
Multivariate analysetechnieken
= sterk heterogeen qua opzet en finaliteit
= analyse van probleemkenmerk of probleemrelatie
= dependente vs niet-dependente technieken
= meetniveau afhankelijke/onafhankelijke variabelen bepaald groot deel techniek
= nominaal = niet ordenen, classificatie op basis van verschillen en gelijkenissen
= ordinaal = ordenen, classificatie
= ratio = absoluut nulpunt, categorisering mogelijk
= interval = ordening, categorisering in interval, geen absoluut nulpunt
= aantal dimensies
= bv. T-test kan niet bij 2 categorische variabelen
=…
= keuze techniek
= varieert in functie van achterliggende onderzoeksvraag:
= analyse van probleemkenmerk (bv. politiek vertrouwen)
= niet geïnteresseerd in relatie = dependentie
= analyse van probleemrelatie (bv. verschil in objectieve bestaansonzekerheid naar
gewest) = dependentie
= datareductie = veelheid van items/uitspraken: achterliggende concepten/dimensies
worden gemeten = interdependentie
Twee grote groepen technieken (zie voorbeelden slide 23-34)
= dependentie = afhankelijke variabele en meerdere onafhankelijke (y = x-x-x-x)
= Regressietechnieken = ^y = b0 + b1x1 (of ^y= a+bx)
= Onderzoek verband tussen y & x na controle voor verdere variabele x (controle variabelen)
= Sterke multivariate analyse = verbanden tussen meer dan 2 variabelen tegelijkertijd in rekening
brengen = ^y = b0 + b1x1 + b2x2 + b3x3
= Logistische regressieanalyse
,= interdependentie = samenhang = geen afhankelijkheid
= geen onderscheid tussen afhankelijke en onafhankelijke variabelen (x-x-x-x-x)
= Schalen creëren en latente (niet direct meetbare) effecten/componenten
= principale componentenanalyse identificeert aantal interpreteerbare componenten
= Nood aan manifeste vragen (clever,..) om latente te meten
= Likert schaal
= Geen x en y = samenhang variabelen zonder asymmetrie
= wel = x1 – x2 – x3 - .. – xp
= Groepen variabelen die uiting zijn van latente factoren
= beide analysetechnieken
= gemeenschappelijk aan beide
= relatie tussen meer dan 2 variabelen tegelijkertijd onderzoeken = multivariate
= verschil tussen beide
= dependentietechnieken = y = x-x-x-x -> asymmetrie
= interdependentietechnieken = x-x-x-x -> symmetrie
Notatie (minder belangrijk)
= de grafische voorstelling van basisformat van probleemstelling in de vorm van een causaal diagram
vergt een eenduidige set van grafische symbolen
= type variabelen
= in het algemeen kan een variabele zowel rol van de verklaren (afhankelijke) variabele als
verklarende (onafhankelijke) variabele opnemen
• continue variabele (interval- of ratiomeetniveau) = kwantitatieve variabele
• manifest opgemeten (bv. leeftijd van respondenten)
• Kunnen zowel rol als afhankelijke als onafhankelijke opnemen
•
• nominale of ordinale variabele met twee categorieën (dichotome variabele)
• manifest opgemeten (bv. geslacht van respondenten)
• Kunnen zowel rol als afhankelijke als onafhankelijke opnemen
• polytome categorische variabele (nominaal of ordinaal) met 3 of meer categorieën
• manifest opgemeten (bv. gewest/woonplaats respondent)
• Kunnen zowel rol als afhankelijke als onafhankelijke opnemen
• latente variabele (interval- of ratiomeetniveau)
• niet rechtstreeks opgemeten bij respondenten (bv. complexe schaal berekend op
basis van opgemeten items)
,types samenhang = = Verandering in x altijd zelfde verandering in y (richtingscoef) = lineair effect
= Niet lineair = relatie tussen x en y is niet constant
• Symmetrische samenhang tussen twee kenmerken: er wordt geen onderscheid
gemaakt tussen te verklaren (afhankelijke) en verklarende (onafhankelijke) variabelen
• j
• Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair
effect uitoefent op een te verklaren (afhankelijke) variabele
• Bij een lineair effect heeft eenzelfde verandering in de onafhankelijke variabele steeds
eenzelfde verandering in de afhankelijke variabele tot gevolg
• j
• Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair effect
uitoefent op afhankelijke variabele
• Bij niet-lineair effect wordt verandering in afhankelijke variabele ten gevolge van eenzelfde
verandering
in onafhankelijke variabele gradueel groter of kleiner
• Interactie-effect: asymmetrische samenhang waarbij de combinatie van twee of
meer onafhankelijke variabelen een effect uitoefent op de
afhankelijke variabele
= variabelen en samenhang = wordt niet gevraag op het examen -> complexe diagrammen
, Sociaal wetenschappelijke probleemstellingen
= statistiek = causaliteit moeilijk aan te tonen, wel aantonen of x en y samen variëren,…
= Samen variëren, tijdsaspect,…
= Of bepaalde relatie stond houdt als je een 3 de toevoegt
= centrale vraag is kwantitatief onderzoek
= bestaat er een causale samenhang tussen x en y?
= hoe beïnvloed x de uitkomst y?
= causale samenhang verschilt van statistische samenhang
= bij een statistisch verband tussen 2 kenmerken weten we alleen dat ze samen veranderen
= theoretische redenen zijn belangrijk om te bepalen of er sprake is van causale samenhang
= 5 types (zie voorbeelden slide 46-71) (pagina 6-23)
= Schijnbare causaliteit = wordt verklaard door andere variabelen? Mag geen mediërende
variabelen zijn
= Indirecte = relatie verloopt via mediërende (andere) variabelen
= Suppressie = enkel effect bij toevoeging andere variabele
= Interactieve = interactie effect = relatie varieert door 3de = varieert door bv. hoe ouder iemand
is
= Convergente = meeste sociologische ond vragen = combinatie van soorten
Onafhankelijke variabelen hangen altijd samen
Niet overal interactie en lineaire effecten zoeken
Lineaire = assumpties = homescedacticiteit,…
= Latente = interdependentie technieken = PCA en PFA (les 7 & 8)
DEEL 2: basis (zelfstudie)
DEEL 3: analyse (hoc 2-8)
HOC 2-5: dependentietechnieken (hoofdstuk 8-11)
HOC 6-8: interdependentietechnieken (hoofdstuk 12)
HOC 2: opstap naar multivariate regressie (hoofdstuk 6 & 7)
Analyse van kruistabellen
= het begrip samenhang
= uitspraken over samenhang behoren tot de kern van theorievorming in sociale
wetenschappen
= empirisch nagaan van de samenhangen die theoretisch worden voorgesteld behoort tot de
kern van (kwantitatief) sociaalwetenschappelijk ond.
= univariate statistische parameters informeren over verdeling van een variabele
= laten niet toe het verband met andere variabele na te gaan, i.e. de analyse van
afhankelijkheid of samenhang tussen variabele
= kruistabellen laten dit wel toe
= Voorbeelden:
= Gemiddeld inkomen neemt toe naar mate scholingsgraad hoger is
= De gemiddelde kijkduur per weekdag neemt af met opleidingsniveau
= De werkloosheidsgraad ligt hoger bij minderheden
= wanneer is er sprake van onafhankelijkheid tussen 2 gebeurtenissen variabelen A en B?
= verdeling van B is dezelfde voor alle categorieën van A
DEEL 1: probleemstelling (hoc 1)
HOC 1: Inleiding: van probleem naar analyse (hoofdstuk 1)
Wat is multivariate data-analyse?
= Gelijktijdige analyses van data met meer dan 2 variabelen
= Meten, verklaren en voorspellen van de mate van samenhang in gewogen combinaties van
variabelen
= Alle analyses met meer dan 2 variabalen
Multivariate analysetechnieken
= sterk heterogeen qua opzet en finaliteit
= analyse van probleemkenmerk of probleemrelatie
= dependente vs niet-dependente technieken
= meetniveau afhankelijke/onafhankelijke variabelen bepaald groot deel techniek
= nominaal = niet ordenen, classificatie op basis van verschillen en gelijkenissen
= ordinaal = ordenen, classificatie
= ratio = absoluut nulpunt, categorisering mogelijk
= interval = ordening, categorisering in interval, geen absoluut nulpunt
= aantal dimensies
= bv. T-test kan niet bij 2 categorische variabelen
=…
= keuze techniek
= varieert in functie van achterliggende onderzoeksvraag:
= analyse van probleemkenmerk (bv. politiek vertrouwen)
= niet geïnteresseerd in relatie = dependentie
= analyse van probleemrelatie (bv. verschil in objectieve bestaansonzekerheid naar
gewest) = dependentie
= datareductie = veelheid van items/uitspraken: achterliggende concepten/dimensies
worden gemeten = interdependentie
Twee grote groepen technieken (zie voorbeelden slide 23-34)
= dependentie = afhankelijke variabele en meerdere onafhankelijke (y = x-x-x-x)
= Regressietechnieken = ^y = b0 + b1x1 (of ^y= a+bx)
= Onderzoek verband tussen y & x na controle voor verdere variabele x (controle variabelen)
= Sterke multivariate analyse = verbanden tussen meer dan 2 variabelen tegelijkertijd in rekening
brengen = ^y = b0 + b1x1 + b2x2 + b3x3
= Logistische regressieanalyse
,= interdependentie = samenhang = geen afhankelijkheid
= geen onderscheid tussen afhankelijke en onafhankelijke variabelen (x-x-x-x-x)
= Schalen creëren en latente (niet direct meetbare) effecten/componenten
= principale componentenanalyse identificeert aantal interpreteerbare componenten
= Nood aan manifeste vragen (clever,..) om latente te meten
= Likert schaal
= Geen x en y = samenhang variabelen zonder asymmetrie
= wel = x1 – x2 – x3 - .. – xp
= Groepen variabelen die uiting zijn van latente factoren
= beide analysetechnieken
= gemeenschappelijk aan beide
= relatie tussen meer dan 2 variabelen tegelijkertijd onderzoeken = multivariate
= verschil tussen beide
= dependentietechnieken = y = x-x-x-x -> asymmetrie
= interdependentietechnieken = x-x-x-x -> symmetrie
Notatie (minder belangrijk)
= de grafische voorstelling van basisformat van probleemstelling in de vorm van een causaal diagram
vergt een eenduidige set van grafische symbolen
= type variabelen
= in het algemeen kan een variabele zowel rol van de verklaren (afhankelijke) variabele als
verklarende (onafhankelijke) variabele opnemen
• continue variabele (interval- of ratiomeetniveau) = kwantitatieve variabele
• manifest opgemeten (bv. leeftijd van respondenten)
• Kunnen zowel rol als afhankelijke als onafhankelijke opnemen
•
• nominale of ordinale variabele met twee categorieën (dichotome variabele)
• manifest opgemeten (bv. geslacht van respondenten)
• Kunnen zowel rol als afhankelijke als onafhankelijke opnemen
• polytome categorische variabele (nominaal of ordinaal) met 3 of meer categorieën
• manifest opgemeten (bv. gewest/woonplaats respondent)
• Kunnen zowel rol als afhankelijke als onafhankelijke opnemen
• latente variabele (interval- of ratiomeetniveau)
• niet rechtstreeks opgemeten bij respondenten (bv. complexe schaal berekend op
basis van opgemeten items)
,types samenhang = = Verandering in x altijd zelfde verandering in y (richtingscoef) = lineair effect
= Niet lineair = relatie tussen x en y is niet constant
• Symmetrische samenhang tussen twee kenmerken: er wordt geen onderscheid
gemaakt tussen te verklaren (afhankelijke) en verklarende (onafhankelijke) variabelen
• j
• Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair
effect uitoefent op een te verklaren (afhankelijke) variabele
• Bij een lineair effect heeft eenzelfde verandering in de onafhankelijke variabele steeds
eenzelfde verandering in de afhankelijke variabele tot gevolg
• j
• Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair effect
uitoefent op afhankelijke variabele
• Bij niet-lineair effect wordt verandering in afhankelijke variabele ten gevolge van eenzelfde
verandering
in onafhankelijke variabele gradueel groter of kleiner
• Interactie-effect: asymmetrische samenhang waarbij de combinatie van twee of
meer onafhankelijke variabelen een effect uitoefent op de
afhankelijke variabele
= variabelen en samenhang = wordt niet gevraag op het examen -> complexe diagrammen
, Sociaal wetenschappelijke probleemstellingen
= statistiek = causaliteit moeilijk aan te tonen, wel aantonen of x en y samen variëren,…
= Samen variëren, tijdsaspect,…
= Of bepaalde relatie stond houdt als je een 3 de toevoegt
= centrale vraag is kwantitatief onderzoek
= bestaat er een causale samenhang tussen x en y?
= hoe beïnvloed x de uitkomst y?
= causale samenhang verschilt van statistische samenhang
= bij een statistisch verband tussen 2 kenmerken weten we alleen dat ze samen veranderen
= theoretische redenen zijn belangrijk om te bepalen of er sprake is van causale samenhang
= 5 types (zie voorbeelden slide 46-71) (pagina 6-23)
= Schijnbare causaliteit = wordt verklaard door andere variabelen? Mag geen mediërende
variabelen zijn
= Indirecte = relatie verloopt via mediërende (andere) variabelen
= Suppressie = enkel effect bij toevoeging andere variabele
= Interactieve = interactie effect = relatie varieert door 3de = varieert door bv. hoe ouder iemand
is
= Convergente = meeste sociologische ond vragen = combinatie van soorten
Onafhankelijke variabelen hangen altijd samen
Niet overal interactie en lineaire effecten zoeken
Lineaire = assumpties = homescedacticiteit,…
= Latente = interdependentie technieken = PCA en PFA (les 7 & 8)
DEEL 2: basis (zelfstudie)
DEEL 3: analyse (hoc 2-8)
HOC 2-5: dependentietechnieken (hoofdstuk 8-11)
HOC 6-8: interdependentietechnieken (hoofdstuk 12)
HOC 2: opstap naar multivariate regressie (hoofdstuk 6 & 7)
Analyse van kruistabellen
= het begrip samenhang
= uitspraken over samenhang behoren tot de kern van theorievorming in sociale
wetenschappen
= empirisch nagaan van de samenhangen die theoretisch worden voorgesteld behoort tot de
kern van (kwantitatief) sociaalwetenschappelijk ond.
= univariate statistische parameters informeren over verdeling van een variabele
= laten niet toe het verband met andere variabele na te gaan, i.e. de analyse van
afhankelijkheid of samenhang tussen variabele
= kruistabellen laten dit wel toe
= Voorbeelden:
= Gemiddeld inkomen neemt toe naar mate scholingsgraad hoger is
= De gemiddelde kijkduur per weekdag neemt af met opleidingsniveau
= De werkloosheidsgraad ligt hoger bij minderheden
= wanneer is er sprake van onafhankelijkheid tussen 2 gebeurtenissen variabelen A en B?
= verdeling van B is dezelfde voor alle categorieën van A