1
Statistiek II: inleiding multivariate analyse
LES 1
1. Overzicht: wat is statistiek II?
Multivariaat = meerdere variabelen (allerlei statistische technieken met meerdere)
Multivariate analyse = 3 of meer variabelen spelen een rol binnen een analyse.
- Analyse van sociaal-wetenschappelijke probleemstellingen met 3 of meer variabelen
- Verzamelnaam voor een hele familie analystechnieken
Voorbeelden:
- Hoe politiek vertrouwen beinvloed door onderwijsniveau en tevredenheid overheidsfunctioneren?
- Hoe wordt leesvaardigheid van kinderen beinvloed door klastype, leerling en leerkrachtkenmerken?
- Hoe worden attitudes van mannen met een migratieachtergrond beïnvloed door herkomst,
migratieleeftijd en vestigingsplaats?
- Hoeveel verschillende attitudes van respondenten (en welke) worden gemeten door een batterij items?
Inhoud Statistiek II
, 2
FORMULEBLAD MAG JE GEBRUIKEN OP HET EXAMEN!!! Werk hier goed mee tijdens het oefenen!
Hoofdstuk 1: Van Probleem naar Analyse
Multivariate analysetechnieken:
• Verzamelnaam voor groep van statistische technieken gericht op analyse van samenhang tussen drie of
meer variabelen onderling.
• Sterk heterogeen qua opzet en finaliteit (wat je er mee kan doen en waarom je het kan doen):
- analyse van probleemkenmerk of probleemrelatie
- dependente versus niet-dependente technieken (zaken die we tegenkomen bij factor-analyse
etc)
- meetniveau van afhankelijke variabele
- meetniveau onafhankelijke variabelen
, 3
- aantal dimensies
- orthogonaliteit van dimensies
- …
Keuze van Multivariate Analysetechniek:
• Varieert in functie van achterliggende onderzoeksvraag:
- analyse van probleemkenmerk (bv. politiek vertrouwen, zittenblijven,…): vraag naar factoren
die kenmerk verklaren;
- analyse van probleemrelatie (bv. verschil objectieve bestaansonzekerheid naar gewest): kan
verschil verklaard worden door regionale variatie in socio-economische positie van
gezinshoofd;
- veelheid van items/uitspraken bevraagd in survey: welke achterliggende
opinies/attitudes worden gemeten (synthese/datareductie)?
• Maar ook meetniveau afhankelijke variabele, aantal afhankelijke variabelen, meetniveau afhankelijke
variabelen, het (niet-)lineaire karakter van de effecten, additieve karakter van effecten, orthogonaliteit van
onderscheiden dimensies … leiden tot verschillende modelspecificaties/analysetechnieken
2. Notatie
2.1. Types variabelen
• kwantitatieve variabele (interval- of ratiomeetniveau);
• manifest opgemeten (bv. leeftijd van respondenten à staat vast, variabele wordt meteen opgemeten. Wat is je leeftijd?
Je kan heel snel in één antwoord daarop antwoorden);
• kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke) variabele opnemen.
• dichotome categorische variabele met twee categorieën (nominaal of ordinaal meetniveau);
• manifest opgemeten (bv. geslacht van respondenten);
• kan zowel de rol van verklarende (onafhankelijke) variabele of te verklaren (afhankelijke) variabele opnemen.
• polytome categorische variabele (nominaal of ordinaal) met 3 of meer categorieën;
• manifest opgemeten (bv. gewest/woonplaats respondent);
• kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke) variabele opnemen.
• latente variabele (interval- of ratiomeetniveau à is ook niet rechtsreeks opgemeten/waargenomen. Hier heb je
meerdere momenten/technieken nodig om echt het antwoord te achterhalen à niet meteen te beantwoorden bv;
IQ/politiek links/rechts);
• niet rechtstreeks opgemeten bij respondenten. (bv. complexe schaal berekend op basis van opgemeten items)
Dummy variabelen = een variabele met 2 kanten. Werkloos/niet werkloos. = manifest
Ordinaal = volgorde van categorieen (small, medium, large)
Nominaal = verschillende categorieen zonder volgorde (bv; haarkleur)
Interval = alle waarden hebben geen natuurlijk nulpunt, bv temperatuur (celcius) want deze kant onder nul gaan.
Ratio = alle waarden die een vast natuurlijk nulpunt hebben (Kelvin)
2.2. Types samenhang
• Symmetrische samenhang tussen twee kenmerken: er wordt geen onderscheid gemaakt tussen te verklaren
(afhankelijke) en verklarende (onafhankelijke) variabelen.
• Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair (causaal) effect uitoefent op een
te verklaren (afhankelijke) variabele.
• Bij een lineair effect heeft eenzelfde verandering in de onafhankelijke variabele steeds eenzelfde verandering in de
afhankelijke variabele tot gevolg. (zie Box 7.1)
• Causalr interpretatie hangt af van onderzoeksdesign
Lineair = telkens je een jaar ouder wordt, stijgt je IQ met zoveel.
, 4
• Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair (causaal) effect uitoefent op afhankelijke
variabele.
• Bij niet-lineair effect wordt verandering in afhankelijke variabele ten gevolge van eenzelfde verandering in
onafhankelijke variabele gradueel groter of kleiner. (zie Box 8.1)
• Interactie-effect: asymmetrische samenhang waarbij de combinatie van twee of meer onafhankelijke variabelen een
causaal effect uitoefent op de afhankelijke variabele. (bv ; effect van tabak en alcohol op cardiovasculaire aandoeningen
=> beide samen geven nog een groter effect.)
Lineair =
Niet lineair =
2.3. Bivariate causale structuur
- Causale interpretatie regressieresultaten mogelijk als gegevens afkomstig zijn van
experimenteel design waar personen random aan experimentele condities werden
toegewezen
- Student/ teacher achievement ratio- experiments (STAR- experiment)
- Invloed van klasomvang op leesvaardigheid kleuters?
- 11600 kleuters in 1985-86 random toegewezen aan 3 klastypes: initieel geen
significante verschillen tss klastypes en leeftijd/SES
- Echter differentiele uitval (mensen die weggaan en niet meer meedoen) naar
achtergrondkenmerken tijdens follow-ip (4 jaar)
- Naarmate achtergrondkenmerken zelf invloed hebben op leesvaardigheid vertekent
dit het effect van klastype: multivariate analyse alsnog vereist!
- Afhankelijke variabele: percentielscore stanford achievement test (SATP)
- Klastype (GKCLASSTYPE)
- Kleine klas (13-17 lln)
- Standaardklas (22-25 lln) en par-time ondersteuning leerkracht
- Standaardklas (22-25 lln) en voltijdse ondersteuning leerkracht
- Dummy WHITE/ASIAN vs 0 (anderen)
- Dummy GIRL vs 0 (MEN lln)
- Dummy FREELUNCH VS 0 (anderen)
- Dummy WHITETEACHER vs 0 (anderen)
- Variabele GKTYEARS: ervaring van leerkracht in kleuteronderwijs (in jaren)
- Dummy TEACHERMA: leerkracht met masterdiploma (1) vs 0 (anderen)
Statistiek II: inleiding multivariate analyse
LES 1
1. Overzicht: wat is statistiek II?
Multivariaat = meerdere variabelen (allerlei statistische technieken met meerdere)
Multivariate analyse = 3 of meer variabelen spelen een rol binnen een analyse.
- Analyse van sociaal-wetenschappelijke probleemstellingen met 3 of meer variabelen
- Verzamelnaam voor een hele familie analystechnieken
Voorbeelden:
- Hoe politiek vertrouwen beinvloed door onderwijsniveau en tevredenheid overheidsfunctioneren?
- Hoe wordt leesvaardigheid van kinderen beinvloed door klastype, leerling en leerkrachtkenmerken?
- Hoe worden attitudes van mannen met een migratieachtergrond beïnvloed door herkomst,
migratieleeftijd en vestigingsplaats?
- Hoeveel verschillende attitudes van respondenten (en welke) worden gemeten door een batterij items?
Inhoud Statistiek II
, 2
FORMULEBLAD MAG JE GEBRUIKEN OP HET EXAMEN!!! Werk hier goed mee tijdens het oefenen!
Hoofdstuk 1: Van Probleem naar Analyse
Multivariate analysetechnieken:
• Verzamelnaam voor groep van statistische technieken gericht op analyse van samenhang tussen drie of
meer variabelen onderling.
• Sterk heterogeen qua opzet en finaliteit (wat je er mee kan doen en waarom je het kan doen):
- analyse van probleemkenmerk of probleemrelatie
- dependente versus niet-dependente technieken (zaken die we tegenkomen bij factor-analyse
etc)
- meetniveau van afhankelijke variabele
- meetniveau onafhankelijke variabelen
, 3
- aantal dimensies
- orthogonaliteit van dimensies
- …
Keuze van Multivariate Analysetechniek:
• Varieert in functie van achterliggende onderzoeksvraag:
- analyse van probleemkenmerk (bv. politiek vertrouwen, zittenblijven,…): vraag naar factoren
die kenmerk verklaren;
- analyse van probleemrelatie (bv. verschil objectieve bestaansonzekerheid naar gewest): kan
verschil verklaard worden door regionale variatie in socio-economische positie van
gezinshoofd;
- veelheid van items/uitspraken bevraagd in survey: welke achterliggende
opinies/attitudes worden gemeten (synthese/datareductie)?
• Maar ook meetniveau afhankelijke variabele, aantal afhankelijke variabelen, meetniveau afhankelijke
variabelen, het (niet-)lineaire karakter van de effecten, additieve karakter van effecten, orthogonaliteit van
onderscheiden dimensies … leiden tot verschillende modelspecificaties/analysetechnieken
2. Notatie
2.1. Types variabelen
• kwantitatieve variabele (interval- of ratiomeetniveau);
• manifest opgemeten (bv. leeftijd van respondenten à staat vast, variabele wordt meteen opgemeten. Wat is je leeftijd?
Je kan heel snel in één antwoord daarop antwoorden);
• kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke) variabele opnemen.
• dichotome categorische variabele met twee categorieën (nominaal of ordinaal meetniveau);
• manifest opgemeten (bv. geslacht van respondenten);
• kan zowel de rol van verklarende (onafhankelijke) variabele of te verklaren (afhankelijke) variabele opnemen.
• polytome categorische variabele (nominaal of ordinaal) met 3 of meer categorieën;
• manifest opgemeten (bv. gewest/woonplaats respondent);
• kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke) variabele opnemen.
• latente variabele (interval- of ratiomeetniveau à is ook niet rechtsreeks opgemeten/waargenomen. Hier heb je
meerdere momenten/technieken nodig om echt het antwoord te achterhalen à niet meteen te beantwoorden bv;
IQ/politiek links/rechts);
• niet rechtstreeks opgemeten bij respondenten. (bv. complexe schaal berekend op basis van opgemeten items)
Dummy variabelen = een variabele met 2 kanten. Werkloos/niet werkloos. = manifest
Ordinaal = volgorde van categorieen (small, medium, large)
Nominaal = verschillende categorieen zonder volgorde (bv; haarkleur)
Interval = alle waarden hebben geen natuurlijk nulpunt, bv temperatuur (celcius) want deze kant onder nul gaan.
Ratio = alle waarden die een vast natuurlijk nulpunt hebben (Kelvin)
2.2. Types samenhang
• Symmetrische samenhang tussen twee kenmerken: er wordt geen onderscheid gemaakt tussen te verklaren
(afhankelijke) en verklarende (onafhankelijke) variabelen.
• Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair (causaal) effect uitoefent op een
te verklaren (afhankelijke) variabele.
• Bij een lineair effect heeft eenzelfde verandering in de onafhankelijke variabele steeds eenzelfde verandering in de
afhankelijke variabele tot gevolg. (zie Box 7.1)
• Causalr interpretatie hangt af van onderzoeksdesign
Lineair = telkens je een jaar ouder wordt, stijgt je IQ met zoveel.
, 4
• Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair (causaal) effect uitoefent op afhankelijke
variabele.
• Bij niet-lineair effect wordt verandering in afhankelijke variabele ten gevolge van eenzelfde verandering in
onafhankelijke variabele gradueel groter of kleiner. (zie Box 8.1)
• Interactie-effect: asymmetrische samenhang waarbij de combinatie van twee of meer onafhankelijke variabelen een
causaal effect uitoefent op de afhankelijke variabele. (bv ; effect van tabak en alcohol op cardiovasculaire aandoeningen
=> beide samen geven nog een groter effect.)
Lineair =
Niet lineair =
2.3. Bivariate causale structuur
- Causale interpretatie regressieresultaten mogelijk als gegevens afkomstig zijn van
experimenteel design waar personen random aan experimentele condities werden
toegewezen
- Student/ teacher achievement ratio- experiments (STAR- experiment)
- Invloed van klasomvang op leesvaardigheid kleuters?
- 11600 kleuters in 1985-86 random toegewezen aan 3 klastypes: initieel geen
significante verschillen tss klastypes en leeftijd/SES
- Echter differentiele uitval (mensen die weggaan en niet meer meedoen) naar
achtergrondkenmerken tijdens follow-ip (4 jaar)
- Naarmate achtergrondkenmerken zelf invloed hebben op leesvaardigheid vertekent
dit het effect van klastype: multivariate analyse alsnog vereist!
- Afhankelijke variabele: percentielscore stanford achievement test (SATP)
- Klastype (GKCLASSTYPE)
- Kleine klas (13-17 lln)
- Standaardklas (22-25 lln) en par-time ondersteuning leerkracht
- Standaardklas (22-25 lln) en voltijdse ondersteuning leerkracht
- Dummy WHITE/ASIAN vs 0 (anderen)
- Dummy GIRL vs 0 (MEN lln)
- Dummy FREELUNCH VS 0 (anderen)
- Dummy WHITETEACHER vs 0 (anderen)
- Variabele GKTYEARS: ervaring van leerkracht in kleuteronderwijs (in jaren)
- Dummy TEACHERMA: leerkracht met masterdiploma (1) vs 0 (anderen)