Week 3 Statistiek
Vervolg multivariate regressieanalyse
- Multivariate regressie: meerdere onafhankelijke variabelen
Maar is een model met meerdere onafhankelijke variabelen altijd ‘beter’?
R² altijd hoger bij toevoeging variabelen: er wordt meer verklaard
Adjusted R²: strafpunten bij toevoeging variabelen
Parsimony: we willen een model dat zoveel mogelijk verklaart met zo weinig mogelijk
variabelen
Opnemen van variabelen die niets substantieel toevoegen aan model creëert gewoon ruis
(‘noise’)=> minder precieze schatting van de variabelen die er wel toe doen
Hoofdvraag: wanneer leidt toevoeging van een variabele tot een significante verbetering van het
model?
Bij het probleem van verschillende N’s, (kan bijv. komen door missing waarden) moet je gebruik
maken van hiërarchische regressie
- Geen aparte statistische analyse, maar methode om analyse uit te voeren
- Houdt de N gelijk bij het testen van modellen met verschillende onafhankelijke variabelen
- ZIE SPSS
Stap 1: linear regression
Stap 2: 1 afhankelijke variabel + meerdere onafhankelijke variabelen. Voor elke variabel druk NEXT
zodat iedere onafhankelijke variabele in eigen block zit.
Stap 3: Zet bij Statistics ook nog R Square change aan.
Categorische onafhankelijke variabelen
- Onafhankelijke variabelen in lineaire regressie moeten in beginsel interval-ratio/metrisch
variabelen zijn.
- Maar we kunnen ook variabelen gebruiken die maar twee waarden kunnen aannemen: 0 en
1, oftewel ‘dummies’
- Bovendien kunnen we ordinale en nominale variabelen met meerdere categorieën omzetten
in een serie 1/0 variabelen
Hiervoor moet je de variabel wel eerst HERCODEREN!!
Vervolg multivariate regressieanalyse
- Multivariate regressie: meerdere onafhankelijke variabelen
Maar is een model met meerdere onafhankelijke variabelen altijd ‘beter’?
R² altijd hoger bij toevoeging variabelen: er wordt meer verklaard
Adjusted R²: strafpunten bij toevoeging variabelen
Parsimony: we willen een model dat zoveel mogelijk verklaart met zo weinig mogelijk
variabelen
Opnemen van variabelen die niets substantieel toevoegen aan model creëert gewoon ruis
(‘noise’)=> minder precieze schatting van de variabelen die er wel toe doen
Hoofdvraag: wanneer leidt toevoeging van een variabele tot een significante verbetering van het
model?
Bij het probleem van verschillende N’s, (kan bijv. komen door missing waarden) moet je gebruik
maken van hiërarchische regressie
- Geen aparte statistische analyse, maar methode om analyse uit te voeren
- Houdt de N gelijk bij het testen van modellen met verschillende onafhankelijke variabelen
- ZIE SPSS
Stap 1: linear regression
Stap 2: 1 afhankelijke variabel + meerdere onafhankelijke variabelen. Voor elke variabel druk NEXT
zodat iedere onafhankelijke variabele in eigen block zit.
Stap 3: Zet bij Statistics ook nog R Square change aan.
Categorische onafhankelijke variabelen
- Onafhankelijke variabelen in lineaire regressie moeten in beginsel interval-ratio/metrisch
variabelen zijn.
- Maar we kunnen ook variabelen gebruiken die maar twee waarden kunnen aannemen: 0 en
1, oftewel ‘dummies’
- Bovendien kunnen we ordinale en nominale variabelen met meerdere categorieën omzetten
in een serie 1/0 variabelen
Hiervoor moet je de variabel wel eerst HERCODEREN!!