Hoorcollege 1 Multipele regressie
Multipele regressie
Voorbeeldverslag → allemaal factoren (risicofactoren, opvoedingsprincipes, schoolfactoren etc.) die
een rol spelen op de schoolprestaties van kinderen. → nagaan wat de invloed van deze variabelen
(onafhankelijk) hebben op de schoolprestaties (afhankelijke) → multipele regressie
Model
Padmodel multipele regressie
Met streepje: dichotome variabele met 2 categorieën
Geen streepje in: interval/ratio niveau
• 1 afhankelijke variabele (Y)
• 1 of meerdere onafhankelijke variabelen (minimaal interval)
• 1 of meerdere onafhankelijke variabele (dichotoom)
Onderwerpen college
• Regressiemodel
• Predictoren/onafhankelijke variabelen en afhankelijke variabelen
• (Gestandaardiseerde) regressiecoëfficiënten
1
,VOS: Alle hoorcolleges
• Kleinste kwadraten criterium
• Goodness-of-fit
• Toetsen van R2
• Toetsen van B’s en β’s
• Vergelijking van deltaR2
• Categorische kenmerken in regressiemodel; dummy’s
• Assumpties toepassing in regressieanalyse
Voorbeeld
Onderzoeksvraag: kunnen we kennis van literatuur bij jongvolwassenen voorspellen met persoons-,
gezins- en schoolkenmerken?
Populatie: jongvolwassenen
Variabelen: afhankelijke variabele y (kennis van literatuur), onafhankelijke variabele X (predictoren)
(persoonlijke kenmerken, kenmerken ouderlijk huis, kenmerken school)
➔ Voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en
de predictoren X
Multipele regressie algemeen
Onderzoeksvraag: Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken?
Doelen analyse:
• Beschrijven lineaire relaties tussen variabelen (regressiemodel)
• Toetsen hypothesen op relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Kwalificeren van relaties (klein, middelmatig, groot)
• Beoordelen relevantie relaties (subjectief)
• Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
Waarschuwing: doe op basis van statistische samenhang GEEN uitspraken over causaliteit
Variabelen in voorbeeld
Read: kennis literatuur respondent (Y)
Fath_rd: kennis literatuur vader (X1)
Moth_rd: kennis literatuur moeder (X2)
Par_book: aantal boeken in ouderlijk huis (X3)
Sch_rd: aandacht voor literatuur school (X4)
Hist_rd: lezen verleden (X5)
Educ: opleidingsniveau (X6)
Meetniveau variabelen
Afhankelijke variabele Y:
• Gemeten op minimaal interval meetniveau
Meetniveau onafhankelijke variabelen Xk:
• Kenmerk gemeten op minimaal interval meetniveau
2
,VOS: Alle hoorcolleges
• Categorische kenmerk met 2 categorieën; nominaal meetniveau met 2 categorieën noemen
we dichotoom
• Categorische kenmerk met meer dan 2 categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummyvariabelen
Variabelen in voorbeeld
Allemaal minimaal interval meetniveau
Analyse techniek → multipele lineaire regressieanalyse (MR)
Regressiemodel (1)
Vergelijking Y
Voor geobserveerde variabele Y
Uitkomst (Y) = model (X) = voorspellingsfout
Voorspellingsfout = residual of error
Model = lineair regressiemodel
Vergelijking Ŷ
Voor voorspellen van waarde op Ŷ (dakje wijst op voorspelling)
Geschatte uitkomst (Ŷ) = model(X)
Verschil observatie en schatting = voorspellingsfout
Regressiemodel (2)
SPSS Datamatrix
3
, VOS: Alle hoorcolleges
Histogram ‘read’
Spreidingsdiagram
Intercept = soort begin van de lijn, positie van Y waar X=0 geldt. Bij multipele regressie is t waar alle
X=en 0 zijn.
Regressie is hoe stijl de lijn loopt.
Regressiecoëfficiënten
Links = positieve relatie
Midden = negatieve relatie
Rechts = afwezigheid relatie
4