Statistiek 2 lineaire regressie
Inhoudsopgave
Week 1 – Enkelvoudige lineaire regressie ........................................................................................................................ 3
Deel 1 – Een voorbeeld ................................................................................................................................................. 3
Deel 2 - Enkelvoudige regressie .................................................................................................................................... 4
Deel 3 – Residuen.......................................................................................................................................................... 6
Deel 4 - Probabilistisch model ...................................................................................................................................... 8
Week 2 – Inferentie voor lineaire regressie I .................................................................................................................. 10
Deel 1 - Enkelvoudige regressie .................................................................................................................................. 10
Deel 2 - verklarende variantie ..................................................................................................................................... 12
Deel 3 – inferentie 1.................................................................................................................................................... 14
Deel 4 – test of Independence .................................................................................................................................... 16
Deel 5 – Inferentie II.................................................................................................................................................... 18
Week 3 – Multivariate relaties en multiple regressie ..................................................................................................... 20
Deel 1 – enkelvoudige regressie ................................................................................................................................. 20
Deel 2 – multivariate relaties ...................................................................................................................................... 21
Deel 3 – soorten multivariate relaties ........................................................................................................................ 24
Deel 4 – Multipele regressie ....................................................................................................................................... 27
Week 4 – Inferentie voor lineaire regressie II ................................................................................................................. 30
Deel 1 - Multipele correlatie R^2 ................................................................................................................................ 30
Deel 2- Multicollineariteit ........................................................................................................................................... 32
Deel 3 - T-toets (helling) en ANOVA F-toets (model) ................................................................................................. 33
Deel 4 - ANOVA – details............................................................................................................................................. 35
Deel 5 - Modellen vergelijken ..................................................................................................................................... 38
Week 5 – Modelvergelijking en moderatie..................................................................................................................... 40
Deel 1 – Modellen vergelijken .................................................................................................................................... 40
Deel 2 – Voorbeeld modelvergelijking ........................................................................................................................ 42
Deel 3 – Moderatie analyse ........................................................................................................................................ 42
Deel 4 – Centreren ...................................................................................................................................................... 44
Deel 5 – Standaardiseren ............................................................................................................................................ 45
Week 6 – Modelbouw: diagnostics ................................................................................................................................. 48
Deel 1 – Modelassumpties .......................................................................................................................................... 48
Deel 2 – Residuen – verdeling ..................................................................................................................................... 50
Deel 3 – Outliers en inloedrijke punten ...................................................................................................................... 52
Deel 4 – Multicollineariteit ......................................................................................................................................... 55
Week 7 – Modelbouw: selectie en samenhang .............................................................................................................. 57
Deel 1 – Partiële correlatie (11.6) ............................................................................................................................... 57
1
,Deel 2 – Gekwadrateerde partiële correlatie ............................................................................................................. 59
Deel 3 – Modelselectie: stapsgewijze procedures (14.1) ........................................................................................... 61
- Formule variantie uit je hoofd kennen voor tentamen
- Deelopdrachten vrijdag (17h inleveren) 6 x inleveren voor feedback waar je op het eind een cijfer op krijgt
- Cijfer: 2/3 tentamen + 1/3 deelopdrachten + bonus
Tentamen moet 5.5 zijn, eindcijfer moet 6 zijn.
- Bonus kan negatief zijn
2
,Week 1 – Enkelvoudige lineaire regressie
Deel 1 – Een voorbeeld
Voorbeeld gezondheidsverschillen
Conceptueel model
• Sociaaleconomische gezondheidsverschillen verklaard door stigmatisering, zelfwaardering en neuroticisme – Elise
Kamminga (2021)
1. Is er een verband tussen SES en gezondheid en is dit verband te verklaren door stigmatisering en zelfwaardering?
2. Welke rol speelt neuroticisme in dit mechanisme?
In het model zie je dat neuroticisme een belangrijke rol speelt, de pijlen verwijzen naar andere pijlen, niet naar
andere woorden.
– Welke pijlen trek je? Waarom bepaalde wel en waarom bepaalde niet?
– Oorzaak en gevolg
– Wat ga je schatten? Wat zijn de getallen bij de paden?
– Elke pijl is een relatie met richting, een ‘effect’
– Elke pijl modelleren we met een regressiemodel
– Pijl geslacht leeftijd heeft niets te maken met causaliteit. Staat er omdat er een verschil kan bestaan tussen
geslachten op leeftijd (mannen worden bv gemiddeld minder oud dan vrouwen)
– Als je alle andere pijlen ‘vergeet’: kijk naar ses → gez
– Model voor de relatie tussen SES en gezondheid: enkelvoudig lineair regressiemodel
3
, Deel 2 - Enkelvoudige regressie
Samenhang tussen twee variabelen
• Tussen twee continue variabelen:
– Correlatie (covariantie)
• Tussen een continue en categorische variabele:
– 𝑡-toets voor twee gemiddelden (Agresti H.7)
• Tussen twee categorische variabelen:
– Kruistabel en 𝜒 2 -toets (Agresti H.8)
– Odds en odds-ratio (Agresti H.8)
– 𝑍-toets voor twee proporties (Agresti H.7)
Samenhang tussen continue variabelen
• Tussen twee continue variabelen:
– Correlatie: sterkte en richting van het verband
– Regressie: modelleren van het verband
• Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere) onafhankelijke variabele(n) met
behulp van een lineair model
Voorbeeld sesamstraat
Enkelvoudige regressie
• Trek een rechte lijn door de puntenwolk
– Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥
– Afhankelijke variabele 𝑦 (in voorbeeld postlet)
• Te verklaren variabele, responsvariabele, uitkomstvariabele
• Minimaal intervalniveau
– Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
• Verklarende variabele, predictor
• Intervalniveau of dummyvariabele (0/1)
– Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte lijn: lineair verband
– Intercept (constante): snijpunt met de 𝑦-as
– Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt
4
Inhoudsopgave
Week 1 – Enkelvoudige lineaire regressie ........................................................................................................................ 3
Deel 1 – Een voorbeeld ................................................................................................................................................. 3
Deel 2 - Enkelvoudige regressie .................................................................................................................................... 4
Deel 3 – Residuen.......................................................................................................................................................... 6
Deel 4 - Probabilistisch model ...................................................................................................................................... 8
Week 2 – Inferentie voor lineaire regressie I .................................................................................................................. 10
Deel 1 - Enkelvoudige regressie .................................................................................................................................. 10
Deel 2 - verklarende variantie ..................................................................................................................................... 12
Deel 3 – inferentie 1.................................................................................................................................................... 14
Deel 4 – test of Independence .................................................................................................................................... 16
Deel 5 – Inferentie II.................................................................................................................................................... 18
Week 3 – Multivariate relaties en multiple regressie ..................................................................................................... 20
Deel 1 – enkelvoudige regressie ................................................................................................................................. 20
Deel 2 – multivariate relaties ...................................................................................................................................... 21
Deel 3 – soorten multivariate relaties ........................................................................................................................ 24
Deel 4 – Multipele regressie ....................................................................................................................................... 27
Week 4 – Inferentie voor lineaire regressie II ................................................................................................................. 30
Deel 1 - Multipele correlatie R^2 ................................................................................................................................ 30
Deel 2- Multicollineariteit ........................................................................................................................................... 32
Deel 3 - T-toets (helling) en ANOVA F-toets (model) ................................................................................................. 33
Deel 4 - ANOVA – details............................................................................................................................................. 35
Deel 5 - Modellen vergelijken ..................................................................................................................................... 38
Week 5 – Modelvergelijking en moderatie..................................................................................................................... 40
Deel 1 – Modellen vergelijken .................................................................................................................................... 40
Deel 2 – Voorbeeld modelvergelijking ........................................................................................................................ 42
Deel 3 – Moderatie analyse ........................................................................................................................................ 42
Deel 4 – Centreren ...................................................................................................................................................... 44
Deel 5 – Standaardiseren ............................................................................................................................................ 45
Week 6 – Modelbouw: diagnostics ................................................................................................................................. 48
Deel 1 – Modelassumpties .......................................................................................................................................... 48
Deel 2 – Residuen – verdeling ..................................................................................................................................... 50
Deel 3 – Outliers en inloedrijke punten ...................................................................................................................... 52
Deel 4 – Multicollineariteit ......................................................................................................................................... 55
Week 7 – Modelbouw: selectie en samenhang .............................................................................................................. 57
Deel 1 – Partiële correlatie (11.6) ............................................................................................................................... 57
1
,Deel 2 – Gekwadrateerde partiële correlatie ............................................................................................................. 59
Deel 3 – Modelselectie: stapsgewijze procedures (14.1) ........................................................................................... 61
- Formule variantie uit je hoofd kennen voor tentamen
- Deelopdrachten vrijdag (17h inleveren) 6 x inleveren voor feedback waar je op het eind een cijfer op krijgt
- Cijfer: 2/3 tentamen + 1/3 deelopdrachten + bonus
Tentamen moet 5.5 zijn, eindcijfer moet 6 zijn.
- Bonus kan negatief zijn
2
,Week 1 – Enkelvoudige lineaire regressie
Deel 1 – Een voorbeeld
Voorbeeld gezondheidsverschillen
Conceptueel model
• Sociaaleconomische gezondheidsverschillen verklaard door stigmatisering, zelfwaardering en neuroticisme – Elise
Kamminga (2021)
1. Is er een verband tussen SES en gezondheid en is dit verband te verklaren door stigmatisering en zelfwaardering?
2. Welke rol speelt neuroticisme in dit mechanisme?
In het model zie je dat neuroticisme een belangrijke rol speelt, de pijlen verwijzen naar andere pijlen, niet naar
andere woorden.
– Welke pijlen trek je? Waarom bepaalde wel en waarom bepaalde niet?
– Oorzaak en gevolg
– Wat ga je schatten? Wat zijn de getallen bij de paden?
– Elke pijl is een relatie met richting, een ‘effect’
– Elke pijl modelleren we met een regressiemodel
– Pijl geslacht leeftijd heeft niets te maken met causaliteit. Staat er omdat er een verschil kan bestaan tussen
geslachten op leeftijd (mannen worden bv gemiddeld minder oud dan vrouwen)
– Als je alle andere pijlen ‘vergeet’: kijk naar ses → gez
– Model voor de relatie tussen SES en gezondheid: enkelvoudig lineair regressiemodel
3
, Deel 2 - Enkelvoudige regressie
Samenhang tussen twee variabelen
• Tussen twee continue variabelen:
– Correlatie (covariantie)
• Tussen een continue en categorische variabele:
– 𝑡-toets voor twee gemiddelden (Agresti H.7)
• Tussen twee categorische variabelen:
– Kruistabel en 𝜒 2 -toets (Agresti H.8)
– Odds en odds-ratio (Agresti H.8)
– 𝑍-toets voor twee proporties (Agresti H.7)
Samenhang tussen continue variabelen
• Tussen twee continue variabelen:
– Correlatie: sterkte en richting van het verband
– Regressie: modelleren van het verband
• Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere) onafhankelijke variabele(n) met
behulp van een lineair model
Voorbeeld sesamstraat
Enkelvoudige regressie
• Trek een rechte lijn door de puntenwolk
– Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥
– Afhankelijke variabele 𝑦 (in voorbeeld postlet)
• Te verklaren variabele, responsvariabele, uitkomstvariabele
• Minimaal intervalniveau
– Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
• Verklarende variabele, predictor
• Intervalniveau of dummyvariabele (0/1)
– Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte lijn: lineair verband
– Intercept (constante): snijpunt met de 𝑦-as
– Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt
4