100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Class notes

Aantekeningen colleges Statistiek 3 (SOBA114)

Rating
-
Sold
-
Pages
31
Uploaded on
19-11-2024
Written in
2022/2023

In dit document staan alle aantekeningen van de colleges van Statistiek 3 met relevante visualisaties

Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
November 19, 2024
Number of pages
31
Written in
2022/2023
Type
Class notes
Professor(s)
Statistiek
Contains
All classes

Subjects

Content preview

Week 1 - Generalized Linear Models

Statistiek 3
- Lineair model: categorische predictoren
● ANOVA: groepen vergelijken
● ANCOVA: groepen vergelijken met correctie door continue variabelen
● Dummy variabelen
- Logistisch model: categorische uitkomst
● Binair
● Categorisch: wel/niet ordinaal
- Generalized Linear Models

Multipele regressie
- 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘

Voorspel de waarde van 𝑦 uit meerdere 𝑥-en
- 1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)
- 𝑘 onafhankelijke variabelen 𝑥1, … , 𝑥𝑘 (verklarende variabelen, predictoren)
- Lineair voorspellingsmodel voor het conditionele gemiddelde van 𝑦 gegeven de 𝑥-en
- Schatten volgens Least Squares principe: minimaliseer SSE
- Aannames: onafhankelijke waarnemingen, lineair verband, homoscedasticiteit,
normaal-verdeelde residuen

De regressieanalyse geeft de conditionele verdeling van 𝑦 gegeven de 𝑥-en
- Dit is de normale verdeling (aanname: residuen normaal-verdeeld)
- met conditioneel gemiddelde 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- en met conditionele SD 𝜎 (de SD van de residuen)

Deze regressieanalyse heeft drie kenmerken
1. De conditionele verdeling van 𝑦 (i.e., de residuen) is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een link tussen het conditionele gemiddelde van 𝑦 en de lineaire predictor:
𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘

Generalized Linear Models
- Familie van modellen met drie kenmerken
1. Er is een conditionele verdeling van 𝑦 (afhankelijk van soort variabele)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor

Wat is het probleem hiermee?
- De verdeling is niet de normale (vaak veroorzaakt door de marginale verdeling van 𝑦:
categorisch, binair, scheef, etc.)
- Er is geen lineair verband tussen 𝑦 en de 𝑥-en (idem)

,Oplossing?
- Gebruik een geschikte verdeling voor 𝑦 dus je bent niet beperkt tot het gebruik van
de normale verdeling (met de aannames)
- Gebruik een andere link tussen het gemiddelde van 𝑦 en de predictoren

Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Familie van modellen met drie kenmerken:
1. De verdeling van 𝑦 wordt bepaald door het type variabele – bepaalt ook
verdeling error (niet perse normaal)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor: 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat anders dan in het ‘gewone’ lineaire model (maximum likelihood)
- Toetsen gaat ook anders (andere verdelingen):
● Hellingen met 𝑍-toetsen of Wald-toetsen (Chi-kwadraat verdeling)
● Modellen met LR-toetsen (likelihood ratio-toetsen, deviance-toetsen; ook met
Chi-kwadraat verdeling)

,Week 2 - Groepen vergelijken I: eenweg-ANOVA

Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘
- Lineaire regressieanalyse:
1. De conditionele verdeling van 𝑦 is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een eenvoudige link tussen het conditionele gemiddelde van 𝑦 en de
lineaire predictor: 𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat via least squares (of maximum likelihood – zelfde hellingen)
- Toetsen gaat op de gebruikelijke manier:
● Hellingen met 𝑡-toetsen (𝑡(𝑛 − 𝑘 − 1)-verdeling)
● Modellen met 𝐹-toetsen (𝐹(𝑘, 𝑛 − 𝑘 − 1)-verdeling)

ANOVA 𝐹-toets
- ANOVA 𝐹-toets: 𝐻0: 𝜌2 = 0 tegen 𝐻ɑ: 𝜌2 > 0
● Of: 𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0 tegen 𝐻ɑ: niet alle 𝛽j gelijk aan 0
● Gebaseerd op splitsing van SS en 𝑑𝑓: verklaard + onverklaard = totaal
2
𝑀𝑆𝑀 𝑅 /𝑘
● 𝐹-toets: 𝐹(5, 144) = 𝑀𝑆𝐸
= 2 = 14,2
(1−𝑅 )/(𝑛−𝑘−1)
● 𝑝 = P(𝐹 ≥ 14,2 | 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0) < 0,0005
● Vergelijkt het model met een leeg model (zonder predictoren)




Partiële 𝐹-toets: vergelijkingen
- Modellen vergelijken: Model 2 en Model 3
● Model 2: predictoren tvsoc_c, sexe en tvsoc_sexe
● Model 3: predictoren tvsoc_c, sexe, tvsoc_sexe, fysiekg en men
● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
● Kijk niet naar het verschil in 𝐹-scores! Een kleinere 𝐹-score zegt niet dat de
verklaarde variantie minder is.

, ● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
2 2
(𝑅𝑐 −𝑅𝑟 )/(𝑑𝑓𝑟−𝑑𝑓𝑐) 0,066/2
● 𝐹= 2 = (1−0,330)/144
= 7,124, 𝑝 = 0,001
(1−𝑅𝑐 )/(𝑑𝑓𝑐)

● 𝐻0: 𝜌c2 − 𝜌r2 = 0 vs. 𝐻ɑ: 𝜌c2 − 𝜌r2 > 0 of
𝐻0: 𝜌32 − 𝜌22 = 0 vs. 𝐻ɑ: 𝜌32 − 𝜌22 > 0
● 𝐻0: 𝛽f = 𝛽m = 0 vs. 𝐻ɑ: tenminste één 𝛽 is niet 0

Categorische variabele als predictor, bijvoorbeeld 5 verschillende groepen
- Probleem: de getallen 1 t/m 5 worden random aan de groepen toegewezen
- Wanneer je hiermee een lineaire regressieanalyse uitvoert, krijg je een helling die
moeilijk te interpreteren is: bij een willekeurige andere toewijzing van labels krijg je
een andere helling
- Categorische variabelen moeten dus minimaal een ordinale schaal hebben, anders
kun je ze niet gebruiken
- Oplossing: dummy-variabelen

Dummy-variabelen
- Categorische variabelen als predictoren
● Mag als het dummy's zijn (0/1 variabelen)
● Als er meer dan twee categorieën zijn, mag je die variabelen niet zomaar als
voorspeller in het model opnemen – waarom niet?
● Let op: nominale of ordinale variabelen
● Ordinaal: Likert-schaal met vijf of meer categorieën?
● Hoe dan wel? Maak dummy-variabelen
- Wat moet je doen met een categorische voorspeller?
● Maak er een aantal dummy’s van
● Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 - 1
● De laatste groep is automatisch de constante: op alle andere dummy’s is de
score namelijk 0
● Want je kunt niet in twee groepen tegelijkertijd zitten: de groepen zijn mutually
exclusive (dummy’s zijn onafhankelijk van elkaar)

Voorbeeld - Sesamstraat




Model: 𝐸(𝑦) = 31,39 − 1,31𝑑1 + 7,34𝑑2 − 5,95𝑑3 − 6,16𝑑4
$12.57
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Get to know the seller
Seller avatar
romyborger00

Get to know the seller

Seller avatar
romyborger00 Rijksuniversiteit Groningen
Follow You need to be logged in order to follow users or courses
Sold
4
Member since
1 year
Number of followers
0
Documents
10
Last sold
8 months ago

0.0

0 reviews

5
0
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions