100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
College aantekeningen

Aantekeningen colleges Statistiek 3 (SOBA114)

Beoordeling
-
Verkocht
-
Pagina's
31
Geüpload op
19-11-2024
Geschreven in
2022/2023

In dit document staan alle aantekeningen van de colleges van Statistiek 3 met relevante visualisaties

Instelling
Vak











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Geüpload op
19 november 2024
Aantal pagina's
31
Geschreven in
2022/2023
Type
College aantekeningen
Docent(en)
Statistiek
Bevat
Alle colleges

Onderwerpen

Voorbeeld van de inhoud

Week 1 - Generalized Linear Models

Statistiek 3
- Lineair model: categorische predictoren
● ANOVA: groepen vergelijken
● ANCOVA: groepen vergelijken met correctie door continue variabelen
● Dummy variabelen
- Logistisch model: categorische uitkomst
● Binair
● Categorisch: wel/niet ordinaal
- Generalized Linear Models

Multipele regressie
- 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘

Voorspel de waarde van 𝑦 uit meerdere 𝑥-en
- 1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)
- 𝑘 onafhankelijke variabelen 𝑥1, … , 𝑥𝑘 (verklarende variabelen, predictoren)
- Lineair voorspellingsmodel voor het conditionele gemiddelde van 𝑦 gegeven de 𝑥-en
- Schatten volgens Least Squares principe: minimaliseer SSE
- Aannames: onafhankelijke waarnemingen, lineair verband, homoscedasticiteit,
normaal-verdeelde residuen

De regressieanalyse geeft de conditionele verdeling van 𝑦 gegeven de 𝑥-en
- Dit is de normale verdeling (aanname: residuen normaal-verdeeld)
- met conditioneel gemiddelde 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- en met conditionele SD 𝜎 (de SD van de residuen)

Deze regressieanalyse heeft drie kenmerken
1. De conditionele verdeling van 𝑦 (i.e., de residuen) is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een link tussen het conditionele gemiddelde van 𝑦 en de lineaire predictor:
𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘

Generalized Linear Models
- Familie van modellen met drie kenmerken
1. Er is een conditionele verdeling van 𝑦 (afhankelijk van soort variabele)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor

Wat is het probleem hiermee?
- De verdeling is niet de normale (vaak veroorzaakt door de marginale verdeling van 𝑦:
categorisch, binair, scheef, etc.)
- Er is geen lineair verband tussen 𝑦 en de 𝑥-en (idem)

,Oplossing?
- Gebruik een geschikte verdeling voor 𝑦 dus je bent niet beperkt tot het gebruik van
de normale verdeling (met de aannames)
- Gebruik een andere link tussen het gemiddelde van 𝑦 en de predictoren

Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Familie van modellen met drie kenmerken:
1. De verdeling van 𝑦 wordt bepaald door het type variabele – bepaalt ook
verdeling error (niet perse normaal)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor: 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat anders dan in het ‘gewone’ lineaire model (maximum likelihood)
- Toetsen gaat ook anders (andere verdelingen):
● Hellingen met 𝑍-toetsen of Wald-toetsen (Chi-kwadraat verdeling)
● Modellen met LR-toetsen (likelihood ratio-toetsen, deviance-toetsen; ook met
Chi-kwadraat verdeling)

,Week 2 - Groepen vergelijken I: eenweg-ANOVA

Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘
- Lineaire regressieanalyse:
1. De conditionele verdeling van 𝑦 is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een eenvoudige link tussen het conditionele gemiddelde van 𝑦 en de
lineaire predictor: 𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat via least squares (of maximum likelihood – zelfde hellingen)
- Toetsen gaat op de gebruikelijke manier:
● Hellingen met 𝑡-toetsen (𝑡(𝑛 − 𝑘 − 1)-verdeling)
● Modellen met 𝐹-toetsen (𝐹(𝑘, 𝑛 − 𝑘 − 1)-verdeling)

ANOVA 𝐹-toets
- ANOVA 𝐹-toets: 𝐻0: 𝜌2 = 0 tegen 𝐻ɑ: 𝜌2 > 0
● Of: 𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0 tegen 𝐻ɑ: niet alle 𝛽j gelijk aan 0
● Gebaseerd op splitsing van SS en 𝑑𝑓: verklaard + onverklaard = totaal
2
𝑀𝑆𝑀 𝑅 /𝑘
● 𝐹-toets: 𝐹(5, 144) = 𝑀𝑆𝐸
= 2 = 14,2
(1−𝑅 )/(𝑛−𝑘−1)
● 𝑝 = P(𝐹 ≥ 14,2 | 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0) < 0,0005
● Vergelijkt het model met een leeg model (zonder predictoren)




Partiële 𝐹-toets: vergelijkingen
- Modellen vergelijken: Model 2 en Model 3
● Model 2: predictoren tvsoc_c, sexe en tvsoc_sexe
● Model 3: predictoren tvsoc_c, sexe, tvsoc_sexe, fysiekg en men
● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
● Kijk niet naar het verschil in 𝐹-scores! Een kleinere 𝐹-score zegt niet dat de
verklaarde variantie minder is.

, ● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
2 2
(𝑅𝑐 −𝑅𝑟 )/(𝑑𝑓𝑟−𝑑𝑓𝑐) 0,066/2
● 𝐹= 2 = (1−0,330)/144
= 7,124, 𝑝 = 0,001
(1−𝑅𝑐 )/(𝑑𝑓𝑐)

● 𝐻0: 𝜌c2 − 𝜌r2 = 0 vs. 𝐻ɑ: 𝜌c2 − 𝜌r2 > 0 of
𝐻0: 𝜌32 − 𝜌22 = 0 vs. 𝐻ɑ: 𝜌32 − 𝜌22 > 0
● 𝐻0: 𝛽f = 𝛽m = 0 vs. 𝐻ɑ: tenminste één 𝛽 is niet 0

Categorische variabele als predictor, bijvoorbeeld 5 verschillende groepen
- Probleem: de getallen 1 t/m 5 worden random aan de groepen toegewezen
- Wanneer je hiermee een lineaire regressieanalyse uitvoert, krijg je een helling die
moeilijk te interpreteren is: bij een willekeurige andere toewijzing van labels krijg je
een andere helling
- Categorische variabelen moeten dus minimaal een ordinale schaal hebben, anders
kun je ze niet gebruiken
- Oplossing: dummy-variabelen

Dummy-variabelen
- Categorische variabelen als predictoren
● Mag als het dummy's zijn (0/1 variabelen)
● Als er meer dan twee categorieën zijn, mag je die variabelen niet zomaar als
voorspeller in het model opnemen – waarom niet?
● Let op: nominale of ordinale variabelen
● Ordinaal: Likert-schaal met vijf of meer categorieën?
● Hoe dan wel? Maak dummy-variabelen
- Wat moet je doen met een categorische voorspeller?
● Maak er een aantal dummy’s van
● Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 - 1
● De laatste groep is automatisch de constante: op alle andere dummy’s is de
score namelijk 0
● Want je kunt niet in twee groepen tegelijkertijd zitten: de groepen zijn mutually
exclusive (dummy’s zijn onafhankelijk van elkaar)

Voorbeeld - Sesamstraat




Model: 𝐸(𝑦) = 31,39 − 1,31𝑑1 + 7,34𝑑2 − 5,95𝑑3 − 6,16𝑑4
$12.58
Krijg toegang tot het volledige document:

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Maak kennis met de verkoper
Seller avatar
romyborger00

Maak kennis met de verkoper

Seller avatar
romyborger00 Rijksuniversiteit Groningen
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
4
Lid sinds
1 jaar
Aantal volgers
0
Documenten
10
Laatst verkocht
8 maanden geleden

0.0

0 beoordelingen

5
0
4
0
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen