100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
College aantekeningen

Aantekeningen colleges Statistiek 2 (SOBA108A)

Beoordeling
-
Verkocht
3
Pagina's
26
Geüpload op
19-11-2024
Geschreven in
2022/2023

In dit document staan alle aantekeningen van de colleges van Statistiek 2 met relevante visualisaties











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
19 november 2024
Aantal pagina's
26
Geschreven in
2022/2023
Type
College aantekeningen
Docent(en)
Statistiek
Bevat
Alle colleges

Onderwerpen

Voorbeeld van de inhoud

Week 1 - Enkelvoudige Lineaire Regressie

Samenhang tussen twee variabelen:
● Tussen twee continue variabelen:
- Correlatie (covariantie)
● Tussen een continue en categorische variabele:
- 𝑡-toets voor twee gemiddelden (Agresti H.7)
● Tussen twee categorische variabelen:
- Kruistabel en 𝜒2-toets (Agresti H.8)
- Odds en odds-ratio (Agresti H.8)
- 𝑍-toets voor twee proporties (Agresti H.7)

● Samenhang tussen twee continue variabelen:
- Correlatie: sterkte en richting van het verband
- Regressie: modelleren van het verband
● Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere)
onafhankelijke variabele(n) met behulp van een lineair model.

Trek een rechte lijn door de puntenwolk
● Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte
lijn: lineair verband
● Afhankelijke variabele 𝑦 (in voorbeeld postlet)
- Te verklaren variabele, responsvariabele, uitkomstvariabele
- Interval- of ratioschaal
● Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
- Verklarende variabele, predictor
- Intervalschaal of dummyvariabele (binair, bijv. 0/1)
● De formule 𝑦 = 𝛼 + 𝛽𝑥 drukt observaties van 𝑦 uit als een lineaire functie van
observaties van 𝑥. De formule heeft een grafiek met een rechte lijn, met helling 𝛽 en
𝑦-constante 𝛼.
- Constante (intercept): waarde van 𝑦 als 𝑥 nul is; snijpunt met de 𝑦-as
- Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt

Voorbeeld: De impact van Sesamstraat
● Afhankelijke 𝑦 = postlet
● Onafhankelijke 𝑥 = postnumb
● Lineair verband: 𝑦 = 𝛼 + 𝛽𝑥
● Rechte lijn lijkt goed te passen maar blijft een vereenvoudiging van de werkelijkheid
(in de populatie)
● Waarden van de constante 𝛼 en de helling 𝛽 moeten geschat worden
● Model: ŷ = 0,443 + 0,862𝑥
● Of E(postlet) = 0,443 + 0,862postnumb
- Constante (0,443): verwacht waarde van postlet (𝑦) als postnumb (𝑥) gelijk is
aan 0
- Helling (0,862): gemiddelde stijging in postlet (𝑦) als postnumb (𝑥) één
eenheid stijgt

, ● Neem kind 133 in de dataset, die heeft een score op postnumb = 14. Wat voorspel je
voor 𝑦 (postlet)?
● Voorspelling: ŷ = 0,443 + 0,862 × 14 = 12,511
● Fout: y - ŷ = 13 - 12,511 = 0,489 → residu/error

Residuen
● De fout bij het schatten is e = y - ŷ = residu (uitleg voorspelfouten: ppt. week 1, slides
22-23).
● Het verschil tussen de geobserveerde waarde en de voorspelde waarde.
● SSE kan worden gezien als een ‘foutenmaat’; hoe slecht het model is.
● Beste regressielijn schatten via methode van kleinste kwadraten (OLS) door fouten
te minimaliseren:
- Maak de fouten zo klein mogelijk = maak de afstand van elk punt (observatie)
tot de regressielijn (voorspelling) zo klein mogelijk
- Minimaliseer daarmee de sum of squared errors SSE = ∑(y - ŷ)2
● Het minimaliseren van de SSE levert de geschatte waarden van de constante a en
de helling b (voorbeeld berekening van b, a en SSE: ppt. week 1, slides 27-28).
● Het geschatte model is ŷ = a + bx




Het lineaire regressiemodel
● Deterministisch model: voor elke waarde van x is er één y-waarde
● Onrealistisch: niet iedereen met dezelfde x heeft dezelfde y-score
● Voor elke x-groep is er een verdeling van y-scores
● Probabilistisch model: conditionele verdeling van y gegeven waarden van x
● Het model beschrijft hoe scores op y kunnen variëren voor elke waarde van x

Probabilistisch model
● Het model beschrijft de verdeling van y gegeven de waarden van x (conditionele
verdeling).
● Het deterministische deel geeft het gemiddelde (of verwachte waarde) E(y), dus van
y gegeven x:
E(y) = ɑ + βx
● Dit is de lineaire (enkelvoudige) regressievergelijking en geeft dus het verband
tussen x en het gemiddelde van y

, ● De regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van
de responsvariabele verandert als gevolg van de waarde van een verklarende
variabele.

Conditionele verdeling
● Gegeven een x-waarde is:
- de conditionele verdeling van y een normale verdeling
- met conditioneel gemiddelde E(y) (gegeven door de regressielijn)
- en constante conditionele standaarddeviatie σ




● Zie voor vergelijking met klassieke t-toets 2 gemiddelden: ppt. week 1, slides 36-38.

Conditionele SD
● Residu is de afstand van elk punt tot de regressielijn (oftewel tot het conditionele
gemiddelde van y)
● SSE is de kwadratensom rond het conditionele gemiddelde:
SSE = ∑(y - ŷ)2 = ∑e2
𝑆𝑆𝐸
● Variantie: s2 = 𝑛−2
= MSE
𝑆𝑆𝐸
● Geschatte SD: s = 𝑛−2
● Interpretatie van de mate van spreiding met behulp van de SD:
- 68% van de waarden ligt tussen -1σ en 1σ
- dus: 2σ vergelijken met de gehele schaal van y




Samenvattend
- De regressielijn geeft een voorspelling van het gemiddelde 𝐸(𝑦) van 𝑦 gegeven 𝑥: het
conditionele gemiddelde van 𝑦
€7,49
Krijg toegang tot het volledige document:

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Maak kennis met de verkoper
Seller avatar
romyborger00

Maak kennis met de verkoper

Seller avatar
romyborger00 Rijksuniversiteit Groningen
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
4
Lid sinds
1 jaar
Aantal volgers
0
Documenten
10
Laatst verkocht
8 maanden geleden

0,0

0 beoordelingen

5
0
4
0
3
0
2
0
1
0

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen