Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Notes de cours

Aantekeningen colleges Statistiek 2 (SOBA108A)

Note
-
Vendu
3
Pages
26
Publié le
19-11-2024
Écrit en
2022/2023

In dit document staan alle aantekeningen van de colleges van Statistiek 2 met relevante visualisaties

Établissement
Cours










Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

École, étude et sujet

Établissement
Cours
Cours

Infos sur le Document

Publié le
19 novembre 2024
Nombre de pages
26
Écrit en
2022/2023
Type
Notes de cours
Professeur(s)
Statistiek
Contient
Toutes les classes

Sujets

Aperçu du contenu

Week 1 - Enkelvoudige Lineaire Regressie

Samenhang tussen twee variabelen:
● Tussen twee continue variabelen:
- Correlatie (covariantie)
● Tussen een continue en categorische variabele:
- 𝑡-toets voor twee gemiddelden (Agresti H.7)
● Tussen twee categorische variabelen:
- Kruistabel en 𝜒2-toets (Agresti H.8)
- Odds en odds-ratio (Agresti H.8)
- 𝑍-toets voor twee proporties (Agresti H.7)

● Samenhang tussen twee continue variabelen:
- Correlatie: sterkte en richting van het verband
- Regressie: modelleren van het verband
● Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere)
onafhankelijke variabele(n) met behulp van een lineair model.

Trek een rechte lijn door de puntenwolk
● Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte
lijn: lineair verband
● Afhankelijke variabele 𝑦 (in voorbeeld postlet)
- Te verklaren variabele, responsvariabele, uitkomstvariabele
- Interval- of ratioschaal
● Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
- Verklarende variabele, predictor
- Intervalschaal of dummyvariabele (binair, bijv. 0/1)
● De formule 𝑦 = 𝛼 + 𝛽𝑥 drukt observaties van 𝑦 uit als een lineaire functie van
observaties van 𝑥. De formule heeft een grafiek met een rechte lijn, met helling 𝛽 en
𝑦-constante 𝛼.
- Constante (intercept): waarde van 𝑦 als 𝑥 nul is; snijpunt met de 𝑦-as
- Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt

Voorbeeld: De impact van Sesamstraat
● Afhankelijke 𝑦 = postlet
● Onafhankelijke 𝑥 = postnumb
● Lineair verband: 𝑦 = 𝛼 + 𝛽𝑥
● Rechte lijn lijkt goed te passen maar blijft een vereenvoudiging van de werkelijkheid
(in de populatie)
● Waarden van de constante 𝛼 en de helling 𝛽 moeten geschat worden
● Model: ŷ = 0,443 + 0,862𝑥
● Of E(postlet) = 0,443 + 0,862postnumb
- Constante (0,443): verwacht waarde van postlet (𝑦) als postnumb (𝑥) gelijk is
aan 0
- Helling (0,862): gemiddelde stijging in postlet (𝑦) als postnumb (𝑥) één
eenheid stijgt

, ● Neem kind 133 in de dataset, die heeft een score op postnumb = 14. Wat voorspel je
voor 𝑦 (postlet)?
● Voorspelling: ŷ = 0,443 + 0,862 × 14 = 12,511
● Fout: y - ŷ = 13 - 12,511 = 0,489 → residu/error

Residuen
● De fout bij het schatten is e = y - ŷ = residu (uitleg voorspelfouten: ppt. week 1, slides
22-23).
● Het verschil tussen de geobserveerde waarde en de voorspelde waarde.
● SSE kan worden gezien als een ‘foutenmaat’; hoe slecht het model is.
● Beste regressielijn schatten via methode van kleinste kwadraten (OLS) door fouten
te minimaliseren:
- Maak de fouten zo klein mogelijk = maak de afstand van elk punt (observatie)
tot de regressielijn (voorspelling) zo klein mogelijk
- Minimaliseer daarmee de sum of squared errors SSE = ∑(y - ŷ)2
● Het minimaliseren van de SSE levert de geschatte waarden van de constante a en
de helling b (voorbeeld berekening van b, a en SSE: ppt. week 1, slides 27-28).
● Het geschatte model is ŷ = a + bx




Het lineaire regressiemodel
● Deterministisch model: voor elke waarde van x is er één y-waarde
● Onrealistisch: niet iedereen met dezelfde x heeft dezelfde y-score
● Voor elke x-groep is er een verdeling van y-scores
● Probabilistisch model: conditionele verdeling van y gegeven waarden van x
● Het model beschrijft hoe scores op y kunnen variëren voor elke waarde van x

Probabilistisch model
● Het model beschrijft de verdeling van y gegeven de waarden van x (conditionele
verdeling).
● Het deterministische deel geeft het gemiddelde (of verwachte waarde) E(y), dus van
y gegeven x:
E(y) = ɑ + βx
● Dit is de lineaire (enkelvoudige) regressievergelijking en geeft dus het verband
tussen x en het gemiddelde van y

, ● De regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van
de responsvariabele verandert als gevolg van de waarde van een verklarende
variabele.

Conditionele verdeling
● Gegeven een x-waarde is:
- de conditionele verdeling van y een normale verdeling
- met conditioneel gemiddelde E(y) (gegeven door de regressielijn)
- en constante conditionele standaarddeviatie σ




● Zie voor vergelijking met klassieke t-toets 2 gemiddelden: ppt. week 1, slides 36-38.

Conditionele SD
● Residu is de afstand van elk punt tot de regressielijn (oftewel tot het conditionele
gemiddelde van y)
● SSE is de kwadratensom rond het conditionele gemiddelde:
SSE = ∑(y - ŷ)2 = ∑e2
𝑆𝑆𝐸
● Variantie: s2 = 𝑛−2
= MSE
𝑆𝑆𝐸
● Geschatte SD: s = 𝑛−2
● Interpretatie van de mate van spreiding met behulp van de SD:
- 68% van de waarden ligt tussen -1σ en 1σ
- dus: 2σ vergelijken met de gehele schaal van y




Samenvattend
- De regressielijn geeft een voorspelling van het gemiddelde 𝐸(𝑦) van 𝑦 gegeven 𝑥: het
conditionele gemiddelde van 𝑦
€7,49
Accéder à l'intégralité du document:

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Faites connaissance avec le vendeur
Seller avatar
romyborger00

Faites connaissance avec le vendeur

Seller avatar
romyborger00 Rijksuniversiteit Groningen
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
4
Membre depuis
1 année
Nombre de followers
0
Documents
10
Dernière vente
8 mois de cela

0,0

0 revues

5
0
4
0
3
0
2
0
1
0

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions