100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting statistiek deel 4, deel regressie

Rating
-
Sold
4
Pages
40
Uploaded on
09-01-2020
Written in
2019/2020

Samenvatting statistiek voor psychologen, deel 4 (vanaf hoofdstuk 8 regressie). Met figuren

Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
January 9, 2020
Number of pages
40
Written in
2019/2020
Type
Summary

Subjects

Content preview

1



Hoofdstuk 8: Simple lineair regression: simple but powerful
8.1. Data example: Prediction of 100m winning time in 2020


Dit zijn de winnende tijden van
de 100m olympische finales voor
mannen
à neerwaartse trend
àvraag: wat zou een plausibele
predictor zijn voor de winnende
tijd voor de olympische spelen in
2020?
à om deze vraag te
beantwoorden: simple lineair
regressie model met winnende
tijd als criterium en jaar als
predictor


à resultaat: een voldoende
goeie fit met het model
- R2 = 0.86 (met 95% BI van
0.8 tot 0.93
- Voor 2020: tijd van 9.6
seconden voorspeld (met 80% BI
van 9.36 tot 9.84)
- De winnende tijd zal elk
jaar stijgen met een 4.6
honderdste seconden (met 95%
BI van 3.9 tot 5.4)




LIMITATIES:

- Lineair model is niet realistisch: het voorspel een tijd van -0.22 seconden in 2898
- We moeten voorzichtig zijn met het maken van voorspellingen die in de toekomst
liggen (exploration); het jaar 2020 is een een punt buiten het gebied van de
observaties

8.2. Exploratieve data analysis

De meest voorkomende manier om data grafisch te exploreren is dmv een scatterplot + ook
vaak gekeken naar de waarden van) de data in de tabel

, 2

8.3. The simple lineair regression model

Notatie

We gaan ervan uit dat er n eenheden gemeten zijn (personen, dieren, 100m olympische
spelen winnaars…) op 2 variabelen: de criterium variabele (winnende tijd) en een predictor
variabele (jaar)
à voor een specifieke eenheid hebben we het koppel (yi, xi) gemeten of (wtimei, jaari)

Het populatiemodel

In de populatie wordt het simple lineair regression model als volgt gedefinieerd:

𝑖𝑖𝑑
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖" met 𝜖" 𝑁(0, 𝜎 3 )


à 𝛽% & 𝛽' zijn de regressiecoëfficiënten
à omdat het gemiddelde van 𝜖" = 0 is het conditionele gemiddelde van yi gegeven xi gelijk
aan: 𝐸(𝑦" |𝑥" ) = 𝛽% + 𝛽' 𝑥"
à dus het algemeen gemiddelde van y (zonder te verwijzen naar een bepaalde persoon): :
𝐸(𝑦|𝑥) = 𝛽% + 𝛽' 𝑥




Het grondvlak (xy vlak) bevat het scatterplot
van de winnende tijden en de zwarte lijn
representeert de populatie regressielijn
à voor 4 predictorwaarden worden de
populatie normaalverdelingen weergegeven:
hun gemiddelde is de waarde op de punt en
ze hebben allemaal een constante variantie



De functionele relatie tussen de verwachte waarde van y en x = de regressie van y op x
à de verwachte waarde van y varieert wanneer x varieert; deze relatie is lineair en wordt
gedetermineerd door de regressiecoëfficiënten:
- 𝛽% als intercept = de verwachte waarde van y wanneer x = o; 𝐸(𝑦|0) = 𝛽% + 𝛽' ∙ 0
- 𝛽' als regressiegewicht/ slope

, 3

Interpretatie van 𝜷𝟏

b1 = de verwachte verandering in y door x met 1 eenheid te verhogen (van x naar x+1)
𝐸(𝑦|𝑥 + 1) − 𝐸(𝑦|𝑥) = (𝛽% + 𝛽' (𝑥 + 1)) − (𝛽% + 𝛽' 𝑥) = 𝛽'

- Als b1 > 0 dan zal de regressielijn stijgen met een toenemende x
- Als b1 < 0 dan zal de regressielijn dalen met een toenemende x
- Als b1 = 0 dan is er in de populatie geen verband tussen y en x (bij een veranderende
x gebeurd er niets met y)

!! b1 heeft gewoonlijk geen causale interpretatie; het hangt af van het studie design of
uitspraken over x als oorzaak voor y toegelaten zijn (in de meeste studies meet b1 slechts de
associatie en niets meer)

Toegepast op ons voorbeeld: Wtime = 32.9231 - 0.01155*jaar
- bO = 32.9231
- b1 = -0.01155

à een toename van 1 jaar gaat gepaard met een vermindering van 0.01155 seconden in de
winnende tijd (b1 wordt gemeten in seconden per jaar)

à MAAR: olympische spelen is slechts om de 4 jaar, dus is het meer zinvol om te kijken naar
periodes van 4 jaar + de vermindering in seconden is eerder klein, dus is het meer zinvol om
te kijken naar centiseconden (100e van een seconde)
𝑠𝑒𝑐𝑜𝑛𝑑𝑒
𝛽'
𝑗𝑎𝑎𝑟
100𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑𝑒𝑛
= 𝛽'
1
4 𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ 𝛽'
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ (−0.01155)
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= −4.61895
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒

à DUS: de winnende tijd zal elke olympiade zakken met 4,6 centiseconden

Interpretatie van b0 en centreren

De verwachte winnende tijd voor jaar 0 is 32.9231 seconden
à dit is niet erg betekenisvol: wanneer je meer dan 2000 jaar terug gaat in de tijd kan je niet
verwachten dat ditzelfde model geldig blijft
à om te vermijden dat de waarden voor het intercept zinloos zijn worden predictoren vaak
gecentreerd
- Stel nu dat we als predictor niet x gebruiken, maar x-a (waarbij a een arbitrair
gekozen constante is)

, 4

- Vaak wordt als a het gemiddelde van x genomen: 𝑎 = 𝑥̅ of een betekenisvol getal (bv
het jaar 1900 in ons voorbeeld)
- Dit betekent dat een nieuwe predictor x* wordt gecreëerd door a af te trekken van
alle individuele waarden van x (x* = xi – a)

à we kijken nu opnieuw naar het lineaire regressie model:
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖"
= 𝛽% + 𝛽' 𝑥" − 𝛽' 𝑎 + 𝛽' 𝑎 + 𝜖"
= (𝛽% + 𝛽' 𝑎) + 𝛽' (𝑥" − 𝑎) + 𝜖"
= 𝛽%∗ + 𝛽' 𝑥"∗ + 𝜖"

à nu geldt er dat: 𝐸(𝑦|𝑥 ∗ = 0) = 𝛽%∗ ⇔ 𝐸(𝑦|𝑥 = 𝑎) = 𝛽R∗ wat betekent dat 𝛽%∗ de
verwachte waarde van y is wanneer x gelijk is aan a
à toegepast op ons voorbeeld: 𝛽%∗ = 𝛽% + 𝛽' 𝑎 = 32.9231 + 1900 ∙ (−0.01155) ≈ 10.98
(de verwachte winnende tijd op de 100m in de olympische spelen van 1900 is 10.98
seconden)
à centreren is niet noodzakelijk wanneer 0 een aanvaardbare waarde is

8.5. Statistical inference for the simple lineair regression model

Schatting van de regressiecoëfficiënten

De parameters zullen geschat worden via de kleinste kwadrantenmethode
à waarden vinden voor b0 en b1 zodat Q(b0, b1) = ∑W"X'(𝑦" − (𝛽% + 𝛽' 𝑥" ))3 minimaal is
- 𝛽Y% = 𝑦Z − 𝛽Y' 𝑥̅
∑_ ([ ][̅ )(^\ ]^Z) ce
- 𝛽Y' = \`a_ \
∑\`a([\ ][̅ )b
of 𝑟[^ de
cf


à deze geschatte parameter zullen de beste passende lijn bepalen tussen de
observatiepunten; zo gekozen zodat de som van de gekwadrateerde afstanden tussen 𝑦g" en
𝑦" zo klein mogelijk is (deze afstand = het residu, 𝑒" = 𝑦" − 𝑦g" )




à de waarde van die geminimaliseerde kleinste kwadrantenfunctie Q(b0, b1) wordt ook hier
de error sum of squares (SSE(x)) genoemd met bijhorend aantal vrijheidsgraden (n -
#geschatte parameters=2); wanneer we SSE(X) delen door het aantal vrijheidsgraden krijgen
we MSE(x) als schatter voor 𝜎 3 (= de variantie rond de regressielijn)

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
fienvangestel Katholieke Universiteit Leuven
Follow You need to be logged in order to follow users or courses
Sold
61
Member since
7 year
Number of followers
48
Documents
7
Last sold
2 weeks ago

4,2

5 reviews

5
1
4
4
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their exams and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can immediately select a different document that better matches what you need.

Pay how you prefer, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card or EFT and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions