100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Samenvatting statistiek deel 4, deel regressie

Beoordeling
-
Verkocht
4
Pagina's
40
Geüpload op
09-01-2020
Geschreven in
2019/2020

Samenvatting statistiek voor psychologen, deel 4 (vanaf hoofdstuk 8 regressie). Met figuren












Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
9 januari 2020
Aantal pagina's
40
Geschreven in
2019/2020
Type
Samenvatting

Voorbeeld van de inhoud

1



Hoofdstuk 8: Simple lineair regression: simple but powerful
8.1. Data example: Prediction of 100m winning time in 2020


Dit zijn de winnende tijden van
de 100m olympische finales voor
mannen
à neerwaartse trend
àvraag: wat zou een plausibele
predictor zijn voor de winnende
tijd voor de olympische spelen in
2020?
à om deze vraag te
beantwoorden: simple lineair
regressie model met winnende
tijd als criterium en jaar als
predictor


à resultaat: een voldoende
goeie fit met het model
- R2 = 0.86 (met 95% BI van
0.8 tot 0.93
- Voor 2020: tijd van 9.6
seconden voorspeld (met 80% BI
van 9.36 tot 9.84)
- De winnende tijd zal elk
jaar stijgen met een 4.6
honderdste seconden (met 95%
BI van 3.9 tot 5.4)




LIMITATIES:

- Lineair model is niet realistisch: het voorspel een tijd van -0.22 seconden in 2898
- We moeten voorzichtig zijn met het maken van voorspellingen die in de toekomst
liggen (exploration); het jaar 2020 is een een punt buiten het gebied van de
observaties

8.2. Exploratieve data analysis

De meest voorkomende manier om data grafisch te exploreren is dmv een scatterplot + ook
vaak gekeken naar de waarden van) de data in de tabel

, 2

8.3. The simple lineair regression model

Notatie

We gaan ervan uit dat er n eenheden gemeten zijn (personen, dieren, 100m olympische
spelen winnaars…) op 2 variabelen: de criterium variabele (winnende tijd) en een predictor
variabele (jaar)
à voor een specifieke eenheid hebben we het koppel (yi, xi) gemeten of (wtimei, jaari)

Het populatiemodel

In de populatie wordt het simple lineair regression model als volgt gedefinieerd:

𝑖𝑖𝑑
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖" met 𝜖" 𝑁(0, 𝜎 3 )


à 𝛽% & 𝛽' zijn de regressiecoëfficiënten
à omdat het gemiddelde van 𝜖" = 0 is het conditionele gemiddelde van yi gegeven xi gelijk
aan: 𝐸(𝑦" |𝑥" ) = 𝛽% + 𝛽' 𝑥"
à dus het algemeen gemiddelde van y (zonder te verwijzen naar een bepaalde persoon): :
𝐸(𝑦|𝑥) = 𝛽% + 𝛽' 𝑥




Het grondvlak (xy vlak) bevat het scatterplot
van de winnende tijden en de zwarte lijn
representeert de populatie regressielijn
à voor 4 predictorwaarden worden de
populatie normaalverdelingen weergegeven:
hun gemiddelde is de waarde op de punt en
ze hebben allemaal een constante variantie



De functionele relatie tussen de verwachte waarde van y en x = de regressie van y op x
à de verwachte waarde van y varieert wanneer x varieert; deze relatie is lineair en wordt
gedetermineerd door de regressiecoëfficiënten:
- 𝛽% als intercept = de verwachte waarde van y wanneer x = o; 𝐸(𝑦|0) = 𝛽% + 𝛽' ∙ 0
- 𝛽' als regressiegewicht/ slope

, 3

Interpretatie van 𝜷𝟏

b1 = de verwachte verandering in y door x met 1 eenheid te verhogen (van x naar x+1)
𝐸(𝑦|𝑥 + 1) − 𝐸(𝑦|𝑥) = (𝛽% + 𝛽' (𝑥 + 1)) − (𝛽% + 𝛽' 𝑥) = 𝛽'

- Als b1 > 0 dan zal de regressielijn stijgen met een toenemende x
- Als b1 < 0 dan zal de regressielijn dalen met een toenemende x
- Als b1 = 0 dan is er in de populatie geen verband tussen y en x (bij een veranderende
x gebeurd er niets met y)

!! b1 heeft gewoonlijk geen causale interpretatie; het hangt af van het studie design of
uitspraken over x als oorzaak voor y toegelaten zijn (in de meeste studies meet b1 slechts de
associatie en niets meer)

Toegepast op ons voorbeeld: Wtime = 32.9231 - 0.01155*jaar
- bO = 32.9231
- b1 = -0.01155

à een toename van 1 jaar gaat gepaard met een vermindering van 0.01155 seconden in de
winnende tijd (b1 wordt gemeten in seconden per jaar)

à MAAR: olympische spelen is slechts om de 4 jaar, dus is het meer zinvol om te kijken naar
periodes van 4 jaar + de vermindering in seconden is eerder klein, dus is het meer zinvol om
te kijken naar centiseconden (100e van een seconde)
𝑠𝑒𝑐𝑜𝑛𝑑𝑒
𝛽'
𝑗𝑎𝑎𝑟
100𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑𝑒𝑛
= 𝛽'
1
4 𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ 𝛽'
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= 400 ∙ (−0.01155)
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒
𝑐𝑒𝑛𝑡𝑖𝑠𝑒𝑐𝑜𝑛𝑑
= −4.61895
𝑜𝑙𝑦𝑚𝑝𝑖𝑎𝑑𝑒

à DUS: de winnende tijd zal elke olympiade zakken met 4,6 centiseconden

Interpretatie van b0 en centreren

De verwachte winnende tijd voor jaar 0 is 32.9231 seconden
à dit is niet erg betekenisvol: wanneer je meer dan 2000 jaar terug gaat in de tijd kan je niet
verwachten dat ditzelfde model geldig blijft
à om te vermijden dat de waarden voor het intercept zinloos zijn worden predictoren vaak
gecentreerd
- Stel nu dat we als predictor niet x gebruiken, maar x-a (waarbij a een arbitrair
gekozen constante is)

, 4

- Vaak wordt als a het gemiddelde van x genomen: 𝑎 = 𝑥̅ of een betekenisvol getal (bv
het jaar 1900 in ons voorbeeld)
- Dit betekent dat een nieuwe predictor x* wordt gecreëerd door a af te trekken van
alle individuele waarden van x (x* = xi – a)

à we kijken nu opnieuw naar het lineaire regressie model:
𝑦" = 𝛽% + 𝛽' 𝑥" + 𝜖"
= 𝛽% + 𝛽' 𝑥" − 𝛽' 𝑎 + 𝛽' 𝑎 + 𝜖"
= (𝛽% + 𝛽' 𝑎) + 𝛽' (𝑥" − 𝑎) + 𝜖"
= 𝛽%∗ + 𝛽' 𝑥"∗ + 𝜖"

à nu geldt er dat: 𝐸(𝑦|𝑥 ∗ = 0) = 𝛽%∗ ⇔ 𝐸(𝑦|𝑥 = 𝑎) = 𝛽R∗ wat betekent dat 𝛽%∗ de
verwachte waarde van y is wanneer x gelijk is aan a
à toegepast op ons voorbeeld: 𝛽%∗ = 𝛽% + 𝛽' 𝑎 = 32.9231 + 1900 ∙ (−0.01155) ≈ 10.98
(de verwachte winnende tijd op de 100m in de olympische spelen van 1900 is 10.98
seconden)
à centreren is niet noodzakelijk wanneer 0 een aanvaardbare waarde is

8.5. Statistical inference for the simple lineair regression model

Schatting van de regressiecoëfficiënten

De parameters zullen geschat worden via de kleinste kwadrantenmethode
à waarden vinden voor b0 en b1 zodat Q(b0, b1) = ∑W"X'(𝑦" − (𝛽% + 𝛽' 𝑥" ))3 minimaal is
- 𝛽Y% = 𝑦Z − 𝛽Y' 𝑥̅
∑_ ([ ][̅ )(^\ ]^Z) ce
- 𝛽Y' = \`a_ \
∑\`a([\ ][̅ )b
of 𝑟[^ de
cf


à deze geschatte parameter zullen de beste passende lijn bepalen tussen de
observatiepunten; zo gekozen zodat de som van de gekwadrateerde afstanden tussen 𝑦g" en
𝑦" zo klein mogelijk is (deze afstand = het residu, 𝑒" = 𝑦" − 𝑦g" )




à de waarde van die geminimaliseerde kleinste kwadrantenfunctie Q(b0, b1) wordt ook hier
de error sum of squares (SSE(x)) genoemd met bijhorend aantal vrijheidsgraden (n -
#geschatte parameters=2); wanneer we SSE(X) delen door het aantal vrijheidsgraden krijgen
we MSE(x) als schatter voor 𝜎 3 (= de variantie rond de regressielijn)

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
fienvangestel Katholieke Universiteit Leuven
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
61
Lid sinds
7 jaar
Aantal volgers
48
Documenten
7
Laatst verkocht
2 weken geleden

4,2

5 beoordelingen

5
1
4
4
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via Bancontact, iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo eenvoudig kan het zijn.”

Alisha Student

Veelgestelde vragen