100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Class notes

Statistiek III - College 2

Rating
-
Sold
-
Pages
19
Uploaded on
18-03-2021
Written in
2020/2021

Aantekeningen college 2 statistiek 3 (bachelor psychologie Groningen)

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
March 18, 2021
Number of pages
19
Written in
2020/2021
Type
Class notes
Professor(s)
Edith van krimpen
Contains
College 2

Subjects

Content preview

College 2
We gebruiken regressie om scores op variabelen te voorspellen. Een regressiemodel is een
eenvoudige benadering van de relatie tussen variabelen. Hoe eenvoudiger, hoe beter. Correlatie ≠
causatie. Regressie gaat hand in hand met correlaties, maar het zegt niets over oorzaak/gevolg.

Enkelvoudige lineaire regressie

Het meest eenvoudige model bestaat uit één onafhankelijke variabele en een afhankelijke variabele.
Dit is enkelvoudige lineaire regressie, of ook wel ordinary least squares regression.




a is dus het punt waarop de lijn begint (bij x = 0) en b is de mate waarin y toeneemt als x 1 toeneemt
(hoe steil de lijn is).
e = error/residu, je kan namelijk niet precies voorspellen wat de waarde van y is

We voorspellen het gemiddelde van y voor elke x-waarde. Voor elke waarde van x hebben we een
waargenomen y, en een voorspelde ŷ die op de lijn ligt. De fouten hier tussen zijn de residuen (e).
Voor elke waarneming i kunnen we uitrekenen hoe groot het residu is (de verticale afstand tussen
waargenomen yi en voorspelde ŷi).
Least squares methode bij enkelvoudige lineaire regressie:




Bij OLS kijken we naar het kwadraat van deze residuen. We willen de optelsom van deze
gekwadrateerde fouten zo klein mogelijk hebben.

,De optimale helling (b) bereken je door de correlatie van x en y, vermenigvuldigd met de
standaarddeviatie van y gedeeld door de standaarddeviatie van x. Het intercept (a) is gelijk aan het
gemiddelde van y, min de helling vermenigvuldigd met het gemiddelde van x.
Dus als we weten wat de standaarddeviaties van beide variabelen zijn, en de correlatie, dan kunnen
we de helling uitrekenen. Als we ook het gemiddelde van beide variabelen hebben, kunnen we ook
het intercept uitrekenen.

Maar mogen we dit altijd doen en levert het dan zinvolle uitkomsten op? Daarvoor moet er voldaan
worden aan een aantal voorwaarden (assumpties).
Assumpties van enkelvoudige lineaire regressie:
1. Lineariteit
2. Homoscedasticiteit
3. Onafhankelijkheid van residuen

Assumptie 1: lineariteit
We veronderstellen dat er een lineaire relatie is tussen x en het gemiddelde van y ( ).
Als je iets weet over x, dan kun je deze informatie van x gebruiken bij de voorspelling van y
(conditionele kans). Gegeven x hebben we dus een verwachte waarde van y, en deze verwachting is
lineair.
Verwachte waarde y gegeven waarde x:
Residuen: . Ze zijn normaal verdeeld met een gemiddelde van 0 en standaarddeviatie σ.
De verwachte waarde van y gegeven x is een rechte lijn zonder de residuen. Maar de waarden zijn
een puntenwolk.

Assumptie 2: homoscedasticiteit
Alle subpopulaties voor elke waarde van x zijn normaal verdeeld met gelijke variantie σ. Dit gaat dus
over de residuen.




Dus je gaat kijken bij elke waarde van x, wat voor y-waardes je daarbij vindt. We veronderstellen dat
daar een normale verdeling is met een constante variantie (σ). Voor elke waarde van x is de spreiding
rond de regressielijn gelijk.

, Voorbeeld: er wordt hier voldaan aan de assumptie, de verticale spreiding rondom de regressielijn is
redelijk normaal verdeeld. (Alleen misschien rond het einde niet.)




Voorbeeld: hier wordt er niet voldaan aan homoscedasticiteit. Bij de lagere waarden zie je een veel
kleinere spreiding dan bij de hogere x-waarden. Er is een <-vormige puntenwolk.




Assumptie 3: onafhankelijkheid van de residuen
De residuen zijn onafhankelijk van x. De residuen zijn onafhankelijk van de waarde van de
voorspeller. Het zou niet uit moeten maken welke waarde van x er is, hoe hoog of laag de waarde
van de residuen zijn.




Als je kijkt naar de residuen, wil je geen enkel patroon zien. De scatterplot, met op de x-as de
voorspeller en op de y-as de residuen, moet compleet ongecorreleerd zijn.
Check deze assumptie dus met de residual plot.
$4.25
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached


Also available in package deal

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
femkebvanrijn Rijksuniversiteit Groningen
Follow You need to be logged in order to follow users or courses
Sold
174
Member since
6 year
Number of followers
127
Documents
75
Last sold
1 month ago

4.2

22 reviews

5
9
4
11
3
1
2
0
1
1

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions