100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting Statistiek 2 (deeltentamen 1)

Rating
3.5
(2)
Sold
3
Pages
14
Uploaded on
31-10-2019
Written in
2019/2020

Samenvatting van het boek van Agresti voor het eerste deeltentamen van Statistiek 2. De samenvatting is aangevuld met de collegestof en is geschreven in het Nederlands. Ik heb zelf een 7 gehaald op het tentamen.

Institution
Course









Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
No
Which chapters are summarized?
H9 t/m h11 (deeltentamen 1)
Uploaded on
October 31, 2019
Number of pages
14
Written in
2019/2020
Type
Summary

Subjects

Content preview

1


Samenvatting Statistiek 2
Deeltentamen 1
Hoe werken lineaire regressie en correlatie? – Chapter 9
9.1 Wat zijn lineaire verbanden?
Regressieanalyse is het onderzoeken van verbanden tussen kwantitatieve
responsvariabelen (y of afhankelijke variabele) en verklarende variabelen (x of
onafhankelijke variabele).
Regressieanalyse heeft drie aspecten:
 Onderzoeken of er een verband bestaat tussen variabelen
 Bepalen wat de sterkte en/of richting is van dit verband
 Een regressieformule maken om zo de waarde van de responsvariabele te kunnen
voorspellen aan de hand van de verklarende variabele
Een lineaire functie houdt in dat er een rechte lijn is door de datapunten in een grafiek. Deze
functie heeft de vorm: y = α + β(x). Hierbij is de Griekse letter alpha (α) de intercept, en de
Griekse letter bèta (β) de hellingscoëfficiënt.
De y-intercept is de waarde van y wanneer x = 0. De y-intercept is het punt waarop de lijn op
de y-as begint.
De hellingscoëfficiënt geeft de verandering aan in y, bij een toename van 1 punt bij x. De
hellingscoëfficiënt geeft dus letterlijk aan hoe steil de helling is. Over het algemeen is het zo
dat hoe groter β, hoe steiler de regressielijn.
De hellingscoëfficiënt geeft naast de steilheid van de helling ook aan of het verband positief
of negatief is. Het geeft echter niet aan hoe sterk het verband tussen twee variabelen is.
 β > 0  stijgende lijn, dus een positieve relatie tussen x en y
 β = 0  horizontale lijn, dus geen relatie tussen x en y. Dit is het geval wanneer de
twee variabelen onafhankelijk van elkaar zijn
 β < 0  dalende lijn, dus een negatieve relatie tussen x en y
Een lineaire functie is een voorbeeld van een model; een versimpelde benadering van het
verband tussen variabelen in de populatie. Een model is dus niet de werkelijkheid maar een
versimpelde weergave ervan. Met een regressiemodel wordt meestal een complexer model
bedoeld dan een lineaire functie.
9.2 Hoe vind je de voorspellingsvergelijking met de kleinste-kwadratenmethode?
Bij regressieanalyse worden α en β als onbekende parameters beschouwd, waarvan met de
beschikbare data een inschatting wordt gemaakt. De eerste stap hierbij is het plotten van de
data in een puntgrafiek. Hierbij wordt voor elke y-waarde een punt aangegeven in de grafiek.
Dit punt heeft de coördinaten (x, y). Zo kun je zien of het wel logisch is om een lineaire
formule te maken.
De variabele y wordt geschat met ŷ. De vergelijking wordt benaderd door
de voorspellingsvergelijking (prediction equation): E(y) of ŷ = a + b(x). Deze lijn zal de ‘beste’
lijn weergeven, in de zin dat deze het dichtste ligt bij alle datapunten. In de
voorspellingsvergelijking kunnen a en b als volgt worden berekend:


Er zijn twee aannames waaraan de voorspellingsvergelijking moet voldoen:
 Gegeven x, moeten de y-waarden normaal verdeeld zijn

, 2


 De spreiding van de y-waarden moet hetzelfde zijn voor conditionele verdelingen
(dezelfde σ) (zie 9.3)) (zie 9.3)
Door in de voorspellingsvergelijking het verschil tussen de daadwerkelijke (geobserveerde)
y-waarden en de voorspelde ŷ-waarden te bekijken, wordt duidelijk hoe goed de
voorspellingsvergelijking is. Dit verschil wordt ook wel een residu genoemd, dit is y – ŷ.
De beste voorspellingsvergelijking is die met de kleinste residuen. Om die te vinden, worden
de residuen van de datapunten gekwadrateerd en opgeteld. Dit heet SSE (sum of squared
errors). SSE geeft dus aan hoe goed of slecht ŷ is in het inschatten van y. De formule voor
de SSE is: Σ(y – ŷ)2.
De kleinste-kwadratenmethode houdt in dat a en b in de formule ŷ = a + b(x) de waarden
hebben waarbij de SSE zo klein mogelijk is. De lijn die ontstaat heet de kleinste-
kwadratenlijn, dit is de beste lijn van alle mogelijke lijnen. In de meeste software heet de SSE
de residual sum of squares.
Een regressie-uitschieter is een datapunt dat ver buiten de trend van de andere datapunten
valt. Zo’n datapunt wordt invloedrijk genoemd wanneer het verwijderen ervan een grote
verandering teweeg brengt in de voorspellingsvergelijking. Dit effect is kleiner bij een grote
dataset. Het is soms beter om een uitschieter (outlier) buiten de voorspellingsvergelijking te
laten en erbij te vermelden bij het rapporteren van de resultaten.
9.3 Wat houdt het lineaire regressiemodel in?
Bij een regressieformule y = a + b(x) hoort bij elke x-waarde eenzelfde y-waarde. Dit heet
een deterministisch model. Soms is een probabilistisch model beter: een model waarin er
variabiliteit is in de waarde van y. Er kan dan gebruik worden gemaakt van een conditionele
verdeling, een verdeling waarbij er een extra conditie geldt, namelijk dat x een bepaalde
waarde heeft.
Een probabilistisch model geeft het gemiddelde van de y-waarden weer (niet de
daadwerkelijke waarde van y). De formule van een conditionele verdeling is E(y) = α + β(x).
Het symbool E staat voor de verwachte waarde.
Het lineaire regressiemodel kent naast α en β nog een parameter, namelijk σ oftewel de
conditionele standaarddeviatie. Deze beschrijft de standaarddeviatie van een conditionele
verdeling. Deze parameter meet de variabiliteit van de y-waarden voor alle personen met die
bepaalde x-waarde. De formule voor de conditionele variantie (in software ook wel RMSE
genoemd) is:
De vrijheidsgraden van een regressievergelijking zijn df = n – p,
waarbij p het aantal onbekende parameters is. Bij E(y) = α + β(x)
zijn er twee onbekende parameters (α en β) dus is df = n – 2.) dus is df = n – 2.
De standaarddeviatie van een conditionele verdeling hangt zowel van y als van x af en wordt
genoteerd als σ) (zie 9.3)y|x (voor de populatie) en sy|x (voor de steekproef), dit wordt meestal afgekort
tot σ) (zie 9.3) en s. Bij een marginale verdeling hangt de standaarddeviatie echter alleen van y af,
ongeacht de x. Daarom wordt hierbij de standaarddeviatie genoteerd als σ) (zie 9.3)y (voor de
populatie) en sy (voor de steekproef).
Σ(y – ȳ))2 wordt de totale som van kwadraten genoemd.


9.4 Hoe meet je de correlatie van een lineair verband?
Het verband tussen x en y wordt gemeten met de correlatie, genoteerd als r. De correlatie is
een gestandaardiseerde versie van de hellingscoëfficiënt en wordt ook wel de
gestandaardiseerde regressiecoëfficiënt (of Pearson correlatie) genoemd. De correlatie
wordt als volgt berekend:

Reviews from verified buyers

Showing all 2 reviews
5 year ago

6 year ago

3.5

2 reviews

5
0
4
1
3
1
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
lottekalk02 Rijksuniversiteit Groningen
Follow You need to be logged in order to follow users or courses
Sold
507
Member since
7 year
Number of followers
325
Documents
32
Last sold
2 weeks ago

3.9

49 reviews

5
11
4
27
3
9
2
1
1
1

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions