Summary

Samenvatting Statistiek 2 (deeltentamen 1)

Name: Samenvatting Statistiek 2 (deeltentamen 1)
SKU: doc_604035
Rating: 3.50 (2 reviews)
Author: lottekalk02

Rating

3.5

(2)

Sold

Pages

Uploaded on

31-10-2019

Written in

2019/2020

Samenvatting van het boek van Agresti voor het eerste deeltentamen van Statistiek 2. De samenvatting is aangevuld met de collegestof en is geschreven in het Nederlands. Ik heb zelf een 7 gehaald op het tentamen.

Institution

Course

Content preview

1

Samenvatting Statistiek 2
Deeltentamen 1
Hoe werken lineaire regressie en correlatie? – Chapter 9
9.1 Wat zijn lineaire verbanden?
Regressieanalyse is het onderzoeken van verbanden tussen kwantitatieve
responsvariabelen (y of afhankelijke variabele) en verklarende variabelen (x of
onafhankelijke variabele).
Regressieanalyse heeft drie aspecten:
 Onderzoeken of er een verband bestaat tussen variabelen
 Bepalen wat de sterkte en/of richting is van dit verband
 Een regressieformule maken om zo de waarde van de responsvariabele te kunnen
voorspellen aan de hand van de verklarende variabele
Een lineaire functie houdt in dat er een rechte lijn is door de datapunten in een grafiek. Deze
functie heeft de vorm: y = α + β(x). Hierbij is de Griekse letter alpha (α) de intercept, en de
Griekse letter bèta (β) de hellingscoëfficiënt.
De y-intercept is de waarde van y wanneer x = 0. De y-intercept is het punt waarop de lijn op
de y-as begint.
De hellingscoëfficiënt geeft de verandering aan in y, bij een toename van 1 punt bij x. De
hellingscoëfficiënt geeft dus letterlijk aan hoe steil de helling is. Over het algemeen is het zo
dat hoe groter β, hoe steiler de regressielijn.
De hellingscoëfficiënt geeft naast de steilheid van de helling ook aan of het verband positief
of negatief is. Het geeft echter niet aan hoe sterk het verband tussen twee variabelen is.
 β > 0  stijgende lijn, dus een positieve relatie tussen x en y
 β = 0  horizontale lijn, dus geen relatie tussen x en y. Dit is het geval wanneer de
twee variabelen onafhankelijk van elkaar zijn
 β < 0  dalende lijn, dus een negatieve relatie tussen x en y
Een lineaire functie is een voorbeeld van een model; een versimpelde benadering van het
verband tussen variabelen in de populatie. Een model is dus niet de werkelijkheid maar een
versimpelde weergave ervan. Met een regressiemodel wordt meestal een complexer model
bedoeld dan een lineaire functie.
9.2 Hoe vind je de voorspellingsvergelijking met de kleinste-kwadratenmethode?
Bij regressieanalyse worden α en β als onbekende parameters beschouwd, waarvan met de
beschikbare data een inschatting wordt gemaakt. De eerste stap hierbij is het plotten van de
data in een puntgrafiek. Hierbij wordt voor elke y-waarde een punt aangegeven in de grafiek.
Dit punt heeft de coördinaten (x, y). Zo kun je zien of het wel logisch is om een lineaire
formule te maken.
De variabele y wordt geschat met ŷ. De vergelijking wordt benaderd door
de voorspellingsvergelijking (prediction equation): E(y) of ŷ = a + b(x). Deze lijn zal de ‘beste’
lijn weergeven, in de zin dat deze het dichtste ligt bij alle datapunten. In de
voorspellingsvergelijking kunnen a en b als volgt worden berekend:

Er zijn twee aannames waaraan de voorspellingsvergelijking moet voldoen:
 Gegeven x, moeten de y-waarden normaal verdeeld zijn

, 2

 De spreiding van de y-waarden moet hetzelfde zijn voor conditionele verdelingen
(dezelfde σ) (zie 9.3)) (zie 9.3)
Door in de voorspellingsvergelijking het verschil tussen de daadwerkelijke (geobserveerde)
y-waarden en de voorspelde ŷ-waarden te bekijken, wordt duidelijk hoe goed de
voorspellingsvergelijking is. Dit verschil wordt ook wel een residu genoemd, dit is y – ŷ.
De beste voorspellingsvergelijking is die met de kleinste residuen. Om die te vinden, worden
de residuen van de datapunten gekwadrateerd en opgeteld. Dit heet SSE (sum of squared
errors). SSE geeft dus aan hoe goed of slecht ŷ is in het inschatten van y. De formule voor
de SSE is: Σ(y – ŷ)2.
De kleinste-kwadratenmethode houdt in dat a en b in de formule ŷ = a + b(x) de waarden
hebben waarbij de SSE zo klein mogelijk is. De lijn die ontstaat heet de kleinste-
kwadratenlijn, dit is de beste lijn van alle mogelijke lijnen. In de meeste software heet de SSE
de residual sum of squares.
Een regressie-uitschieter is een datapunt dat ver buiten de trend van de andere datapunten
valt. Zo’n datapunt wordt invloedrijk genoemd wanneer het verwijderen ervan een grote
verandering teweeg brengt in de voorspellingsvergelijking. Dit effect is kleiner bij een grote
dataset. Het is soms beter om een uitschieter (outlier) buiten de voorspellingsvergelijking te
laten en erbij te vermelden bij het rapporteren van de resultaten.
9.3 Wat houdt het lineaire regressiemodel in?
Bij een regressieformule y = a + b(x) hoort bij elke x-waarde eenzelfde y-waarde. Dit heet
een deterministisch model. Soms is een probabilistisch model beter: een model waarin er
variabiliteit is in de waarde van y. Er kan dan gebruik worden gemaakt van een conditionele
verdeling, een verdeling waarbij er een extra conditie geldt, namelijk dat x een bepaalde
waarde heeft.
Een probabilistisch model geeft het gemiddelde van de y-waarden weer (niet de
daadwerkelijke waarde van y). De formule van een conditionele verdeling is E(y) = α + β(x).
Het symbool E staat voor de verwachte waarde.
Het lineaire regressiemodel kent naast α en β nog een parameter, namelijk σ oftewel de
conditionele standaarddeviatie. Deze beschrijft de standaarddeviatie van een conditionele
verdeling. Deze parameter meet de variabiliteit van de y-waarden voor alle personen met die
bepaalde x-waarde. De formule voor de conditionele variantie (in software ook wel RMSE
genoemd) is:
De vrijheidsgraden van een regressievergelijking zijn df = n – p,
waarbij p het aantal onbekende parameters is. Bij E(y) = α + β(x)
zijn er twee onbekende parameters (α en β) dus is df = n – 2.) dus is df = n – 2.
De standaarddeviatie van een conditionele verdeling hangt zowel van y als van x af en wordt
genoteerd als σ) (zie 9.3)y|x (voor de populatie) en sy|x (voor de steekproef), dit wordt meestal afgekort
tot σ) (zie 9.3) en s. Bij een marginale verdeling hangt de standaarddeviatie echter alleen van y af,
ongeacht de x. Daarom wordt hierbij de standaarddeviatie genoteerd als σ) (zie 9.3)y (voor de
populatie) en sy (voor de steekproef).
Σ(y – ȳ))2 wordt de totale som van kwadraten genoemd.

9.4 Hoe meet je de correlatie van een lineair verband?
Het verband tussen x en y wordt gemeten met de correlatie, genoteerd als r. De correlatie is
een gestandaardiseerde versie van de hellingscoëfficiënt en wordt ook wel de
gestandaardiseerde regressiecoëfficiënt (of Pearson correlatie) genoemd. De correlatie
wordt als volgt berekend:

Report Copyright Violation

Connected book

Alan Agresti, Barbara Finlay Statistical Methods for the Social Sciences, Global Edition

Edition:april 2018
ISBN:9781292220314
Edition:5

Written for

Institution: Rijksuniversiteit Groningen (RuG)
Study: Bachelor Psychology
Course: Statistiek 2 (PSBA207)

All documents for this subject (9)

Document information

Summarized whole book?: No
Which chapters are summarized?: H9 t/m h11 (deeltentamen 1)
Uploaded on: October 31, 2019
Number of pages: 14
Written in: 2019/2020
Type: Summary

Subjects

psychologie
nederlands
statistiek 2
2e jaar
psychology
statistics 2
agresti
deeltentamen 1
psba2 07

$7.28

Get access to the full document:

100% satisfaction guarantee

Immediately available after payment

Both online and in PDF

No strings attached

Get to know the seller

lottekalk02

3.9

(49)

Reviews from verified buyers

Showing all 2 reviews

n-mulders Premaster Klinische Psychologie · 36 reviews

5 year ago

ElyneSmit Toegepaste Psychologie · 8 reviews

6 year ago

3.5

2 reviews

Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

lottekalk02 Rijksuniversiteit Groningen

View profile

Sold

509

Member since

7 year

Number of followers

324

Documents

Last sold

4 weeks ago

3.9

49 reviews

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller lottekalk02. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.28. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 59056 documents were sold in the last 30 days Founded in 2010, the go-to place to buy study notes for 16 years now

Samenvatting Statistiek 2 (deeltentamen 1)

Content preview

Connected book

Written for

Document information

Subjects

Reviews from verified buyers

Get to know the seller

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Didn't get what you expected? Choose another document

Pay as you like, start learning right away

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying these notes from?

Will I be stuck with a subscription?

Can Stuvia be trusted?