100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Summary

Samenvatting Statistial Methods for the Social Sciences

Rating
-
Sold
6
Pages
16
Uploaded on
09-06-2022
Written in
2021/2022

Dit document bevat een samenvatting van het boek 'Statistial Methods for the Social Sciences' van Agresti voor het vak Statistische Modellen 2 van de RUG. Ik heb dit vak afgerond met een 9,6. Succes met studeren!

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
No
Which chapters are summarized?
Hoofdstuk 7, 9-15
Uploaded on
June 9, 2022
Number of pages
16
Written in
2021/2022
Type
Summary

Subjects

Content preview

Chapter 9 – Linear Regression and Correlation
Bij een regressieanalyse kijk je naar drie dingen:
1. Of er een verband is tussen de variabelen.
2. Hoe sterk dit verband is.
3. Of een en welke regressieformule de afhankelijke variabele kan voorspellen

9.1 Linear Relationships
Linear Functions: Interpreting The Y-Intercept and Slope
Een lineaire formule beschrijft hoe y relateert aan x  y=α + βx (α=y-intercept; β=helling)
Het verband tussen de variabelen kan positief of negatief zijn, afhankelijk van β. Als β=0 geldt dat er
geen verband is tussen x en y.

Models Are Simple Approximations For Reality
Wanneer de geschatte lineaire formule beter y kan voorspellen, heb je een beter model.
Associatie is niet hetzelfde als causatie.

9.2 Least Squares Prediciton Equation
A Scatterplot Portrays the Data
Scatterplot = een grafiek met alle observaties als puntjes; Hiermee kan je checken of het verband
tussen twee variabelen lineair is
∑( x−x )( y− y )
Prediction equation = ^y =a+bx met: b= 2 a= y−b x
∑ ( x−x)
Effect of Outliers on the Prediction Equation
Uitbijters hebben invloed op de schattingsformule, als je ze weg zou halen, verandert dit de formule.

Prediction Errors are Called Residuals
Prediction error = het verschil tussen de werkelijke y-waarde en de geschatte y-waarde; de verticale
afstand tussen de regressielijn en het werkelijke punt in de scatterplot

Prediction Equation has Least Squares Property
SSE=∑ ( y− y )2 = som van de gekwadrateerde fouten
De kleinste som van de gekwadrateerde fouten geeft de waarden van a en b van de regressielijn. De
som van de residuen is altijd 0. De regressielijn gaat door punt ( x , y ).

9.3 The Linear Regression Model
Een probability distribution is niet deterministisch, het gaat om een conditionele distributie
(probabilistisch model). Dit houdt in dat er voor elke waarde van x meerdere y-waarden mogelijk zijn.

Linear Regression Function
E ( y )=α + βx  Deze formule berekent het gemiddelde van de y-waarden voor een bepaalde
waarde van x. Dit is een lineaire regressieformule.
^y =a+bx berekent het gemiddelde in de steekproef.
Describing Variation About the Regression Line
σ = conditionele standaarddeviatie; meet de variabiliteit van de y-waarden voor elke x-waarde
Assumptie: de conditionele distributies van y zijn normaal bij elke x-waarde.

,Residual Mean Square: Estimating Conditional Variation


√ √
2
SSE ∑( y− y )  Dit is de schatting van σ.
s= =
n−2 n−2
N-2 = df = degrees of freedom  je doet min 2 omdat er twee parameters zijn (α & β).

Conditional Variation Tends to be Less Than Marginal Variation
Bij de marginale distributie gaat het alleen om y ( s y ∧σ y ), bij de conditionele distributie gaat het
y-waarden bij een bepaalde x-waarde ( s yx ∧σ yx ). De marginale distributie is vaak groter dan de
conditionele distributie.

9.4 Measuring Lineair Association: The Correlation
The Slope and Strength of Association
De helling vertelt ons de richting van de associatie, maar niet hoe sterk deze is.

The Correlation




( )
√ ∑ ( x −x )2
∑( x−x )( y− y ) n−1 sx
r= r= b=( )b
√ [ ∑( x−x) ] [ ∑( y − y) ]

2 2
∑( y− y)
2 sy
n−1
De correlatie wordt ook wel de gestandaardiseerde regressie-coëfficiënt of de Pearson correlatie
genoemd.

Properties of the Correlation
- De correlatie is alleen valide wanneer er sprake is van een lineair verband.
- De correlatie valt tussen -1 en +1
- Als b positief is, is r ook positief; als b negatief is, is r ook negatief.
- Als r=0 geldt b=0
- Als r=1 is er sprake van een perfecte lineaire associatie, er is dan geen prediction error.
- Hoe groter de waarde van r, hoe sterkter de lineaire associatie.
- De correlatie van y om x te voorspellen, is gelijk aan die van x om y te voorspellen.
- De waarde van r is onafhankelijk van de eenheden van de variabele.

Correlation Implies Regression Toward the Mean
Regressie naar het gemiddelde = wanneer je x verhoogt met s x, verandert y met r∗s y .
R is lager dan 1, dus valt is lager dan 1, dus valt y minder standaarddeviaties van het gemiddelde dan
x. Een enkele standaarddeviatie verandering in x, is gelijk aan een verwachte verandering van r
standaarddeviaties in y.

R-Squared: Proportional Reduction in Prediction Error
2
De som van gekwadrateerde fouten ( E2=∑( y − ^y ) ) is kleiner wanneer je rekening houdt met x
( ^y → E 2), dan wanneer je dat niet doet ( y → E 2) als er een lineaire associaties is tussen x en y.
E1 −E2 TSS−SSE
r 2= = . TSS= total sum of squares
E1 TSS

Properties of r-Squared
- r2 valt tussen 0 en 1.
- Wanneer SSE 0 is, is r2 1
- Wanneer b=0, geldt r2=0

, - r2 meet de sterkte van de associatie
- r2 is onafhankelijk van de eenheden van de variabele

Sums of Squares Describe Conditional and Marginal Variability
R2 geeft het percentage van de verklaarde variantie aan, maar het is makkelijker om r te
interpreteren.



9.5 Inferences for the Slope and Correlation
Assumptions for Statistical Inference
- Randomisatie
- Het gemiddelde van y is gerelateerd aan x door: E ( y )=α + βx
- De conditionele standaarddeviatie σ is identiek voor elke waarde van x (kleinste kwadraatfout).
- De conditionele distributie van y is normaal bij elke x-waarde.

Test of Independence Using Slope or Correlation



b s SSE
t= se= s=
se √∑( x−x)2
n−2
r
t=


2
1−r
n−2
Confidence Interval for the Slope and Correlation
Een betrouwbaarheidsinterval voor β heeft de formule: b ± t(se ).
Een betrouwbaarheidsinterval berekenen voor de correlatie is moeilijker, omdat deze verdeling niet
symmetrisch is.

Sums of Squares in Software Output

9.6 Model Assumptions and Violations
Which Assumptions are Important?
De assumpties van randomisatie en de lineariteit zijn erg belangrijk. Voor de assumpties van
normaliteit en gelijkheid van de conditionele distributies geldt dat deze meestal niet volledig juist
zijn, maar dit is niet heel erg.

Influential Observations
Wanneer er een ernstige uitbijter is, moet er gekeken worden hoe dit komt, omdat deze veel invloed
heeft op de regressielijn.

Factors Influencing the Correlation
De range van x-waarden heeft ook invloed op de correlatie, wanneer deze veel kleiner is dan in de
populatie, wordt de correlatie onderschat.

Extrapolation is Dangerous
Het is niet logisch om een geschatte regressielijn toe te passen op waarden van x buiten de
geobserveerde waarden, omdat het verband daar misschien niet meer lineair is. Het is ook niet zo
dat, wanneer er een positieve relatie is tussen x en y en tussen y en z, dat er dan ook een positieve
relatie is tussen x en z.

Regression Model with Error Terms
y=α + βx +ε  ε geeft deviatie van de observatie van het gemiddelde weer = error term

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
anneliewagenaar Rijksuniversiteit Groningen
Follow You need to be logged in order to follow users or courses
Sold
197
Member since
4 year
Number of followers
142
Documents
31
Last sold
1 week ago
Pedagogische Wetenschappen: samenvattingen en collegeaantekeningen

Hoi! Ik ben Annelie, ik studeer Pedagogische Wetenschappen aan de RUG. Als je vragen hebt over een samenvatting of over collegeaantekeningen, stuur dan vooral een berichtje!

3.3

17 reviews

5
1
4
9
3
4
2
0
1
3

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions