100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Class notes

Uitgebreide samenvatting van ALLE hoorcolleges Research Methods in CS (RMSC)

Rating
-
Sold
3
Pages
192
Uploaded on
22-10-2021
Written in
2021/2022

Dit is een samenvatting van alle hoorcolleges van het vak Research Methods van de master Communicatiewetenschap aan de Vrije Universiteit. Er staan voorbeelden van SPSS output in en de stof is goed en uitgebreid uitgetypt, perfect om te leren voor een tentamen. ;)

Show more Read less
Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
October 22, 2021
Number of pages
192
Written in
2021/2022
Type
Class notes
Professor(s)
D. pavlopoulos
Contains
All classes

Subjects

Content preview

Hoorcollege 1: Lineaire regressie


Video: Pearson's r Basic Statistics Correlation and Regression
● sterke correlatie: meer chocolade is meer gewicht in kg, maar hoe sterk?
● pearson’s r: altijd tussen -1 en 1. 0 = geen correlatie
● een scatterplot vertelt of de correlatie sterk of zwak is, maar niet hoe sterk of zwak
deze is, dat doet de pearson’s r.
● pearson’s r vertelt direction & strength
● pearson’s r uitrekenen: aantekeningen vorig jaar


Video: Finding the regression line Basic Statistics Correlation and Regression
● je hebt positieve en negatieve residuals
● de lijn met kleinste kwadraten residuals is de regressielijn (kwadraat want negatief en
positief kan elkaar anders opheffen)
● je minimaliseert de sum of squared residuals!


Video: Describing the regression line Basic Statistics Correlation and Regression
● regressielijn is handig om te voorspellen
● 𝑌dakje = a+𝑏𝑋
○ 𝑌dakje = predicted value of Y
○ a = intercept. Is the predicted value of Y when the line crosses de Y as. De
waarde van Y bij X = 0
○ b = slope (richtingscoëfficiënt): helling van de lijn met toename/afname van Y als
X 1 toeneemt
● je kan a (intercept) en b (slope) zelf uitrekenen:

,Wat jullie al weten
● B, constante en coëfficiënt = gevonden in de steekproef. We hebben de t-test nodig om
iets over de populatie te zeggen.
● Beta = als leeftijd met 1 standaard deviatie toeneemt, wat het uurloon dan toeneemt
(dat is 0.247 st dev). Dit is niet afhankelijk van de meeteenheid! Daarom handig in
multipele regressie om effecten met elkaar te vergelijken, bv geld en uur.
● Rode linker formule = hoe je de 𝑏 uitrekent
○ st dev X / st dev Y
● b - 0 / st error = de t-toets
○ H0 = 𝑏 = 0
○ HA = 𝑏 = geen 0


Wat vertel ik vandaag? Residuen!
● Residuen is wat overblijft in een regressie. Hoe bedoel ik dat?
● We schrijven: 𝑌=𝑏0+𝑏1∙𝑋 (of: 𝑌= a+𝑏𝑋)
● Wij bedoelen: 𝑌dakje=𝑏0+𝑏1∙𝑋 (of: 𝑌dakje = a+𝑏𝑋)
● 𝑌dakje = de expected value, verwachte waarde. Deze ligt precies op de regressielijn
● Met andere woorden: de regressie is een lijn, maar je observatie ligt eigenlijk buiten die
lijn!
● De werkelijkheid is 𝑌=𝑏0+𝑏1𝑋+𝜀 (𝜀 = een fout, de residu). De werkelijkheid is de lijn + een
fout. In de regressie maken we een fout, dat is de residu. Het is het verschil tussen
werkelijkheid en predicted Y
● 𝑌streepje = gemiddelde Y
● 𝑌dakje = voorspelde Y


Verschil regressielijn - onze observatie: residu


● Wat is dan 𝑌dakje=𝑏0+𝑏1∙𝑋? Een ‘Model’!
● Model = een benadering van de werkelijkheid

,Hoe werkt dit model?
● Verband tussen continue afhankelijke variabele (𝑌) en een of meerdere onafhankelijke
(𝑋)
● Dat doen we met een lijn (𝑌=𝑏0+𝑏1*𝑋𝑋=) ipv een scatterplot!




● De scatterplot (met de puntjes) geeft de werkelijkheid aan, door alle puntjes (onze
observaties); iemand van 14 met laag en hoog inkomen. Daar houden we niet van, met
de relatie tussen het lage en hoge inkomen van de 14 jarigen kunnen we niet veel.
Daarom gebruiken we een lijn! De lijn is: 𝑌=𝑏0+𝑏1∙𝑋
● Regressie = verband tussen continue afhankelijke variabele (𝑌) en een of meerdere
onafhankelijke (𝑋), dus de relatie tussen experience en inkomen
● Met een lijn (𝑌=𝑏0+𝑏1∙𝑋) ipv een scatterplot kunnen we wel de relatie beschrijven!
○ 𝑏0 = constante
○ 𝑏1 = helling
● De lijn moet een goede afspiegeling zijn van de werkelijkheid


Maar welke lijn?
● Maar welk model (lijn) benadert best de werkelijkheid? In ons geval: welke lijn verklaart
het best het verband tussen onze onafhankelijke en afhankelijke variabelen?
● Welke lijn verklaart het verband tussen onze afhankelijke variabele (Y) en onze
onafhankelijke variabele (X) het beste?
● Welke waarden voor 𝑏0 en 𝑏1 passen het best voor onze data?
○ welke constante en welke slope past het best bij de puntjes?
● Welke 𝑏0 en 𝑏1 past het best bij onze data? Die oplossing is de kleinste kwadraten
methode! Dus met kleinste residuen. Die moeten we samen minimaliseren.

, De oplossing is: kleinste kwadraten methode
● The method of least squares is used in a linear regression to find out which of the
following? The line of best fit. The least squares method is a method to find the 'best
fitting' line, so the straight line minimizes the mistake that we make in predicting the Y
variable when using the regression model.
● Welk model (lijn) maakt de kleinste fout?
● Oplossing: laagste fout (fout = residu)
○ Alle residuen samen moeten zo klein mogelijk zijn!

● Dat doen we met de som van de residuen ( ), maar er zijn positieve en negatieve
residuen en ze schakelen elkaar uit...

● Dus, wij focussen op de som van de kwadraten van de residuen:
● Doel van regressie: we zoeken 2 getallen, voor de 𝑏2 en 𝑏1, die deze som zo klein

mogelijk maken! Om deze som te minimaliseren:
○ Kleinste Kwadratenmethode (Least Squares method)
● De oplossing (staat buiten het doel van dit vak)
○ De covariantie geeft aan of, en indirect in welke mate, de waarden van de ene
variabele toe- dan wel afnemen bij toenemende waarden van de andere.




Residuen - verder
● Dus, residuen helpen ons dus om de oplossing (best model) te vinden, want het is de
kleinste som van de gekwadrateerde residuen die we moeten hebben om de
regressielijn te bepalen.


● Maar ze doen nog meer… Let’s play!
a) 𝑌𝑖 = een observatie van de variabele Y (afhankelijke variabele, uurloon), voor 1
persoon, daarom de 𝑖! Het loon van 1 iemand in de steekproef.
b) 𝑌streepje = gemiddelde loon van iedereen in steekproef
c) 𝑌dakje = de verwachte waarde, mijn verwachte loon volgens de regressielijn
(𝑌=𝑏0+𝑏1∙𝑋)
$7.91
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached


Also available in package deal

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
DaphneJGR Vrije Universiteit Amsterdam
Follow You need to be logged in order to follow users or courses
Sold
28
Member since
4 year
Number of followers
24
Documents
5
Last sold
2 year ago

4.8

5 reviews

5
4
4
1
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions