100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Summary

VOS ISW - Samenvatting hoorcolleges 1-6

Rating
4.5
(2)
Sold
33
Pages
53
Uploaded on
16-01-2020
Written in
2019/2020

Dit document bevat een uitgebreide samenvatting van de cursus 'Verdieping in Onderzoeksmethoden en Statistiek' voor Interdisciplinaire Sociale Wetenschap in het 2e jaar. Dit is in principe het belangrijkste voor de toets: van de begrippen tot aan de output van SPSS. Week 1: multipele regressie, week 2: meerweg ANOVA, week 3: ANCOVA, week 4: herhaalde metingen en mixed design, week 5: moderatie en mediatie, en week 6: factoranalyse en betrouwbaarheidsanalyse.

Show more Read less
Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
Unknown
Uploaded on
January 16, 2020
Number of pages
53
Written in
2019/2020
Type
Summary

Subjects

Content preview

HOORCOLLEGE AANTEKENINGEN - VOS

HOORCOLLEGE 1: MULTIPELE REGRESSIE – 25 NOVEMBER 2019
WEEK 3

Regressieanalyse
Je gebruikt een regressieanalyse als je wilt weten of de onafhankelijke variabele (X) de score op
afhankelijke variabele (Y) kan voorspellen, in dit geval is er sprake van een enkelvoudige regressie.
Bij een multipele regressie gaat het om minimaal twee onafhankelijke variabelen (X). Deze
onafhankelijke variabelen (X) worden ook wel predictoren genoemd. Het gaat er dus dan ook om
hoe goed deze variabelen goede voorspellers zijn.

Een voorbeeld hiervan is: Hoe zijn de verschillende variabelen, zoals intelligentie of uren werk, van
invloed zijn op schoolprestaties. Hierbij gaat het er dus om of de verschillen in kinderen in
schoolprestaties kunnen worden verklaard met behulp van de predictoren; het verklaren van
variantie. Er wordt gekeken naar waarom niet iedereen dezelfde schoolprestaties heeft.

Verschillen enkelvoudige en meervoudige regressie (meetniveau’s)
Je gebruikt een enkelvoudige regressie als je één afhankelijke variabele (Y) van minimaal interval
meetniveau hebt en één onafhankelijke variabele (X) van minimaal interval meetniveau hebt.

Je gebruikt een multipele regressie als je één afhankelijke variabele (Y) van minimaal interval
meetniveau hebt en meer dan één onafhankelijke variabele (X) van minimaal interval meetniveau
al dan niet in combinatie met een dichotome variabele(n) hebt.

Een dichotome variabele is een variabele met slechts 2 mogelijke uitkomsten of waarden, zoals het
geslacht; man of vrouw.

Voorbeeld multipele regressie
Onderzoeksvraag: Kunnen we kennis van literatuur bij jong volwassenen voorspellen met persoons-,
gezins- en schoolkenmerken? (PAC) Dit is een voorbeeld van een correlationeel onderzoek, want je
wilt kennis van literatuur voorspellen met verschillende onafhankelijke variabelen (X)

De afhankelijke variabele (Y) wat je wilt verklaren in dit voorbeeld is kennis van de literatuur, de
afhankelijke variabele kan je voorspellen met de onafhankelijke variabelen (X), de predictoren of
voorspellers; persoonlijke kenmerken, kenmerken ouderlijk huis en kenmerken van school. De
populatie binnen deze vraag zijn jong volwassenen. Het doel van dit onderzoek is de populatie
beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de predictoren X.

Doelen multipele regressie
• Beschrijven lineaire relaties tussen variabelen (regressiemodel).
• Toetsen hypothesen over relaties (significantie).
• Kwantificeren van relaties (effectgrootte).
• Kwalificeren van relaties (klein, middelmatig, groot).
• Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).

,Je kan op basis van statistische samenhang nooit geen uitspraken over causaliteit doen. Als je een
correlatie hebt gevonden, wil dat niet zeggen dat de ene variabele de andere variabele veroorzaakt.

De eerste voorwaarde van causaliteit, de samenhang kan je met een multipele regressie beoordelen,
de rest van de voorwaarden niet.

Assumpties multipele regressie:

• Voorwaarden meetniveaus (Y= interval meetniveau, X =
interval meetniveau of 2 categorieën
• Lineaire verbanden tussen de afhankelijke variabele en
onafhankelijke variabelen
• Afwezigheid uitschieters in Y-ruimte (Standardized
residuals)
• Afwezigheid uitschieters in X-ruimte (Mahalonobis distance)
• Afwezigheid uitschieters in XY-ruimte (Cook’s distance)
• Afwezigheid multicollineariteit (kijk naar VIF en Tolerance);
hiermee wordt gekeken of de relatie tussen twee of
meerdere onafhankelijke variabelen te sterk is, gevolgen
o.a. hier van zijn dat de regressiecoëfficiënten (B)
onbetrouwbaar zijn
• Homescedasticiteit; de spreiding van de residuen per X-
waarde ongeveer gelijk moet zijn (plot de gestandaardiseerde residuen tegen
gestandaardiseerde voorspelde waardes)
• Normaal verdeelde residuen; geen grote afwijkingen van de verdeling


T-toets
Deze toetsingsgrootheid gebruik je wanneer je één categorische variabele met twee categorieën
(dichotoom) wilt vergelijken op een continue variabele (interval/ratio). Je kijkt dan naar het
verschil tussen de twee gemiddelden.

Meetniveau variabelen
Voor een multipele regressieanalyse is het meetniveau van variabelen zijn belangrijk. Dit is ook een
van de assumpties; de meetniveaus moeten kloppen.

Meetniveaus kan je onthouden aan de hand van het acronym NOIR; nominaal, ordinaal, interval en
ratio. Soorten meetniveaus.

➢ De afhankelijke variabele Y moet gemeten worden op minimaal interval meetniveau of
ratio.
➢ De onafhankelijke variabelen X moeten gemeten worden op minimaal interval meetniveau.
Categorische variabelen kan je met twee categorieën meten (sekse, man vs vrouw); hierbij is
er dus sprake van een nominaal meetniveau met twee categorieën. Een categorische
variabele met twee categorieën wordt dichotoom genoemd. Categorische variabelen met
meer dan twee categorieën van nominaal meetniveau moet worden omgezet in
dummyvariabelen. Dan pas kan je deze variabelen meenemen in de regressie analyse.

,Regressiemodel (1)
In een regressiemodel probeer je Y scores te voorspellen en de werkelijkheid te benaderen. Daarvoor
stel je een vergelijking voor.

Modelvergelijking voor geobserveerde variabele




De uitkomt Y is gelijk aan het model (samenraapsel van alle predictoren die je hebt meegenomen;
linieair regressiemodel) + voorspellingsfout. Op grond van zo’n model doe je een voorspelling en die
voorspelling zal er ook naast zitten. De voorspellingsfout wordt ook wel de residu of error genoemd.
Het residu is het verschil tussen een geobserveerde score Yi en de voorspelde score Y^. De formule
voor het residu is dus ei = Yi – Y^i

Regressievergelijking voor voorspellen van waarde op Y




Als je het hebt over de voorspellende waarde van Y, dan wordt Y dakje gebruikt. De
voorspelde/geschatte Y score is gelijk aan het model, daarbij ontbreekt de voorspellingsfout
(residu). Je kan twee aparte vergelijkingen opstellen, één voor de geobserveerde variabele en één
voor de voorspelde waarde.

Regressiemodel (2)
Uiteindelijk wil je op grond van verschillende x-
variabelen y gaan voorspellen, daarbij ga je een
voorspellingsfout maken, een residu; een verschil tussen
dat wat je hebt geobserveerd en dat wat je voorspelt.

Bij formule in de tabel/grafiek:
Bij B1 * X1 wordt B1 vermenigvuldigd met een X score. +
residu (voorspellingsfout). Het intercept (de constant;
ook wel a genoemd) is het startpunt van de
regressielijn, en het intercept is gelijk aan de Y-score die
je krijgt als je de regressievergelijking invult en voor elke X-score de score 0 observeert.
B1 wordt ook wel de hellingshoek/slope/regressiecoëfficiënt genoemd.
Het weergeeft de verandering weer in voorspelde Y-scores (Y^) bij toename van 1 eenheid in X-
scores; dus hoeveel neemt Y toe als X-score met 1 toeneemt? 4.017 + 0.136 *

Histogram ‘’read’’
Je ziet dat er spreiding is in scores, niet iedereen heeft dus dezelfde score. Je
probeert ook de spreiding in scores te verklaren; kunnen de predictoren
verklaren waarom bijv. het ene kind een score heeft van 8 en de andere een
4. Er wordt gezocht naar een model waarbij de voorspelde score (y dakje),
heel dicht ligt bij y. Een model waarbij de residuen zo klein mogelijk is,
verschil tussen y en y dakje zo klein mogelijk is (voorspellingsfout). Dat is
het uiteindelijke doel van een regressieanalyse

, Spreidingsdiagram
Het doel van een regressieanalyse is om een relatie te
beschrijven met een rechte lijn. Met behulp van een
regressieanalyse ga je op zoek naar een best passende lijn.

Bij een spreidingsdiagram hoort een wiskunde vergelijking.
In deze vergelijking zit een startpunt en een hellingshoek.

Vergelijking van een lineaire lijn (regressievergelijking)

➢ Intercept of constante ( B 0) → startpunt van de lijn
➢ Regressiecoëfficiënt ( B 1) → hoe schuin of hoe stijl loopt de lijn
(hellingshoek van de lijn), dit kan negatief of positief zijn

Bij een enkelvoudige regressie worden Y-scores voorspelt met een enkele X-score.




Intercept
grafiek 1: B 0 = 5 grafiek 2: B 0 = 5 grafiek 3: B 0 = 5

Richting verband
grafiek 1: B 1 = 0,5 grafiek 2: B 1 = -0.5 grafiek 3: B 1 = 0
(positief) (negatief)

Er ontstaat een horizontale lijn wanneer de richtingscoëfficiënt (B1) gelijk is aan 0.

Kleinste kwadraten criterium
De best passende lijn wordt gevonden met behulp van het kleinste
kwadraten criterium (least square). De best passende lijn is waarbij
voorspellingsfout (error aka residuen) zo klein mogelijk is.
Voor elke respondent is er een geobserveerde Y. De geschatte Y, op
grond van de lijn, moet zodanig zijn dat de voorspellingsfout E voor
iedereen uiteindelijk zo klein mogelijk is.

De blauwe streepjes geven de residuen (zie grafiek hiernaast) aan; de
afstanden tussen de geobserveerde scores en de geschatte scores.

Voorbeeld; er is iemand met een x-score van 4, voor deze persoon observeer je een y-
score voort iets meer dan 2, maar voor deze persoon voorspel je een hogere y-score, rond de 5. Bij deze persoon zit de
voorspelling boven de ware observatie (echte score). Voor dit individu is dit geen goede voorspelling. Bij de individuen
waarbij de voorspelling beter is, liggen de punten dichter bij de oranje lijn; zoals het individu met een x-score van 2.

➢ Wanneer de geobserveerde waarde boven de oranje lijn ligt dan is er sprake van een positief
residu; onderschatting door het model

Reviews from verified buyers

Showing all 2 reviews
4 year ago

Very good. Take a few days to memorize this, use some material in addition to it, and you have enough. (But take the time, because the first time I had an insufficient... second time a 7,5!)

5 year ago

4.5

2 reviews

5
1
4
1
3
0
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
documentenv Universiteit Utrecht
Follow You need to be logged in order to follow users or courses
Sold
223
Member since
6 year
Number of followers
167
Documents
22
Last sold
8 months ago

4.3

38 reviews

5
15
4
18
3
5
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions