Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Notes de cours

Statistiek III - College 1

Note
-
Vendu
3
Pages
8
Publié le
18-03-2021
Écrit en
2020/2021

Uitgebreide aantekeningen college 1 statistiek 3 (jaar 2 bachelor psychologie Groningen)

Établissement
Cours









Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

École, étude et sujet

Établissement
Cours
Cours

Infos sur le Document

Publié le
18 mars 2021
Nombre de pages
8
Écrit en
2020/2021
Type
Notes de cours
Professeur(s)
Edith van krimpen
Contient
College 1

Sujets

Aperçu du contenu

College 1 (2-2-2021)
Multipele regressie:
- Doel van het model: het geven van een duidelijk en goed te interpreteren overzicht van de
populatie
o Je wilt graag een grote R² (goede omschrijving populatie), R² geeft informatie over de
model fit (hoe goed het past bij de populatie)
o Een zo eenvoudig mogelijk model dus zo min mogelijk variabelen (maar dit kan ten
koste gaan van de R²)



Model B heeft een betere model fit dan model A, maar is veel lastiger te
interpreteren vanwege de vele variabelen en hun onderlinge relaties.
- Er is dus een wisselwerking tussen het aantal variabelen in het model en de verklaarde
variantie.
o Kijk of de toename in R² significant is, of het model ook daadwerkelijk beter wordt
door het ingewikkelder te maken.
Voorbeeld: een dataset met Y (jaarsalaris van medewerkers aan de uni) die we willen voorspellen
met X1 (jaren werkervaring), X2 (aantal wetenschappelijke publicaties), X3 (of iemand man of vrouw
is) en X4 (het aantal keren dat er geciteerd wordt uit zijn/haar publicaties). We willen Y voorspellen,
maar zo slim en efficiënt mogelijk. (Zo eenvoudig mogelijk maar wel met een goede model fit).
Onafhankelijke variabelen:




Wat ga je als eerste doen? Kijk naar de correlatiematrix (zie hierboven). Wat we als eerste gaan doen
om de sterkste voorspeller er uit te pikken, is kijken naar de bivariate correlaties die er zijn tussen de
afhankelijke variabele Y en de onafhankelijke variabele. Kijk dus naar de laatste rij (blauw) of de
onderste kolom (ze zijn gelijk aan elkaar). De hoogste correlatie hier is tussen werkervaring en salaris,
dit lijkt dus een sterke variabele om op te nemen in het model. Maar het aantal publicaties en aantal
citaten zouden ook kunnen overlappen. Hoe weten we dan of er sprake is van een sterke correlatie?
Kijk naar de correlatie tussen deze twee. Hier zie je dat dit 0,333 is. Dat is een vrij sterke onderlinge
correlatie. Dus als we publicaties zouden op nemen in het model, en daarna ook citaties toevoegen,
dan zouden we geen optimale informatie meer toevoegen omdat een deel van de informatie van
citaties al in publicaties zit. Hetzelfde zie je terugkomen bij werktijd en publicaties (0,651), ook hier is
multicollineariteit. De vraag is nu dus welke van de variabelen het slimst is om op te nemen in het
model.

, In dit geval heeft werktijd een grotere correlatie met Y (salaris) en is deze dus het handigst om als
eerste op te nemen. Daarna zou je kunnen overwegen of het wat extra’s oplevert om ook publicatie
toe te voegen.

Alle variabelen, behalve FEMALE (geslacht), hebben een significantie correlatie met Y. Maar vanwege
de multicollineariteit (onderlinge samenhang tussen de IV’s) is het waarschijnlijk niet nodig om alle
onafhankelijke variabelen op te nemen in het model.
Multicollineariteit = wanneer een aantal verklarende variabelen in het model sterk met elkaar
gecorreleerd zijn.
3 verschillende regressie-analyses voor het interpreteren van verschillen tussen verschillende
modellen:




De eerste heeft alle variabelen. De R² is iets meer dan 50%. Maar bij de tweede laten we geslacht
buiten beschouwing en we zien een afname van deze waarde. Maar dit is niet heel veel, want
geslacht had geen sterke samenhang met salaris. Je moet de afname toetsen om te kijken of het een
significante afname is. Als het significant is, kun je geslacht namelijk beter wel in het model laten.
De derde heeft maar twee onafhankelijke variabelen, publicaties is er deze keer ook uitgelaten. Ook
hier is R² afgenomen. Iets grotere afname, maar nog steeds niet erg veel.
Je kunt ook kijken naar het plaatje. In de bovenstaande afbeelding zie je Ŷ (schatting van Y op basis
van het model) op de y-as en Y op de x-as. Als de punten op exact 45 graden zouden liggen, zou het
een perfecte schatting zijn. De groene punten staan voor het model met alle vier de variabelen, en de
rode punten staan voor het model met drie onafhankelijke variabelen. Je ziet dat de afwijkingen erg
klein zijn, want R² is nauwelijks afgenomen.
Semi-partiële correlaties vertellen ons wat de unieke bijdragen zijn van een bepaalde onafhankelijke
variabele, als de andere variabelen in het model zitten.
Hiërarchische regressie-analyse = een model stap-voor-stap opbouwen of uitkleden om uit te komen
bij het optimale model.

Onderscheid tussen een niet-lineaire relatie (curvy linear relationship) en een niet-lineair model. Een
curvy linear relationship kan in sommige gevallen nog steeds aangepakt worden met een lineair
regressiemodel, bijvoorbeeld door de onafhankelijke variabele te transformeren (logaritme,
kwadraat of wortel van X in plaats van gewoon X). De getransformeerde onafhankelijke variabele kan
dan opgenomen worden in het lineaire regressiemodel.
Soms hebben we te maken met een niet-lineair model, bijvoorbeeld als de afhankelijke variabele Y
niet continue is maar een 0-1 variabele. We kunnen dan geen lineair model gebruiken omdat we dan
tegen allemaal problemen aanlopen, vooral het schenden van assumpties. We moeten dus gebruik
maken van een niet-lineair model, zoals een logistisch regressiemodel.
Niet-lineaire regressie:
- Kwadratische regressie
Gratuit
Accéder à l'intégralité du document:
Téléchargez

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien


Document également disponible en groupe

Faites connaissance avec le vendeur

Seller avatar
Les scores de réputation sont basés sur le nombre de documents qu'un vendeur a vendus contre paiement ainsi que sur les avis qu'il a reçu pour ces documents. Il y a trois niveaux: Bronze, Argent et Or. Plus la réputation est bonne, plus vous pouvez faire confiance sur la qualité du travail des vendeurs.
femkebvanrijn Rijksuniversiteit Groningen
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
173
Membre depuis
6 année
Nombre de followers
127
Documents
75
Dernière vente
2 semaines de cela

4,2

22 revues

5
9
4
11
3
1
2
0
1
1

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions