Samenvatting

Samenvatting Statistiek 3 (deeltentamen 1)

Name: Samenvatting Statistiek 3 (deeltentamen 1)
SKU: doc_669001
Rating: 3.00 (1 reviews)
Author: lottekalk02

Beoordeling

3,0

(1)

Verkocht

Pagina's

Geüpload op

14-03-2020

Geschreven in

2019/2020

Samenvatting voor het eerste deeltentamen van Statistiek 3. De samenvatting bestaat uit H14 en H15 van het boek van Agresti en is aangevuld met de stof uit de colleges. Opmerking: alle stof van statistiek 2 hoort ook bij de tentamenstof voor dit deeltentamen! Zie mijn andere samenvattingen van statistiek 2 voor deze stof.

Meer zien Lees minder

Instelling

Vak

Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Meld schending auteursrecht

Gekoppeld boek

Alan Agresti, Barbara Finlay Statistical Methods for the Social Sciences, Global Edition

Uitgave:april 2018
ISBN:9781292220314
Druk:5

Geschreven voor

Instelling: Rijksuniversiteit Groningen (RuG)
Studie: Bachelor Psychology
Vak: Statistiek 3 (PSBA212)

Alle documenten voor dit vak (14)

Documentinformatie

Heel boek samengevat?: Nee
Wat is er van het boek samengevat?: H14 en h15
Geüpload op: 14 maart 2020
Bestand laatst geupdate op: 6 juni 2021
Aantal pagina's: 7
Geschreven in: 2019/2020
Type: Samenvatting

Onderwerpen

Voorbeeld van de inhoud

Samenvatting Statistiek 3 deeltentamen 1
*Alle statistiek 2 stof is ook tentamenstof!*

Hoofdstuk 14: Hoe construeer je een model voor multipele regressie van extreme of
sterk gecorreleerde data?
14.1 Welke strategieën zijn er voor het selecteren van een model?
Er kunnen allerlei strategieën zijn om onafhankelijke variabelen wel of niet toe te voegen aan
een model. Er zijn 3 basisregels voor het maken van een selectie:
1. Selecteer relevante variabelen zodat het model theoretisch bruikbaar wordt, met
zinvolle controlevariabelen en mediërende variabelen
2. Selecteer voldoende variabelen om voldoende power te verkrijgen
3. Houd het model zo eenvoudig mogelijk
Het model blijft overzichtelijk als de onafhankelijke variabelen een hoge correlatie hebben
met de afhankelijke variabele, maar niet met elkaar.

Bij hiërarchische regressieanalyse worden een serie regressieanalyses uitgevoerd door sets
van onafhankelijke variabelen stap voor stap toe te voegen of te verwijderen. Per stap
worden de correlaties en de regressiecoëfficiënten geanalyseerd.

Een hiërarchische regressieanalyse kan op 2 manieren uitgevoerd worden:
1. Handmatig: het 1-voor-1 toevoegen van onafhankelijke variabelen kan met de knop
‘Enter’ in SPSS. Hierbij moet de optie ‘block’ gebruikt worden. Het 1-voor-1
verwijderen van onafhankelijke variabelen kan met de knop ‘Remove’ in SPSS.
Hierbij moet ook de optie ‘block’ gebruikt worden
2. Automatisch (m.b.v. software): hier zijn 3 strategieën voor:
- Backward elimination: begint met een ‘verzadigd’ model met alle
onafhankelijke variabelen. 1-voor-1 worden er onafhankelijke variabelen
verwijderd uit het model, waarbij telkens de afname in 𝑅2 wordt bepaald. De
onafhankelijke variabele met de kleinste 𝑠𝑟 2 wordt geselecteerd, waarbij
gekeken wordt of 𝑅2 significant afneemt bij het verwijderen van deze
variabele. Als de p-waarde niet significant is, wordt die variabele uit het model
verwijderd en wordt hetzelfde proces nogmaals uitgevoerd. Bij een
significante p-waarde wordt de backward elimination gestopt
- Forward selection: begint met een ‘leeg’ model (𝑦̂ = 𝑎) waarbij elke niet-
gebruikte onafhankelijke variabele 1-voor-1 wordt toegevoegd aan het model.
Hierbij wordt elke keer de 𝑠𝑟 2 bepaald. De significantie van de onafhankelijke
variabele met de grootste 𝑠𝑟 2 wordt getoetst, waarbij bij een significant
resultaat de onafhankelijke variabele wordt toegevoegd
- Stepwise regression: eerst vindt er forward selection plaats. Vervolgens wordt
er getoetst of de onafhankelijke variabelen in het model niet-significante 𝑠𝑟𝑖2
hebben. Zo ja, dan worden deze onafhankelijke variabelen verwijderd

Er zijn een aantal risico’s aan het automatisch uitvoeren van een hiërarchische regressie:
- Bij veel onafhankelijke variabelen zijn de verschillen tussen 𝑠𝑟𝑖 ’s klein
- Kans speelt een (te) grote rol bij de selectie van onafhankelijke variabelen
- Het is steekproefafhankelijk
- Verschillende methoden leveren verschillende resultaten
- Het leidt niet noodzakelijk tot praktische/verstandige modellen

Door bovenstaande risico’s moeten er theoretische argumenten gebruikt worden voor de
selectie van onafhankelijke variabelen, moet men voorzichtig zijn met interpretaties, moet
𝑛⁄ > 40 zijn (met 𝑝 = totaal aantal onafhankelijke variabelen beschikbaar) en moet cross-
𝑝
validatie gebruikt worden (een deel van de data wordt gebruikt om het model te schatten en
het andere deel om te onderzoeken hoe goed de voorspelling is).

1

,Bij cross-validatie ontstaat vanuit de residuen van de voorspelde waarden een predicted
residual sum of squares (PRESS):
𝑃𝑅𝐸𝑆𝑆 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 Hoe kleiner de PRESS, hoe beter de voorspellingen zijn.

Omdat de PRESS gebruik maakt van een som van kwadraten, wordt er een normale
verdeling veronderstelt. Een methode dat ook niet-normale verdelingen aankan, is het
Akaike information criterion (AIC). Deze methode selecteert het model waarbij 𝑦̂𝑖 zo dicht
mogelijk bij 𝐸(𝑦𝑖 ) ligt (gecorrigeerd voor het aantal variabelen in het model). Hoe kleiner de
AIC, hoe beter de voorspellingen.

De hiërarchische analyse maakt gebruik van de opsplitsing van 𝑅2 met semi-partiële
correlaties (𝑠𝑟). 2 voorbeelden van zo’n analyse:

De volgorde van de onafhankelijke variabelen is
dus van belang, want deze 2 hiërarchische
regressieanalyses zijn niet hetzelfde.

Je kunt toetsen of de set extra variabelen van het reduced model (r) naar het complete
model (C) significant bijdraagt met:
Hierbij is 𝑑𝑓1 het aantal extra variabelen van model r naar model C en
𝑑𝑓2 = 𝑛 − 𝑝 − 1 van model C waarbij p = het aantal onafhankelijke
variabelen.

Als er 1 extra onafhankelijke variabele is toegevoegd, dan geldt 𝐹 = 𝑡 2 . Hierbij is 𝑡 2 de
gekwadrateerde waarde van de t-statistic van de betreffende toegevoegde onafhankelijke
variabele.

Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet
worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat
open op zoek naar verklaringen van een fenomeen.

Om een model te kiezen met een hoge voorspellende power maar met een gering aantal
variabelen, wordt de adjusted 𝑅2 gebruikt:
De adjusted 𝑅2 neemt af als een overbodige
variabele wordt toegevoegd.

14.2 Waaraan zie je dat een statistisch model niet werkt?
Inferentie van parameters van een regressiemodel heeft de volgende assumpties:
1. Er is een lineaire relatie tussen y en de onafhankelijke variabelen. Dit kan worden
gecheckt met partial plots (de relatie tussen y en de onafhankelijke variabele, na
weglating van het effect van andere voorspellers)
2. De conditionele verdeling van y is normaal. Dit kan worden gecheckt met
histogrammen van residuals
3. Homoscedasticiteit: de conditionele verdeling van y heeft een constante variantie
voor alle x-waarden. Dit kan worden gecheckt met scatterplot residuals
4. Het gaat om een willekeurige steekproef

2

,Een studentized residual is een gestandaardiseerde versie van een residu: het residu
gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt
verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan
3 kan een outlier zijn.

De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de
observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met
een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Bij time series analyse
gaat het om een langer tijdsbestek, waarbij methoden uit de econometrie geschikter zijn.

Er zijn veel statistieken die het effect van een outlier meten. De residuen meten hoe ver y
valt van de trend (regressielijn). Hoe ver de verklarende variabelen van hun gemiddelden af
liggen, wordt gemeten door het leverage (h). Als observaties zowel een hoog residu hebben
als een hoog leverage, dan hebben ze veel invloed.

DFBETA beschrijft het effect van een observatie op de schattingen van de parameters.
DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de
data als een bepaalde observatie wordt verwijderd.

14.3 Hoe detecteer je multicollineariteit en wat zijn de gevolgen ervan?
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben,
dan neemt 𝑅2 relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent
niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer
toevoegen aan de predictoren. Dit heet multicollineariteit.

Door multicollineariteit worden de standaardfouten groter. Door een groter
betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variance
inflation factor (VIF). Dit is de vermenigvuldigde toename in de variantie die wordt
veroorzaakt door de correlatie tussen de verklarende variabelen. In formulevorm:
1
𝑉𝐼𝐹 =
(1 − 𝑅𝑖2 )

Om multicollineariteit te verminderen, kan slechts een deel van de variabelen gekozen
worden, variabelen toegevoegd worden of variabelen gecentreerd worden. Met factoranalyse
worden kunstmatige, nieuwe variabelen geschapen uit de bestaande variabelen waarbij
correlatie kan worden vermeden.

De standaardfout van een partiële regressiecoëfficiënt is:

Hierbij is 𝑠 = √𝑀𝑆𝐸 en 𝑅𝑖2 = de 𝑅2 die hoort bij de regressie van
𝑥𝑖 op de andere onafhankelijke variabelen.

14.4 Wat zijn de kenmerken van Generalized Linear Models?
Er zijn verschillende manieren om niet-lineaire relaties te modelleren met een lineair model:
1. Polynomiale regressie: zie §14.5
2. Monotonische non-lineaire transformaties: het transformeren van data zodat men
uitkomt op (redelijk) lineaire relaties
3. Non-lineaire regressie: logistische regressie
4. Non-parametrische regressie: geen statistiek 3 tentamenstof

Generalized Linear Models (GLM) is een brede term waaronder regressiemodellen met een
normale verdeling vallen, alternatieve modellen voor continue variabelen met een niet-
normale verdeling, en modellen met discrete (categorische) variabelen.

3

, Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een
GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een
versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode heet.
Deze methode geeft meer gewicht aan observaties met minder variabiliteit.

Een GLM heeft een linkfunctie: een vergelijking die het gemiddelde van de afhankelijke
variabele verbindt met de onafhankelijke variabelen. De formule is:
𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .

Voor binaire data ziet bovenstaande formule er als volgt uit (want als y binair is, dan is
𝑃(𝑦 = 1) het gemiddelde van 0-en en 1-en):
𝜇 𝑃̂ (𝑦 = 1)
𝑔(𝜇) = log ( ) = log ( ) = log⁡(𝑜𝑑𝑑𝑠)
1−𝜇 1 − 𝑃̂ (𝑦 = 1)

De simpelste linkfunctie is de identity link: 𝑔(𝜇) = 𝜇.

Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire
modellen: 𝑙𝑜𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .

14.5 Wat is polynomiale regressie?
Als een grafiek in hoge mate niet lineair is (bijv. curvilineair), dan wordt een polynomiale
regressiefunctie gebruikt: 𝐸(𝑦) = 𝛼 + 𝛽1 𝑥 + 𝛽2 𝑥 2 + 𝛽3 𝑥 3 + 𝛽𝑘 𝑥 𝑘 . Hierbij wordt de hoogste
macht de graad (degree) van de functie genoemd.

Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden
vormgegeven, een parabool:

Het hoogste of laagste punt van de parabool (waarop deze van
−𝛽
richting verandert) is: 𝑥 = 2𝛽1 .
2

Een quadratic function is een polynomiale functie met 2 graden.
Een cubic function is een polynomiale functie met 3 graden.
Naarmate de orde met 1 stijgt, komt er een extra curve in de
lijn. Als 𝑥 𝑘 in het model zit, moet men ook 𝑥 𝑘−1 meenemen in
het model.

𝑛 waarnemingen kunnen perfect beschreven worden door 𝑥 𝑛−1 te gebruiken. Deze perfecte
fit is echter niet bruikbaar bij de interpretatie. Meestal gaat men bij de beslissing van welke
orde te gebruiken niet verder dan 𝑥 3 . Hogere orde polynomen nemen namelijk teveel
random variatie in de data mee. Daarnaast zijn hogere orde regressiecoëfficiënten moeilijk te
interpreteren. Bij twijfel is een eenvoudiger model beter dan een ingewikkelder model.

Bij dit soort modellen is 𝑅2 de proportionele vermindering van schattingsfouten door het
gebruiken van een kwadratisch verband i.p.v. een lineair verband. Door 𝑅2 voor het
kwadratische verband te vergelijken met 𝑅2 voor het lineaire verband, kan men zien hoeveel
beter de kwadratische functie past.

Het centreren van voorspellers bij polynomiale regressie vermindert de multicollineariteit.
Daarnaast blijven 𝑦̂’s en 𝑅𝑦2 gelijk en blijven de 𝑏, 𝑠𝑟 en 𝑝𝑟 voor de hoogste-orde-term gelijk.
Bijvoorbeeld:

Gecentreerde waarden kunnen als volgt verkregen worden: 𝑥 = (𝑋 − 𝑀𝑥 ) en 𝑥 2 = (𝑋 − 𝑀𝑋 )2
etc. Hierbij is 𝑀𝑋 het gemiddelde van X.

4

€5,49

Krijg toegang tot het volledige document:

100% tevredenheidsgarantie

Direct beschikbaar na je betaling

Lees online óf als PDF

Geen vaste maandelijkse kosten

Maak kennis met de verkoper

lottekalk02

3,9

(49)

Ook beschikbaar in voordeelbundel

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven

florandouma1997 Premaster Klinische Psychologie · 10 beoordelingen

4 jaar geleden

Hoi! Je samenvatting is wel semi-prima, maar het is voor mij niet duidelijk over welk hoofdonderwerp het gaat (zoals Repeated Measures ANOVA bv). En ik mis iets over sfericiteit. Er zijn ook dingen versprongen en door elkaar heen.

3,0

1 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

lottekalk02 Rijksuniversiteit Groningen

Bekijk profiel

Volgen

Verkocht

508

Lid sinds

7 jaar

Aantal volgers

325

Documenten

Laatst verkocht

1 week geleden

3,9

49 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lottekalk02. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 41729 samenvattingen verkocht Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Samenvatting Statistiek 3 (deeltentamen 1)

Gekoppeld boek

Geschreven voor

Documentinformatie

Onderwerpen

Voorbeeld van de inhoud

Meer vakken binnen Rijksuniversiteit Groningen (RuG) > Bachelor Psychology

Ook beschikbaar in voordeelbundel

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?