100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Samenvatting Statistiek 3 (deeltentamen 1)

Beoordeling
3,0
(1)
Verkocht
2
Pagina's
7
Geüpload op
14-03-2020
Geschreven in
2019/2020

Samenvatting voor het eerste deeltentamen van Statistiek 3. De samenvatting bestaat uit H14 en H15 van het boek van Agresti en is aangevuld met de stof uit de colleges. Opmerking: alle stof van statistiek 2 hoort ook bij de tentamenstof voor dit deeltentamen! Zie mijn andere samenvattingen van statistiek 2 voor deze stof.

Meer zien Lees minder











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Heel boek samengevat?
Nee
Wat is er van het boek samengevat?
H14 en h15
Geüpload op
14 maart 2020
Bestand laatst geupdate op
6 juni 2021
Aantal pagina's
7
Geschreven in
2019/2020
Type
Samenvatting

Voorbeeld van de inhoud

Samenvatting Statistiek 3 deeltentamen 1
*Alle statistiek 2 stof is ook tentamenstof!*


Hoofdstuk 14: Hoe construeer je een model voor multipele regressie van extreme of
sterk gecorreleerde data?
14.1 Welke strategieën zijn er voor het selecteren van een model?
Er kunnen allerlei strategieën zijn om onafhankelijke variabelen wel of niet toe te voegen aan
een model. Er zijn 3 basisregels voor het maken van een selectie:
1. Selecteer relevante variabelen zodat het model theoretisch bruikbaar wordt, met
zinvolle controlevariabelen en mediërende variabelen
2. Selecteer voldoende variabelen om voldoende power te verkrijgen
3. Houd het model zo eenvoudig mogelijk
Het model blijft overzichtelijk als de onafhankelijke variabelen een hoge correlatie hebben
met de afhankelijke variabele, maar niet met elkaar.

Bij hiërarchische regressieanalyse worden een serie regressieanalyses uitgevoerd door sets
van onafhankelijke variabelen stap voor stap toe te voegen of te verwijderen. Per stap
worden de correlaties en de regressiecoëfficiënten geanalyseerd.

Een hiërarchische regressieanalyse kan op 2 manieren uitgevoerd worden:
1. Handmatig: het 1-voor-1 toevoegen van onafhankelijke variabelen kan met de knop
‘Enter’ in SPSS. Hierbij moet de optie ‘block’ gebruikt worden. Het 1-voor-1
verwijderen van onafhankelijke variabelen kan met de knop ‘Remove’ in SPSS.
Hierbij moet ook de optie ‘block’ gebruikt worden
2. Automatisch (m.b.v. software): hier zijn 3 strategieën voor:
- Backward elimination: begint met een ‘verzadigd’ model met alle
onafhankelijke variabelen. 1-voor-1 worden er onafhankelijke variabelen
verwijderd uit het model, waarbij telkens de afname in 𝑅2 wordt bepaald. De
onafhankelijke variabele met de kleinste 𝑠𝑟 2 wordt geselecteerd, waarbij
gekeken wordt of 𝑅2 significant afneemt bij het verwijderen van deze
variabele. Als de p-waarde niet significant is, wordt die variabele uit het model
verwijderd en wordt hetzelfde proces nogmaals uitgevoerd. Bij een
significante p-waarde wordt de backward elimination gestopt
- Forward selection: begint met een ‘leeg’ model (𝑦̂ = 𝑎) waarbij elke niet-
gebruikte onafhankelijke variabele 1-voor-1 wordt toegevoegd aan het model.
Hierbij wordt elke keer de 𝑠𝑟 2 bepaald. De significantie van de onafhankelijke
variabele met de grootste 𝑠𝑟 2 wordt getoetst, waarbij bij een significant
resultaat de onafhankelijke variabele wordt toegevoegd
- Stepwise regression: eerst vindt er forward selection plaats. Vervolgens wordt
er getoetst of de onafhankelijke variabelen in het model niet-significante 𝑠𝑟𝑖2
hebben. Zo ja, dan worden deze onafhankelijke variabelen verwijderd

Er zijn een aantal risico’s aan het automatisch uitvoeren van een hiërarchische regressie:
- Bij veel onafhankelijke variabelen zijn de verschillen tussen 𝑠𝑟𝑖 ’s klein
- Kans speelt een (te) grote rol bij de selectie van onafhankelijke variabelen
- Het is steekproefafhankelijk
- Verschillende methoden leveren verschillende resultaten
- Het leidt niet noodzakelijk tot praktische/verstandige modellen

Door bovenstaande risico’s moeten er theoretische argumenten gebruikt worden voor de
selectie van onafhankelijke variabelen, moet men voorzichtig zijn met interpretaties, moet
𝑛⁄ > 40 zijn (met 𝑝 = totaal aantal onafhankelijke variabelen beschikbaar) en moet cross-
𝑝
validatie gebruikt worden (een deel van de data wordt gebruikt om het model te schatten en
het andere deel om te onderzoeken hoe goed de voorspelling is).

1

,Bij cross-validatie ontstaat vanuit de residuen van de voorspelde waarden een predicted
residual sum of squares (PRESS):
𝑃𝑅𝐸𝑆𝑆 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 Hoe kleiner de PRESS, hoe beter de voorspellingen zijn.

Omdat de PRESS gebruik maakt van een som van kwadraten, wordt er een normale
verdeling veronderstelt. Een methode dat ook niet-normale verdelingen aankan, is het
Akaike information criterion (AIC). Deze methode selecteert het model waarbij 𝑦̂𝑖 zo dicht
mogelijk bij 𝐸(𝑦𝑖 ) ligt (gecorrigeerd voor het aantal variabelen in het model). Hoe kleiner de
AIC, hoe beter de voorspellingen.

De hiërarchische analyse maakt gebruik van de opsplitsing van 𝑅2 met semi-partiële
correlaties (𝑠𝑟). 2 voorbeelden van zo’n analyse:

De volgorde van de onafhankelijke variabelen is
dus van belang, want deze 2 hiërarchische
regressieanalyses zijn niet hetzelfde.




Je kunt toetsen of de set extra variabelen van het reduced model (r) naar het complete
model (C) significant bijdraagt met:
Hierbij is 𝑑𝑓1 het aantal extra variabelen van model r naar model C en
𝑑𝑓2 = 𝑛 − 𝑝 − 1 van model C waarbij p = het aantal onafhankelijke
variabelen.

Als er 1 extra onafhankelijke variabele is toegevoegd, dan geldt 𝐹 = 𝑡 2 . Hierbij is 𝑡 2 de
gekwadrateerde waarde van de t-statistic van de betreffende toegevoegde onafhankelijke
variabele.

Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet
worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat
open op zoek naar verklaringen van een fenomeen.

Om een model te kiezen met een hoge voorspellende power maar met een gering aantal
variabelen, wordt de adjusted 𝑅2 gebruikt:
De adjusted 𝑅2 neemt af als een overbodige
variabele wordt toegevoegd.

14.2 Waaraan zie je dat een statistisch model niet werkt?
Inferentie van parameters van een regressiemodel heeft de volgende assumpties:
1. Er is een lineaire relatie tussen y en de onafhankelijke variabelen. Dit kan worden
gecheckt met partial plots (de relatie tussen y en de onafhankelijke variabele, na
weglating van het effect van andere voorspellers)
2. De conditionele verdeling van y is normaal. Dit kan worden gecheckt met
histogrammen van residuals
3. Homoscedasticiteit: de conditionele verdeling van y heeft een constante variantie
voor alle x-waarden. Dit kan worden gecheckt met scatterplot residuals
4. Het gaat om een willekeurige steekproef




2

,Een studentized residual is een gestandaardiseerde versie van een residu: het residu
gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt
verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan
3 kan een outlier zijn.

De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de
observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met
een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Bij time series analyse
gaat het om een langer tijdsbestek, waarbij methoden uit de econometrie geschikter zijn.

Er zijn veel statistieken die het effect van een outlier meten. De residuen meten hoe ver y
valt van de trend (regressielijn). Hoe ver de verklarende variabelen van hun gemiddelden af
liggen, wordt gemeten door het leverage (h). Als observaties zowel een hoog residu hebben
als een hoog leverage, dan hebben ze veel invloed.

DFBETA beschrijft het effect van een observatie op de schattingen van de parameters.
DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de
data als een bepaalde observatie wordt verwijderd.

14.3 Hoe detecteer je multicollineariteit en wat zijn de gevolgen ervan?
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben,
dan neemt 𝑅2 relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent
niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer
toevoegen aan de predictoren. Dit heet multicollineariteit.

Door multicollineariteit worden de standaardfouten groter. Door een groter
betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variance
inflation factor (VIF). Dit is de vermenigvuldigde toename in de variantie die wordt
veroorzaakt door de correlatie tussen de verklarende variabelen. In formulevorm:
1
𝑉𝐼𝐹 =
(1 − 𝑅𝑖2 )

Om multicollineariteit te verminderen, kan slechts een deel van de variabelen gekozen
worden, variabelen toegevoegd worden of variabelen gecentreerd worden. Met factoranalyse
worden kunstmatige, nieuwe variabelen geschapen uit de bestaande variabelen waarbij
correlatie kan worden vermeden.

De standaardfout van een partiële regressiecoëfficiënt is:

Hierbij is 𝑠 = √𝑀𝑆𝐸 en 𝑅𝑖2 = de 𝑅2 die hoort bij de regressie van
𝑥𝑖 op de andere onafhankelijke variabelen.

14.4 Wat zijn de kenmerken van Generalized Linear Models?
Er zijn verschillende manieren om niet-lineaire relaties te modelleren met een lineair model:
1. Polynomiale regressie: zie §14.5
2. Monotonische non-lineaire transformaties: het transformeren van data zodat men
uitkomt op (redelijk) lineaire relaties
3. Non-lineaire regressie: logistische regressie
4. Non-parametrische regressie: geen statistiek 3 tentamenstof

Generalized Linear Models (GLM) is een brede term waaronder regressiemodellen met een
normale verdeling vallen, alternatieve modellen voor continue variabelen met een niet-
normale verdeling, en modellen met discrete (categorische) variabelen.



3

, Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een
GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een
versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode heet.
Deze methode geeft meer gewicht aan observaties met minder variabiliteit.

Een GLM heeft een linkfunctie: een vergelijking die het gemiddelde van de afhankelijke
variabele verbindt met de onafhankelijke variabelen. De formule is:
𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .

Voor binaire data ziet bovenstaande formule er als volgt uit (want als y binair is, dan is
𝑃(𝑦 = 1) het gemiddelde van 0-en en 1-en):
𝜇 𝑃̂ (𝑦 = 1)
𝑔(𝜇) = log ( ) = log ( ) = log⁡(𝑜𝑑𝑑𝑠)
1−𝜇 1 − 𝑃̂ (𝑦 = 1)

De simpelste linkfunctie is de identity link: 𝑔(𝜇) = 𝜇.

Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire
modellen: 𝑙𝑜𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .

14.5 Wat is polynomiale regressie?
Als een grafiek in hoge mate niet lineair is (bijv. curvilineair), dan wordt een polynomiale
regressiefunctie gebruikt: 𝐸(𝑦) = 𝛼 + 𝛽1 𝑥 + 𝛽2 𝑥 2 + 𝛽3 𝑥 3 + 𝛽𝑘 𝑥 𝑘 . Hierbij wordt de hoogste
macht de graad (degree) van de functie genoemd.

Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden
vormgegeven, een parabool:

Het hoogste of laagste punt van de parabool (waarop deze van
−𝛽
richting verandert) is: 𝑥 = 2𝛽1 .
2


Een quadratic function is een polynomiale functie met 2 graden.
Een cubic function is een polynomiale functie met 3 graden.
Naarmate de orde met 1 stijgt, komt er een extra curve in de
lijn. Als 𝑥 𝑘 in het model zit, moet men ook 𝑥 𝑘−1 meenemen in
het model.

𝑛 waarnemingen kunnen perfect beschreven worden door 𝑥 𝑛−1 te gebruiken. Deze perfecte
fit is echter niet bruikbaar bij de interpretatie. Meestal gaat men bij de beslissing van welke
orde te gebruiken niet verder dan 𝑥 3 . Hogere orde polynomen nemen namelijk teveel
random variatie in de data mee. Daarnaast zijn hogere orde regressiecoëfficiënten moeilijk te
interpreteren. Bij twijfel is een eenvoudiger model beter dan een ingewikkelder model.

Bij dit soort modellen is 𝑅2 de proportionele vermindering van schattingsfouten door het
gebruiken van een kwadratisch verband i.p.v. een lineair verband. Door 𝑅2 voor het
kwadratische verband te vergelijken met 𝑅2 voor het lineaire verband, kan men zien hoeveel
beter de kwadratische functie past.

Het centreren van voorspellers bij polynomiale regressie vermindert de multicollineariteit.
Daarnaast blijven 𝑦̂’s en 𝑅𝑦2 gelijk en blijven de 𝑏, 𝑠𝑟 en 𝑝𝑟 voor de hoogste-orde-term gelijk.
Bijvoorbeeld:

Gecentreerde waarden kunnen als volgt verkregen worden: 𝑥 = (𝑋 − 𝑀𝑥 ) en 𝑥 2 = (𝑋 − 𝑀𝑋 )2
etc. Hierbij is 𝑀𝑋 het gemiddelde van X.


4

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
4 jaar geleden

Hoi! Je samenvatting is wel semi-prima, maar het is voor mij niet duidelijk over welk hoofdonderwerp het gaat (zoals Repeated Measures ANOVA bv). En ik mis iets over sfericiteit. Er zijn ook dingen versprongen en door elkaar heen.

3,0

1 beoordelingen

5
0
4
0
3
1
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
lottekalk02 Rijksuniversiteit Groningen
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
508
Lid sinds
7 jaar
Aantal volgers
325
Documenten
32
Laatst verkocht
1 week geleden

3,9

49 beoordelingen

5
11
4
27
3
9
2
1
1
1

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen