Summary

Samenvatting HCO18, generalized linear model II

Name: HCO18, generalized linear model II
SKU: doc_644320
Rating: 5.00 (1 reviews)
Author: brittheijmans

Rating

5.0

(1)

Sold

Pages

Uploaded on

25-01-2020

Written in

2019/2020

Dit is een uitgebreide hoorcollege van het laatste hoorcollege door Yan Hautier dat over generalized models ging. Dit is een aansluitend college op HCO17 waar het eerste deel over generalized linear models behandeld is. Onderwerpen die aan bod komen, zijn: binaire data, proporties, percentages, link, family, logistische regressie, binomial, logit, anova tabel, summary tabel, aannames, dispersie parameter, deviance, overdispersie, underdispersion, quasi-maximum likelihood, glm(), rapporteren, voorspellen, terug transformeren, count data, poisson, log etc.

Show more Read less

Institution

Course

Whoops! We can’t load your doc right now. Try again or contact support.

Report Copyright Violation

Written for

Institution: Universiteit Utrecht (UU)
Study: Biologie
Course: Voortgezette statistiek en R

All documents for this subject (21)

Document information

Uploaded on: January 25, 2020
File latest updated on: January 31, 2020
Number of pages: 7
Written in: 2019/2020
Type: Summary

Subjects

binaire data
proporties
percentages
link
family
logistische regressie
binomial
logit
anova tabel
summary tabel
aannames
dispersie parameter
deviance
overdispersie
underdispersion
quasi maximum likelih

Content preview

HCO18, generalized linear model II
Binaire data, in HCO17 hebben we al naar glm() functies gekeken met binaire data. Hierbij heeft de
data een waarde van 0 of 1 en niks anders.
Proportie/percentage data, wanneer je met proporties te maken hebt, kan je data tussen 0 en 1
liggen. Dit is dus weer net wat anders dan binaire data. Verder worden proporties en percentages
nogal eens door elkaar gehaald doordat een percentage eigenlijk een proportie keer 100 is. Bij
proportie/percentage data weet je altijd hoe vaak iets gebeurt is én hoe vaak het niet gebeurt is.
Verder bestaat je data uit integers (hele getallen). Verder is het voor R noodzakelijk om je respons
variabele in 2 kolommen in te voeren, zodat R snapt dat je naar proportie data aan het kijken bent en
niet naar binaire data. Je gebruikt dan 1 kolom om te specificeren hoe vaak iets gebeurt is (p) en de
andere voor hoe vaak het niet gebeurt is (q=1-p). Tot slot gebruik je voor proporties de binomiaal
verdeling doordat je data begrensd is van 0 tot 1 en de residuen dus niet normaal verdeeld zijn.
Twee stappen glm(), bij een glm() voer je eigenlijk 2 stappen uit:
- Link functie, maakt het mogelijk de voorspellingen (fitted values) op een lineaire schaal te
modelleren. In het geval van proporties gebruik je de logit link.
- Family functie, maakt het mogelijk ongelijke variantie te modelleren. In het geval van
proportie data gebruik je de binomiaal verdeling als familie.
Logistic regression, bij proportie data heb je met een
logistische regressie te maken en deze is niet lineair op
de originele schaal. Dat komt doordat die afvlakt bij de
brengezing van 0 en 1. Doordat deze relatie niet lineair
is, kan je ook geen helling bepalen. Door link = ’logit’
in je glm() te zetten, kan je de sigmoïdale logistische
relatie omzetten in een lineaire relatie zonder de data
te transformeren. Het enige wat je hierbij doet is de
schaal veranderen naar een log schaal. Deze schaal is
echter moeilijk te interpreteren dus om je gefitte data te kunnen interpreteren, zal je weer moeten
terug transformeren.
Normaal verdeling, je kan je afvragen
waarom je dan niet alleen een logit
transformatie toepast en de resulterende
logits analyseert met een normaal verdeling.
Dat mag echter niet, omdat je variantie niet
constant. Deze is namelijk groter bij
intermediaire waardes dan richting de
extremen (0 en 1). In plaats van de normaal
verdeling gebruik je dan ook de binomiaal
verdeling. Rechts zie je met een 95% BHI
(blauw) aangegeven, waarom de variantie niet homogeen verdeeld is. Bij een proportie waarde van 1
kan je geen grotere waardes hebben, maar enkel lagere waardes en het BHI ligt er dus compleet
onder, terwijl dat bij 0 andersom is.
2-staps proportie analyse met glm(), gaat dus als volgt:
1. Modelleer de voorspellingen en gebruik daarbij logit om de proporties (integers tussen 0 en
1) tot een lineaire regressie (continue tussen -∞ en +∞) transformeren.
2. Modelleer de variantie (errors) met gebruik van de binomiaal verdeling om er rekening mee
te houden dat de variantie maximaal is bij de intermediaire proporties (0.5) en afneemt naar
de extremen (0 en 1).
Logistische regressie met proporties, je hebt de opdracht gekregen om van een insecticide te
onderzoeken bij welke dosis 50% van de insecten doodgaat (d50). Op de volgende pagina zie je je
data weergegeven. Bij een dosis van 1% heb je dus 0 dode insecten op een totaal van 376, terwijl je

, bij een dosis van 97% alle insecten hebt gedood van de
1049 die er waren. Je kan een kolom maken met de
proporties door de volgende regel aan code in te voeren:
> bioassay$p = bioassay$dead/bioassay$batch
Deze proporties kan je dan gebruiken om een grafiek te
plotten van je proporties zodat je een idee hebt van je
data. Nu je duidelijk gevisualiseerd hebt dat de proportie
aan dode insecten toeneemt met de dosis, kan je R aan
het werken zetten. Zoals eerder vermeld is, heeft R
echter niks aan proporties, want hij ‘snapt’ niet wat die ermee moet en zal
het als binaire data beschouwen.
Logistische proportie regressie in R, als je te maken hebt met de volgende variabelen:
- y: proportie respons: een gecombineerde variabele van integers met het aantal succes en het
aantal falen.
- x: continue explanatory variabele
Voer je de glm() als volgt in:
𝑔𝑙𝑚(𝑐𝑏𝑖𝑛𝑑(𝑠𝑢𝑐𝑒𝑠𝑠, 𝑓𝑎𝑖𝑙𝑢𝑟𝑒)~𝑥, 𝑓𝑎𝑚𝑖𝑙𝑦 = 𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑙𝑖𝑛𝑘 =′ 𝑙𝑜𝑔𝑖𝑡 ′ ))
De logit link wordt by default al gebruikt als link functie voor de binomiaal verdeling dus je zou het
niet perse te hoeven coderen. Verder zie je dat de respons variabele als twee kolommen invoert
zodat R weet dat je hier met proporties te maken hebt en R per proportie ook de totale
groepsgrootte weet, want zoals bij de data te zien is, verschilt deze per dosis.
Output logistische proportie regressie R, rechts zie je de
anova en summary tabel van je glm() functie. In de anova
tabel zie je dat je met een significante regressie te maken
hebt. Uit de summary tabel kan je dan de magnitude,
richting en precisie van deze regressie halen, maar houd er
wel rekening mee dat de summary tabel in logit schaal is
gegeven en je deze dus nog terug moet transformeren.
Aanname checken, voordat je de data uit je summary
tabel gaat interpreteren, moet je eerst kijken of er wel aan
de aannames voldaan wordt. Uit het vorige HCO is
gebleken dat de deviance* ongeveer een chi-square
verdeling volgt. Deze verdeling wordt gekarakteriseerd
door 1 parameter: het aantal vrijheidsgraden. Hierbij is
het gemiddelde van de verdeling gelijk aan het aantal df en is de variantie gelijk aan
2*df. Een van de aannames van GLMs is dat de residual variance ongeveer gelijk is
aan het aantal vrijheidsgraden. De ratio van residual deviance tot het aantal
vrijheidsgraden, ook wel de dispersie parameter genoemd, moet dus ongeveer
gelijk zijn aan 1.
*Is het verschil tussen je nul model en je proposed model (zie HCO17.)
Dispersie parameter, de summary tabel die hierboven te zien is, is eigenlijk niet
compleet. Rechts is de volledige summary tabel
te zien en hiermee kan je de dispersie
parameter berekenen. Je ziet namelijk
aangegeven hoeveel residual deviance er is en
hoeveel vrijheidsgraden daarbij horen. De chi-
square distributie gaat uit van een dispersie
parameter van 1, maar in dit geval heb je een
dispersie parameter van 1.9. Je hebt hier dus te
maken met overdispersion.
Overdispersion, wanneer de residual deviance
groter is dan het aantal vrijheidsgraden en je

$4.87

Get access to the full document:

100% satisfaction guarantee

Immediately available after payment

Both online and in PDF

No strings attached

Get to know the seller

brittheijmans

4.4

(533)

Reviews from verified buyers

Showing all reviews

LaureSchippers Moleculaire Levenswetenschappen · 167 reviews

4 year ago

5.0

1 reviews

Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

brittheijmans Universiteit Utrecht

View profile

Sold

634

Member since

8 year

Number of followers

290

Documents

381

Last sold

10 months ago

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4.4

533 reviews

308

149

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller brittheijmans. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $4.87. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 57275 documents were sold in the last 30 days Founded in 2010, the go-to place to buy study notes for 16 years now

Samenvatting HCO18, generalized linear model II

Written for

Document information

Subjects

Content preview

Reviews from verified buyers

Get to know the seller

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Didn't get what you expected? Choose another document

Pay as you like, start learning right away

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying these notes from?

Will I be stuck with a subscription?

Can Stuvia be trusted?