Samenvatting

Samenvatting HCO12, correlatie en regressie II

Name: HCO12, correlatie en regressie II
SKU: doc_644328
Rating: 5.00 (1 reviews)
Author: brittheijmans

Beoordeling

5,0

(1)

Verkocht

Pagina's

Geüpload op

25-01-2020

Geschreven in

2019/2020

Dit is een uitgebreide samenvatting van HCO12 van Yan Hautier waarin het tweede deel over correlatie en regressie behandeld wordt. Het eerste deel hiervan is in HCO11 behandeld. Onderwerpen die aan bod komen, zijn: OLS, anova tabel, df, sum of squares, mean square, F-waarde, P-waarde, vrijheidsgraden, signal, noise, SSregressie, SSerror, rapporteren, summary tabel, multiple R-squared, standaardfout, precisie, ANOVA, regressie, transformatie, multiple regression, model selectie, forward selection, backward selection, stepwise selection etc.

Meer zien Lees minder

Instelling

Vak

Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Meld schending auteursrecht

Geschreven voor

Instelling: Universiteit Utrecht (UU)
Studie: Biologie
Vak: Voortgezette statistiek en R

Alle documenten voor dit vak (21)

Documentinformatie

Geüpload op: 25 januari 2020
Bestand laatst geupdate op: 30 januari 2020
Aantal pagina's: 7
Geschreven in: 2019/2020
Type: Samenvatting

Onderwerpen

ols
anova tabel
sum of squares
mean square
f waarde
p waarde
vrijheidsgraden
signal
noise
ssregressie
sserror
rapporteren
summary tabel
multiple r squared
standaardfout
precisie
anova
regressie
tra
df

Voorbeeld van de inhoud

HCO12, correlatie en regressie II
OLS, Ordinary Least Squares, stelt je in staat de intercept en slope van regressie op te stellen (zie
HCO11). De OLS methode minimaliseert de sum of squares of error (het verschil tussen de
geobserveerde en gefitte/verwachte datapunten). Je kan echter veel meer met OLS dan enkel een
regressie lijn opstellen. Het is een algemeen framework dat gebruikt wordt om data te analyseren
met normaal verdeelde residuen.
anova tabel, je kan de analysis of variance (anova) van een lineair model als volgt aanvragen:
> CP_model = lm(growth ~ tannin, data = Caterpillars)
> anova(CP_model)
De output die je dan krijgt is rechts weergegeven. Dit is
niet hetzelfde als de eerder behandelde ANOVA tabel
(let op verschil in hoofdletters). In de tabel staat
aangegeven dat groei de responsvariabele is. Verder
geeft je R je:
- Df, het aantal vrijheidsgraden. In totaal moeten je vrijheidsgraden uitkomen op 8, want 𝑛 =
9 en 𝑑𝑓 = 𝑛 − 1 = 8.
o Tannin, voor tannin heb je maar 1 df en dat komt doordat je 2 parameters wil
schatten: de intercept en de helling (slope). Je hebt dus 𝑘 = 2 en het aantal
vrijheidsgraden reken je dan vrijwel hetzelfde uit 𝑑𝑓 = 𝑘 − 1 = 1.
o Residuals, het aantal df voor de errors is het aantal vrijheidsgraden dat overblijft van
het totaal als je dftannin eraf hebt gehaald.
- Sum sq, met OLS minimaliseer je de squared verschillen tussen de geobserveerde en gefitte
datapunten. Dit levert je dan de sum of squares.
o Tannin, is de explanatory variabele en hiermee wil je de respons variabele verklaren.
De regression sum of squares is een kwantificatie van de variantie in je data die
verklaard kan worden door je regressie. In dit geval heb je een SSregressie die best hoog
is (88.817).
o Residuals, het gedeelte van de variantie dat je niet uit kan leggen door de
regressielijn (tannine) is de sum of squares van de residuals. In dit geval is de SSerror
20.072.
Je kan de OLS dus niet alleen gebruiken om de intercept en slope te berekenen, maar ook om
te kijken welk deel van de variantie je kan verklaren door het model en welk deel niet
verklaard wordt. Zie ‘OLS sum of squares’ voor een uitgebreide uitleg. Je kan je SSregressie en
SSerror niet meteen met elkaar vergelijken, want je hebt een verschil in het aantal df.
- Mean sq, je moet de sums of squares nog corrigeren naar het aantal vrijheidsgraden dat erbij
hoort:
o Tannin, hiervoor heb je maar 1 df gebruikt dus je mean square is hetzelfde als je sum
of square.
o Residuals, in dit geval heb je 7 vrijheidsgraden gebruikt om je sum of squares te
berekenen en dat corrigeer je door 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 /𝑑𝑓𝑒𝑟𝑟𝑜𝑟 te doen. Dat levert je een
residual mean square van 2.867.
Nu je gecorrigeerd hebt voor de hoeveelheid informatie die je had om de sum of squares te
berekenen, kan je een signal-to-noise ratio berekenen.
- F value, dit is de signal-to-noise ratio. Hoe groter deze is, hoe groter het deel van de variantie
is dat door je regressielijn verklaard wordt en dan heb je een sterke relatie. De F-waarde
wordt berekend door 𝑀𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 /𝑀𝑆𝑒𝑟𝑟𝑜𝑟 .
- Pr(>F), hoe hoger de signaal tot ruis ratio is, hoe hoger de F-waarde is en hoe lager de P-
waarde is. In dit geval heb je een hele kleine P-waarde. Als je P-waarde kleiner is dan 0.05
kan je de nulhypothese verwerpen dat er geen relatie is tussen je explanatory en respons
variabele.

, Vrijheidsgraden, is nogal een vaag begrip, maar nu volgt een voorbeeld wat het misschien wat
duidelijker maakt. Bij de volgende som 𝑎 + 𝑏 + 𝑐 = 10 heb je 3 getallen die allemaal vrij kunnen
variëren tussen -∞ en +∞. Wanneer je de som aanpast naar 5 + 𝑏 + 𝑐 = 10 heb je 3 getallen
waarvan 2 vrij kunnen variëren, maar in het geval van 5 + 3 + 𝑐 = 10 is het laatste getal niet meer
vrij. C is nu gefixeerd en dat is dus afhankelijk van de andere getallen. Het aantal vrijheidsgraden is
het aantal getallen dat vrij kan variëren totdat de laatste gefixeerd is. In dit voorbeeld krijg je dan
𝑛 = 3, 𝑑𝑓 = 𝑛 − 1 = 2.
OLS sum of squares, eerst moet de
totale variantie in de datapunten
berekend worden en daarna kan je deze
in 2 delen verdelen:
1. Signal, het gedeelte van de
variantie dat verklaard kan
worden door het model
(regression sum of squares)
wordt signal genoemd.
2. Noise, het gedeelte van de
variantie dat niet verklaard kan
worden door het model (error/residual sum of squares) wordt noise genoemd.
Rechts zie je schematisch weergegeven hoe je de regression sum of squares (signal) en residual sum
of squares (noise) berekend. Opgeteld leveren deze SStotal. Je kan de totale sum of squares ook in 1
keer berekenen door te kijken naar de verschillen tussen je datapunten en de grand mean. In het
geval van de grand mean is er geen relatie en heb je als het ware een regressielijn met een helling
van 0 (nulhypothese). Wanneer je de totale sum of squares in 2 delen berekend, doe je dat als volgt:
- SSregressie, reken je uit door naar de verschillen te kijken tussen je grand mean en je gefitte
data. Als je regressielijn een hele kleine helling heeft, zal SSregressie heel klein zijn en de
variantie die door het model verklaard wordt ook klein. Bij een sterk signal ligt je helling juist
ver van 0.
- SSerror, je regressielijn zal nooit perfect door al je datapunten lopen, waardoor je niet alle
variantie kan verklaren door je model. Om te kwantificeren welk deel van de variantie niet
verklaard wordt door de regressielijn ga je kijken naar de verschillen je gefitte en
geobserveerde data.
Tot slot moet je de ratio van signal tot noise kwantificeren om te kijken of de regressie van grote
betekenis is.
Rapporteren, in het voorbeeld van de
anova tabel kwamen we uit op een P-
waarde die kleiner is dan 0.05,
waardoor we de nulhypothese mogen verwerpen. Rechts is te zien hoe je dat netjes rapporteert. Je
moet aangeven dat je een F-test hebt gedaan en welke F- en P-waarde je daarbij gevonden hebt.
Verder geef je ook aan hoeveel vrijheidsgraden je gebruikt hebt door 𝐹𝑑𝑓𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 ,𝑑𝑓𝑒𝑟𝑟𝑜𝑟 =...
F-statistiek voor regressie, rechts zie je nog eens samengevat de
F-statistiek van een regressie weergegeven.
Analysis of variance table, hieronder zie je nog eens schematisch
wat een anova tabel je allemaal laat zien.

Anova & summary tabel, op de volgende pagina zie je zowel de anova als summary tabel van onze
rupsendata. Je ziet een paar overeenkomsten:

€3,99

Krijg toegang tot het volledige document:

100% tevredenheidsgarantie

Direct beschikbaar na je betaling

Lees online óf als PDF

Geen vaste maandelijkse kosten

Maak kennis met de verkoper

brittheijmans

4,4

(533)

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven

LaureSchippers Moleculaire Levenswetenschappen · 167 beoordelingen

4 jaar geleden

5,0

1 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

brittheijmans Universiteit Utrecht

Bekijk profiel

Volgen

Verkocht

634

Lid sinds

8 jaar

Aantal volgers

290

Documenten

381

Laatst verkocht

10 maanden geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4,4

533 beoordelingen

308

149

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 57275 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Samenvatting HCO12, correlatie en regressie II

Geschreven voor

Documentinformatie

Onderwerpen

Voorbeeld van de inhoud

Meer vakken binnen Universiteit Utrecht (UU) > Biologie

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?