100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4,6 TrustPilot
logo-home
Samenvatting

Samenvatting HCO12, correlatie en regressie II

Beoordeling
5,0
(1)
Verkocht
-
Pagina's
7
Geüpload op
25-01-2020
Geschreven in
2019/2020

Dit is een uitgebreide samenvatting van HCO12 van Yan Hautier waarin het tweede deel over correlatie en regressie behandeld wordt. Het eerste deel hiervan is in HCO11 behandeld. Onderwerpen die aan bod komen, zijn: OLS, anova tabel, df, sum of squares, mean square, F-waarde, P-waarde, vrijheidsgraden, signal, noise, SSregressie, SSerror, rapporteren, summary tabel, multiple R-squared, standaardfout, precisie, ANOVA, regressie, transformatie, multiple regression, model selectie, forward selection, backward selection, stepwise selection etc.

Meer zien Lees minder









Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
25 januari 2020
Bestand laatst geupdate op
30 januari 2020
Aantal pagina's
7
Geschreven in
2019/2020
Type
Samenvatting

Onderwerpen

Voorbeeld van de inhoud

HCO12, correlatie en regressie II
OLS, Ordinary Least Squares, stelt je in staat de intercept en slope van regressie op te stellen (zie
HCO11). De OLS methode minimaliseert de sum of squares of error (het verschil tussen de
geobserveerde en gefitte/verwachte datapunten). Je kan echter veel meer met OLS dan enkel een
regressie lijn opstellen. Het is een algemeen framework dat gebruikt wordt om data te analyseren
met normaal verdeelde residuen.
anova tabel, je kan de analysis of variance (anova) van een lineair model als volgt aanvragen:
> CP_model = lm(growth ~ tannin, data = Caterpillars)
> anova(CP_model)
De output die je dan krijgt is rechts weergegeven. Dit is
niet hetzelfde als de eerder behandelde ANOVA tabel
(let op verschil in hoofdletters). In de tabel staat
aangegeven dat groei de responsvariabele is. Verder
geeft je R je:
- Df, het aantal vrijheidsgraden. In totaal moeten je vrijheidsgraden uitkomen op 8, want 𝑛 =
9 en 𝑑𝑓 = 𝑛 − 1 = 8.
o Tannin, voor tannin heb je maar 1 df en dat komt doordat je 2 parameters wil
schatten: de intercept en de helling (slope). Je hebt dus 𝑘 = 2 en het aantal
vrijheidsgraden reken je dan vrijwel hetzelfde uit 𝑑𝑓 = 𝑘 − 1 = 1.
o Residuals, het aantal df voor de errors is het aantal vrijheidsgraden dat overblijft van
het totaal als je dftannin eraf hebt gehaald.
- Sum sq, met OLS minimaliseer je de squared verschillen tussen de geobserveerde en gefitte
datapunten. Dit levert je dan de sum of squares.
o Tannin, is de explanatory variabele en hiermee wil je de respons variabele verklaren.
De regression sum of squares is een kwantificatie van de variantie in je data die
verklaard kan worden door je regressie. In dit geval heb je een SSregressie die best hoog
is (88.817).
o Residuals, het gedeelte van de variantie dat je niet uit kan leggen door de
regressielijn (tannine) is de sum of squares van de residuals. In dit geval is de SSerror
20.072.
Je kan de OLS dus niet alleen gebruiken om de intercept en slope te berekenen, maar ook om
te kijken welk deel van de variantie je kan verklaren door het model en welk deel niet
verklaard wordt. Zie ‘OLS sum of squares’ voor een uitgebreide uitleg. Je kan je SSregressie en
SSerror niet meteen met elkaar vergelijken, want je hebt een verschil in het aantal df.
- Mean sq, je moet de sums of squares nog corrigeren naar het aantal vrijheidsgraden dat erbij
hoort:
o Tannin, hiervoor heb je maar 1 df gebruikt dus je mean square is hetzelfde als je sum
of square.
o Residuals, in dit geval heb je 7 vrijheidsgraden gebruikt om je sum of squares te
berekenen en dat corrigeer je door 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 /𝑑𝑓𝑒𝑟𝑟𝑜𝑟 te doen. Dat levert je een
residual mean square van 2.867.
Nu je gecorrigeerd hebt voor de hoeveelheid informatie die je had om de sum of squares te
berekenen, kan je een signal-to-noise ratio berekenen.
- F value, dit is de signal-to-noise ratio. Hoe groter deze is, hoe groter het deel van de variantie
is dat door je regressielijn verklaard wordt en dan heb je een sterke relatie. De F-waarde
wordt berekend door 𝑀𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 /𝑀𝑆𝑒𝑟𝑟𝑜𝑟 .
- Pr(>F), hoe hoger de signaal tot ruis ratio is, hoe hoger de F-waarde is en hoe lager de P-
waarde is. In dit geval heb je een hele kleine P-waarde. Als je P-waarde kleiner is dan 0.05
kan je de nulhypothese verwerpen dat er geen relatie is tussen je explanatory en respons
variabele.

, Vrijheidsgraden, is nogal een vaag begrip, maar nu volgt een voorbeeld wat het misschien wat
duidelijker maakt. Bij de volgende som 𝑎 + 𝑏 + 𝑐 = 10 heb je 3 getallen die allemaal vrij kunnen
variëren tussen -∞ en +∞. Wanneer je de som aanpast naar 5 + 𝑏 + 𝑐 = 10 heb je 3 getallen
waarvan 2 vrij kunnen variëren, maar in het geval van 5 + 3 + 𝑐 = 10 is het laatste getal niet meer
vrij. C is nu gefixeerd en dat is dus afhankelijk van de andere getallen. Het aantal vrijheidsgraden is
het aantal getallen dat vrij kan variëren totdat de laatste gefixeerd is. In dit voorbeeld krijg je dan
𝑛 = 3, 𝑑𝑓 = 𝑛 − 1 = 2.
OLS sum of squares, eerst moet de
totale variantie in de datapunten
berekend worden en daarna kan je deze
in 2 delen verdelen:
1. Signal, het gedeelte van de
variantie dat verklaard kan
worden door het model
(regression sum of squares)
wordt signal genoemd.
2. Noise, het gedeelte van de
variantie dat niet verklaard kan
worden door het model (error/residual sum of squares) wordt noise genoemd.
Rechts zie je schematisch weergegeven hoe je de regression sum of squares (signal) en residual sum
of squares (noise) berekend. Opgeteld leveren deze SStotal. Je kan de totale sum of squares ook in 1
keer berekenen door te kijken naar de verschillen tussen je datapunten en de grand mean. In het
geval van de grand mean is er geen relatie en heb je als het ware een regressielijn met een helling
van 0 (nulhypothese). Wanneer je de totale sum of squares in 2 delen berekend, doe je dat als volgt:
- SSregressie, reken je uit door naar de verschillen te kijken tussen je grand mean en je gefitte
data. Als je regressielijn een hele kleine helling heeft, zal SSregressie heel klein zijn en de
variantie die door het model verklaard wordt ook klein. Bij een sterk signal ligt je helling juist
ver van 0.
- SSerror, je regressielijn zal nooit perfect door al je datapunten lopen, waardoor je niet alle
variantie kan verklaren door je model. Om te kwantificeren welk deel van de variantie niet
verklaard wordt door de regressielijn ga je kijken naar de verschillen je gefitte en
geobserveerde data.
Tot slot moet je de ratio van signal tot noise kwantificeren om te kijken of de regressie van grote
betekenis is.
Rapporteren, in het voorbeeld van de
anova tabel kwamen we uit op een P-
waarde die kleiner is dan 0.05,
waardoor we de nulhypothese mogen verwerpen. Rechts is te zien hoe je dat netjes rapporteert. Je
moet aangeven dat je een F-test hebt gedaan en welke F- en P-waarde je daarbij gevonden hebt.
Verder geef je ook aan hoeveel vrijheidsgraden je gebruikt hebt door 𝐹𝑑𝑓𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 ,𝑑𝑓𝑒𝑟𝑟𝑜𝑟 =...
F-statistiek voor regressie, rechts zie je nog eens samengevat de
F-statistiek van een regressie weergegeven.
Analysis of variance table, hieronder zie je nog eens schematisch
wat een anova tabel je allemaal laat zien.




Anova & summary tabel, op de volgende pagina zie je zowel de anova als summary tabel van onze
rupsendata. Je ziet een paar overeenkomsten:

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
4 jaar geleden

5,0

1 beoordelingen

5
1
4
0
3
0
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
brittheijmans Universiteit Utrecht
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
634
Lid sinds
8 jaar
Aantal volgers
290
Documenten
381
Laatst verkocht
10 maanden geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4,4

533 beoordelingen

5
308
4
149
3
53
2
4
1
19

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen