OLS, Ordinary Least Squares, stelt je in staat de intercept en slope van regressie op te stellen (zie
HCO11). De OLS methode minimaliseert de sum of squares of error (het verschil tussen de
geobserveerde en gefitte/verwachte datapunten). Je kan echter veel meer met OLS dan enkel een
regressie lijn opstellen. Het is een algemeen framework dat gebruikt wordt om data te analyseren
met normaal verdeelde residuen.
anova tabel, je kan de analysis of variance (anova) van een lineair model als volgt aanvragen:
> CP_model = lm(growth ~ tannin, data = Caterpillars)
> anova(CP_model)
De output die je dan krijgt is rechts weergegeven. Dit is
niet hetzelfde als de eerder behandelde ANOVA tabel
(let op verschil in hoofdletters). In de tabel staat
aangegeven dat groei de responsvariabele is. Verder
geeft je R je:
- Df, het aantal vrijheidsgraden. In totaal moeten je vrijheidsgraden uitkomen op 8, want 𝑛 =
9 en 𝑑𝑓 = 𝑛 − 1 = 8.
o Tannin, voor tannin heb je maar 1 df en dat komt doordat je 2 parameters wil
schatten: de intercept en de helling (slope). Je hebt dus 𝑘 = 2 en het aantal
vrijheidsgraden reken je dan vrijwel hetzelfde uit 𝑑𝑓 = 𝑘 − 1 = 1.
o Residuals, het aantal df voor de errors is het aantal vrijheidsgraden dat overblijft van
het totaal als je dftannin eraf hebt gehaald.
- Sum sq, met OLS minimaliseer je de squared verschillen tussen de geobserveerde en gefitte
datapunten. Dit levert je dan de sum of squares.
o Tannin, is de explanatory variabele en hiermee wil je de respons variabele verklaren.
De regression sum of squares is een kwantificatie van de variantie in je data die
verklaard kan worden door je regressie. In dit geval heb je een SSregressie die best hoog
is (88.817).
o Residuals, het gedeelte van de variantie dat je niet uit kan leggen door de
regressielijn (tannine) is de sum of squares van de residuals. In dit geval is de SSerror
20.072.
Je kan de OLS dus niet alleen gebruiken om de intercept en slope te berekenen, maar ook om
te kijken welk deel van de variantie je kan verklaren door het model en welk deel niet
verklaard wordt. Zie ‘OLS sum of squares’ voor een uitgebreide uitleg. Je kan je SSregressie en
SSerror niet meteen met elkaar vergelijken, want je hebt een verschil in het aantal df.
- Mean sq, je moet de sums of squares nog corrigeren naar het aantal vrijheidsgraden dat erbij
hoort:
o Tannin, hiervoor heb je maar 1 df gebruikt dus je mean square is hetzelfde als je sum
of square.
o Residuals, in dit geval heb je 7 vrijheidsgraden gebruikt om je sum of squares te
berekenen en dat corrigeer je door 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 /𝑑𝑓𝑒𝑟𝑟𝑜𝑟 te doen. Dat levert je een
residual mean square van 2.867.
Nu je gecorrigeerd hebt voor de hoeveelheid informatie die je had om de sum of squares te
berekenen, kan je een signal-to-noise ratio berekenen.
- F value, dit is de signal-to-noise ratio. Hoe groter deze is, hoe groter het deel van de variantie
is dat door je regressielijn verklaard wordt en dan heb je een sterke relatie. De F-waarde
wordt berekend door 𝑀𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 /𝑀𝑆𝑒𝑟𝑟𝑜𝑟 .
- Pr(>F), hoe hoger de signaal tot ruis ratio is, hoe hoger de F-waarde is en hoe lager de P-
waarde is. In dit geval heb je een hele kleine P-waarde. Als je P-waarde kleiner is dan 0.05
kan je de nulhypothese verwerpen dat er geen relatie is tussen je explanatory en respons
variabele.
, Vrijheidsgraden, is nogal een vaag begrip, maar nu volgt een voorbeeld wat het misschien wat
duidelijker maakt. Bij de volgende som 𝑎 + 𝑏 + 𝑐 = 10 heb je 3 getallen die allemaal vrij kunnen
variëren tussen -∞ en +∞. Wanneer je de som aanpast naar 5 + 𝑏 + 𝑐 = 10 heb je 3 getallen
waarvan 2 vrij kunnen variëren, maar in het geval van 5 + 3 + 𝑐 = 10 is het laatste getal niet meer
vrij. C is nu gefixeerd en dat is dus afhankelijk van de andere getallen. Het aantal vrijheidsgraden is
het aantal getallen dat vrij kan variëren totdat de laatste gefixeerd is. In dit voorbeeld krijg je dan
𝑛 = 3, 𝑑𝑓 = 𝑛 − 1 = 2.
OLS sum of squares, eerst moet de
totale variantie in de datapunten
berekend worden en daarna kan je deze
in 2 delen verdelen:
1. Signal, het gedeelte van de
variantie dat verklaard kan
worden door het model
(regression sum of squares)
wordt signal genoemd.
2. Noise, het gedeelte van de
variantie dat niet verklaard kan
worden door het model (error/residual sum of squares) wordt noise genoemd.
Rechts zie je schematisch weergegeven hoe je de regression sum of squares (signal) en residual sum
of squares (noise) berekend. Opgeteld leveren deze SStotal. Je kan de totale sum of squares ook in 1
keer berekenen door te kijken naar de verschillen tussen je datapunten en de grand mean. In het
geval van de grand mean is er geen relatie en heb je als het ware een regressielijn met een helling
van 0 (nulhypothese). Wanneer je de totale sum of squares in 2 delen berekend, doe je dat als volgt:
- SSregressie, reken je uit door naar de verschillen te kijken tussen je grand mean en je gefitte
data. Als je regressielijn een hele kleine helling heeft, zal SSregressie heel klein zijn en de
variantie die door het model verklaard wordt ook klein. Bij een sterk signal ligt je helling juist
ver van 0.
- SSerror, je regressielijn zal nooit perfect door al je datapunten lopen, waardoor je niet alle
variantie kan verklaren door je model. Om te kwantificeren welk deel van de variantie niet
verklaard wordt door de regressielijn ga je kijken naar de verschillen je gefitte en
geobserveerde data.
Tot slot moet je de ratio van signal tot noise kwantificeren om te kijken of de regressie van grote
betekenis is.
Rapporteren, in het voorbeeld van de
anova tabel kwamen we uit op een P-
waarde die kleiner is dan 0.05,
waardoor we de nulhypothese mogen verwerpen. Rechts is te zien hoe je dat netjes rapporteert. Je
moet aangeven dat je een F-test hebt gedaan en welke F- en P-waarde je daarbij gevonden hebt.
Verder geef je ook aan hoeveel vrijheidsgraden je gebruikt hebt door 𝐹𝑑𝑓𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 ,𝑑𝑓𝑒𝑟𝑟𝑜𝑟 =...
F-statistiek voor regressie, rechts zie je nog eens samengevat de
F-statistiek van een regressie weergegeven.
Analysis of variance table, hieronder zie je nog eens schematisch
wat een anova tabel je allemaal laat zien.
Anova & summary tabel, op de volgende pagina zie je zowel de anova als summary tabel van onze
rupsendata. Je ziet een paar overeenkomsten: