Literatuur Verdieping in Onderzoeksmethoden en Statistiek
Hoofdstuk 9 The linear model (regression)
Paragraaf 1: Dit hoofdstuk gaat over het voorspellen van uitkomsten aan de hand van data.
Paragraaf 2:
- Lineair model = een vergelijking van een rechte lijn. Elke rechte lijn kan bepaald worden
aan de hand van de helling (b1) en het punt waarbij hij de Y-as snijdt (intercept/b0).
Regressieanalyse wordt gebruikt om een lineair model te passen aan data en dit te
gebruiken om waarden te voorspellen van uitkomstvariabelen (afhankelijk) aan de hand van
één of meerdere predictoren (onafhankelijk). Met 1 voorspeller heet dit een
simpele/enkelvoudige regressie; met meerdere voorspellers heet dit een multipele
regressie.
- Enkelvoudige regressie: . Voorspellen aan de hand van 1 voorspeller.
- Meervoudige regressie: . Model met meerdere
voorspellers.
- ^Y = afhankelijke variabele. De variabele die je wil voorspellen. Voorspelde waarde
(predicted value).
- B0 = constante (intercept). Start van het lineaire model.
- X = onafhankelijke variabele (predictors/voorspellers).
- B1 = regressiecoëfficiënt. Deze geeft de helling van het model aan. Positieve b1 is
positieve relatie, negatieve b1 is negatieve relatie.
- E = voorspellingsfout/residu. De afstand tussen de voorspellingslijn en de datapunten.
De schattingen die gemaakt worden in een regressiemodel gebeuren met de methode van
de kleinste kwadraten van de residuen. De residuen zijn de afstanden tussen wat het model
voorspelt en de geobserveerde data.
Sommige residuen zijn positief,
anderen negatief. Als we deze dus
normaal op zouden tellen, zouden ze
wegvallen tegen elkaar; vandaar dat we
de kwadraten nemen van de residuen
(sum of squared residuals/residual
sum of squares – SSR). Als de som
van de kwadraten groot is, is het model
niet representatief voor de data (veel
fout in de voorspelling); is de som van
1