1. INLEIDING
Definitie LINEAIRE REGRESSIE = Dit laat toe te bepalen in welke mate (= kwantificatie v/d variabelen – ‘hoeveel?’) e. verandering
in één variabele e. overeenkomstige verandering in e. andere variabele teweeg brengt. M.a.w. zoeken we naar de invloed v. één
variabele op e. andere variabele. Wat kan je hier allemaal mee doen?
▪ Modelmatig voorspellen hoe sterk een (afhankelijke) variabele zou veranderen bij een toe- of afname van een andere
(onafhankelijke) variabele.
o Extra: mulivariate (of complexe) regressieanalyses laten toe de ffecten te meten v. meerdere, verschillende
variabelen op een te verklaren variabele. (> te moeilijk)
o Dus in dit hoofdstuk: bivariate (of enkelvoudige) regressieanalyses waarin enkel 2 variabelen spelen. We
bespreken hierin enkel de lineaire (enkelvoudige) regressieanalyse
▪ We gaan hier dus eigenlijk uit v/e oorzakelijk verband (i.t.t. de symmetrische correlatiecoëfficiënt), maar opnieuw wijst
dit niet noodzakelijk op e. historisch relevant verband.
Verschil tss correlatie en regressie:
▪ Beide technieken laten toe om het mogelijke verband tss twee kardinale of kwantitatieve variabelen na te gaan. Bij
regressie gaan we nog een stap verder dan correlatie: we proberen a.d.h.v. de ene variabele de verandering in de andere
variabele statistisch te voorspellen.
De variabele die we willen voorspellen, wordt aangeduid als de afhankelijke variabele (op de y-as). De variabele waarvan we het
effect op de afhankelijke variabele willen nagaan, is de onafhankelijke variabele (op de x-as).
Dit doen we a.d.h.v. e. regressiemodel dat de specifieke samenhang tss de 2 variabelen uitdrukt. Maar hoe begin je hieraan? Een
stappenplan:
1) Grafische inspectie v/d gegevens a.d.h.v. e. spreidingdiagram, enkele conventies:
• Plaatsen v/d variabelen op de spreidingsdiagram (of scatter-plot):
Afhankelijke variabele op de Y-as
Onafhankelijke variabele op de x-as
• Puntenwolk ellipsvormig (min of meer in de vorm v. rechte) → opstellen regressielijn (aangezien we hier e.
regressieanalyse voeren) als samenvatting v/h lineaire verband/relatie/trend tss de variabelen.
= lineaire regressie (> verband wordt beschreven door een rechte lijn)
2) Schatting v/d regressierechte (y) d.m.v. de intercept (a)1 en de regressiecoëfficiënt (b), maar wat duidt die aan?
• Geeft de hellingsgraad v/d regressierechte aan
• Duidt als gevolg dus ook aan in welke mate y verandert als x met één eenheid toe- of afneemt (hetgeen dus
eigenlijk de hellingsgraad bepaalt)
b positief = stijgende regressielijn
b negatief = dalende regressielijn
• Uitgeschreven weergave: y = a + b*x, waarbij:
X en Y = waarden v/d variabelen
a = snijpunt (intercept) v. regressierechte met de Y-as – geen inhoudelijke betekenis
b = regressiecoëfficiënt (slope of helling) – wel inhoudelijke betekenis, want beschrijft verband tss X
en Y; geeft aan hoeveel Y relatief toeneemt voor elke toename v. X
• Maar hoe berekenen we de parameters a en b? Via de Methode v/d kleinste kwadraten2 = het berekenen v/d
verticale afstanden (= residuen/fouten) v. alle punten tot de regressielijn.
M.a.w. e. residu v/e punt is het verschil tss de geschatte waarde (de regressielijn) en de echte waarde.
Belangrijk: Hoe kleiner het residu (dus hoe dichter het punt bij de rechte ligt), hoe sterker het
verband is.
➢ M.a.w. de beste rechte is e. rechte die het dichtst bij alle punten ligt; dus waarbij de som v/d
kwadraten v/d residuen het kleinst is, dit via de methode v/d kleinste kwadraten.
Uitgeschreven weergave: y = a + b*x + res (niet echt van toepassing tho)
1
De intercept v/d regressielijn: dit is de plaats waar de lijn de Y-as snijdt, of waar m.a.w. X gelijk is aan 0. Dit geeft eigenlijk geen
relevante inhoudelijk betekenis. Vandaar dat we dit aanduiden als ‘de constante.’ Ze is wel noodzakelijk voor de berekening v/d
regressierechte.
2
We gebruiken het kwadraat v/d residuen om te vermijden dat positieve en negatieve residuen elkaar opheffen.
, Figuur 1: Overzicht v/d 'Schatting regressiecoëfficiënt en regressierecht (met voorbeeld)
Opmerking: In hoeverre is die rechte een goede weergave v/d lineaire samenhang? Hiervoor (volgende pagina) moeten we de
determinatiecoëfficiënt (r2)