Kwantitatieve
beleidsmethoden (KBM)
DEEL 1: ENKELVOUDIGE EN MEERVOUDIGE REGRESSIE
DIARA FALL
, 1
Hoofdstuk 1: inleiding
1 Van theorie naar model
• Regressie vertrekt steeds van een theorie
o (verband tussen variabelen)
• Theorie= inzicht in relatie tussen variabelen
o Vb. consumptieniveau (c) wordt beïnvloed door beschikbaar inkomen (x)
• "Theoretische" relatie uitdrukken met wiskundige functie = model
o Model: c = f(x)
• Er is steeds één variabele waarvan we het gedrag willen verklaren
o Waarom stijgt of daalt de waarde van de variabele ? Variatie verklaren
o Bv. Waarom consumeert niet iedereen evenveel ? waarom die variatie in consumptie ?
o => responsvariabele of afhankelijke variabele: y
• De variabelen waarmee we variatie in de respons willen verklaren
o => Verklarende of onafhankelijke variabelen: x1,x2,...,xk
o Bv. Beschikbare inkomen in het voorbeeld → verklaart het consumptieniveau
• Model in het algemeen:
o Enkelvoudige: 1 verklarende variabele ➔ y = f(x)
o Meervoudige regressie: meerdere verklarende variabelen ➔ y = f(x1,x2,...,xk)
• Verband tussen y en x1,x2,... kan positief, negatief zijn of er kan geen verband zijn
2 Correlatie
• 1 afhankelijke of responsvariabele Y + 1 onafhankelijke of verklarende variabele x
• Correlatiecoëfficiënt:
o Gaat na (meet) in welke mate er een lineair verband is tussen 2 variabelen en gaat
ook na of het gaat om een positief of negatief verband
o En wat de richting van dat verband is (positief of negatief)
o Grafisch: hoe sterk sluiten de punten op een scatterplot aan bij een denkbeeldige
rechte
▪ Liggen de punten rond een rechte in een puntenwolk en gaat het om een
stijgende of dalende rechte ?
o Getal tussen -1 en +1
▪ Bovengrens +1= theoretische grens= perfect positief lineair verband= in heel
de steekproef geen uitzondering op de regel dat bv een grotere lengte gepaard
gaat met een hoger gewicht
▪ Niet realistisch, er zijn altijd afwijkingen van het verband/ theorie
o Voorgesteld door kleine r
, 2
3 Voorbeeld: lengte en gewicht van een persoon
• Variabelen
o Lengte = verklarende variabele => x-as
o Gewicht= responsvariabele => y-as
• Correlatiecoëfficiënt = 0,864
o = is er verband tussen 2 lineaire variabelen en is dit positief of negatief
• Werd grafisch gedaan met rechte bij een puntenwolk (stijgend of dalend)
• Ligt tussen -1 en +1 (0 is geen verband)
o hier dicht bij +1 → sterk positief lineair verband tussen de 2 variabelen
▪ Bv hoe groter de persoon, hoe zwaarder.
▪ Maar ook: hoe kleiner de persoon, hoe lichter
• Stel perfecte positieve correlatie in voorbeeld: in hele steekproef geen
enkele uitzondering op regel dat een grote lengte gepaard gaat met een
hoog gewicht = niet realistisch
o (+1 is bijna niet bereikbaar, perfect positief verband)
4 Correlatie versus lineaire regressie
• Correlatiecoëfficiënt zegt iets over de mate waarin de observaties (punten) op een rechte
liggen (dalende of stijgende rechte)
• Maar geeft geen informatie over de gevoeligheid van de responsvariabele y t.o.v. de
verklarende variabele x
o Zegt niets over de hellingsgraad van de rechte
o Zegt niet over hoe gevoelig y is voor veranderingen in x
• Regressieanalyse doet dit wel:
o Niet enkel kijken of observaties aansluiten bij stijgende of dalende rechte
o MAAR ook rechte kwantificeren (hellingscoëfficiënt kennen)
, 3
5 Van deterministisch naar statistisch model
• Brandstofverbruik
o v = f (g,l,b,p)
o => V = f (g,l,b,p) + U
• Bijvoorbeeld: gewicht
o g= f(l)
▪ iedere persoon met dezelfde lengte weegt evenveel
▪ niet correct
o => G= f(l) + U
• Statistisch model
o Houdt rekening met het feit dat onze responsvariabele kansvariabelen zijn
▪ Daarom gebruiken we hoofdletters voor onze respons
o U= afwijking van de theorie = invloed van andere factoren
6 Redenen statistisch model
• “Afwijkingen” van de theorie:
o Er zijn altijd variabelen die we vergeten/ niet kunnen meten en die een bepaalde
invloed hebben
▪ Niet erg, zolang we een goed beeld krijgen van de populatie
▪ Niet erg, zolang het geen belangrijke variabelen zijn
o We maken meetfouten
o De responsvariabele is soms inherent stochastisch
▪ Bv. Het ene gezin consumeert meer dan het andere
▪ Bv. Het zetmeelextractieproces levert de ene keer een hogere opbrengst op
dan de andere keer 10
• Daarom een foutenterm of een (random) error term U
o = invloed van alles wat niet in uw model zit
7 Algemeen
2 ALGEMENE MODELLEN