OZM video lessen
1. Basisprincipes OLS
1.1 Hoe ongekende waardes van parameters bepalen?
Proberen de relatie tussen 2 variabelen X en Y te bepalen => voorgesteld in een puntenwolk
Op zoek naar rechte die de relatie tussen X en Y kan samenvatten
Univariate (=enkelvoudige) regressie
- X = onafhankelijke variabale = oefent een invloed uit op Y => horizontale as
- Y = afhankelijke variabele => verticale as
- U = restterm => stuk van de variabele Y dat niet verklaard kan worden door X
- β0 = constante => gemiddelde waarde van Y als X=0 => punt waar de rechte de Y-as snijdt
- β1 = regressie-coëfficiënt => drukt de relatie uit tussen X en Y => te vinden obv helling van de
rechte, hoe groter de helling hoe sterker het verband tussen X en Y
Binnen econometrie gaan we methodes zoeken om waardes te zoeken voor B 0 en B1
Hoedje = geschatte waarde (=onbekende waarden)
Actual Y = prediction + residual
Hoe kunnen we onze regressie coëfficiënten schatten
Meest gebruikte = OLS
OLS = Ordinary Least Squares // GKK = Gewone Kleinste Kwadraten
Beste curve door puntenwolk
Minimaliseren van som van gekwadrateerde resttermen
= Sum of Squared Residuals = SSR
Deze techniek probeert de waardes van de parameters te bepalen op die manier dat de
systematische component zo groot mogelijk is en de willekeurige component, restterm u, zo klein
mogelijk is.
OLS schatting = heel gemakkelijk zelf te berekenen obv. de eerste afgeleide.
1.2 Eigenschappen
Steekproef vs populatie
- Meestal niet mogelijk om observaties te verkrijgen van de gehele populatie => daarom
steekproef trekken
- Steekproef = gedeelte van de populatie
- Willekeurige steekproeftrekking = elke observatie in de populatie heeft precies dezelfde kans om
deel te nemen aan de steekproef
- Voor elk van de steekproeven zullen wellicht de observaties verschillen
1
, Elke steekproef heeft een andere rechte met andere parameters
Steekproef distributie van β
- Elke steekproef => 1 schatting van β
- Distributie van β waardes over verschillende steekproeven = steekproef distributie van β
= normaal verdeeld indien resttermen normaal verdeeld
Als we alle mogelijke waardes van β uit alle mogelijk steekproeven vanuit de populatie
zouden plotten dan vinden we een verdeling
Meestal hebben we maar data uit 1 steekproef en gaan we ons hierop baseren.
Hierop conclusie maken over verband tussen verschillende variabelen in de hele populatie
Belangrijk: weten hoe goed de β uit de steekproef het echte verband tussen de variabelen in
de populatie benaderd
Precisie van OLS schattingen
= hoe zeker we zijn van de waarde van de parameters
- Variantie van β1 = standaard error van de parrameter
Hoe groter de variantie hoe minder precies de schatting en hoe minder zeker we zijn van de
waarde van de parameter
Groter indien sigma groter wordt
Sigma = variantie in de resttermen
Hoe groter de spreiding in de resttermen hoe
minder precies de schatting van β1
De variantie van β1 is proportioneel aan de
variatie van de resttermen
Hoe groter de spreiding in de X waardes hoe preciezer de schatting van de parameters
De variantie van β1 is omgekeerd proportioneel aan variantie in X waarden
1.3 Assumpties
De 7 klassieke assumpties
1) The regression model is linear, is correctly specified, and has an addictive error term
2) The error term had a zero population mean
3) All explanatory variables are uncorrelated with the error term
4) Observations of the error term are uncorrelated with each other
5) The error term has a constant variance
6) No explanatory variable is a perfect linear function of any other explanatory variable
7) The error term is normally distributed (optioneel maar meestal aanwezig)
OLS- estimators are BLUE (Gauss-Markov)
- Indien voldaan aan de assumpties
Best: minimale variante, zo precies mogelijk
Linear: lineaire schatting => we verwachten dat de impact van X op Y altijd hetzelfde is,
onafhankelijk van hoe groot X is.
Unbiased: verwachte / gemiddelde waarde = echte waarde
- OLS- parameters zijn Best Lineair Unbiased Estimators van eigenlijke parameters
2
, Biased = gemiddelde wijkt af van het echte gemiddelde
Efficiënt = spreiding is kleiner, weinig variantie
2. Meervoudige regressie & dummy variabelen
2.1 Meervoudige regressie
2.1.1 Inleiding multivariate regressie
Y is niet enkel afhankelijk van X1 maar ook van X2
Ceteris paribus !!
β1 geeft de verandering in Y weer wanneer X 1 verandert met 1 eenheid, CETERIS PARIBUS
OLS schattingen
Varianties
Variantie β1 hangt nu ook af van r12 deze geeft het
verband aan tussen X1 en X2, hoe hoger de
correlatie hoe sterker het verband tussen deze
variabelen
Grotere correlatie = probleem van
multicolingialiteit ????
2.1.2 Fit van het model – adhv R²
Als we parameters vinden is het belangrijk om te kijken hoe goed het model fit met de onderliggende
data. Kijken naar welk model de variantie in Y het best beschrijft.
Fit gaat niet enkel om de kwaliteit van een regressiemodel te bestuderen maar ook om verschillende
modellen met elkaar te vergelijken.
We hebben een goed model als we de variantie in de afhankelijke variabele Y goed verklaart hebben
door het model. We gebruiken daarvoor R² = determinatie coëfficiënt.
Yi = eigenlijke waarde van Y
Yi met hoedje = door het model geschatte waarde van Y
Y met streepje = gemiddelde waarde van Y
R² = drukt het percentage uit van de
totale variatie van Y dat verklaard wordt door het regressie model. =>
Ligt altijd tussen 0 en 1 => hoe hoger hoe beter
3
1. Basisprincipes OLS
1.1 Hoe ongekende waardes van parameters bepalen?
Proberen de relatie tussen 2 variabelen X en Y te bepalen => voorgesteld in een puntenwolk
Op zoek naar rechte die de relatie tussen X en Y kan samenvatten
Univariate (=enkelvoudige) regressie
- X = onafhankelijke variabale = oefent een invloed uit op Y => horizontale as
- Y = afhankelijke variabele => verticale as
- U = restterm => stuk van de variabele Y dat niet verklaard kan worden door X
- β0 = constante => gemiddelde waarde van Y als X=0 => punt waar de rechte de Y-as snijdt
- β1 = regressie-coëfficiënt => drukt de relatie uit tussen X en Y => te vinden obv helling van de
rechte, hoe groter de helling hoe sterker het verband tussen X en Y
Binnen econometrie gaan we methodes zoeken om waardes te zoeken voor B 0 en B1
Hoedje = geschatte waarde (=onbekende waarden)
Actual Y = prediction + residual
Hoe kunnen we onze regressie coëfficiënten schatten
Meest gebruikte = OLS
OLS = Ordinary Least Squares // GKK = Gewone Kleinste Kwadraten
Beste curve door puntenwolk
Minimaliseren van som van gekwadrateerde resttermen
= Sum of Squared Residuals = SSR
Deze techniek probeert de waardes van de parameters te bepalen op die manier dat de
systematische component zo groot mogelijk is en de willekeurige component, restterm u, zo klein
mogelijk is.
OLS schatting = heel gemakkelijk zelf te berekenen obv. de eerste afgeleide.
1.2 Eigenschappen
Steekproef vs populatie
- Meestal niet mogelijk om observaties te verkrijgen van de gehele populatie => daarom
steekproef trekken
- Steekproef = gedeelte van de populatie
- Willekeurige steekproeftrekking = elke observatie in de populatie heeft precies dezelfde kans om
deel te nemen aan de steekproef
- Voor elk van de steekproeven zullen wellicht de observaties verschillen
1
, Elke steekproef heeft een andere rechte met andere parameters
Steekproef distributie van β
- Elke steekproef => 1 schatting van β
- Distributie van β waardes over verschillende steekproeven = steekproef distributie van β
= normaal verdeeld indien resttermen normaal verdeeld
Als we alle mogelijke waardes van β uit alle mogelijk steekproeven vanuit de populatie
zouden plotten dan vinden we een verdeling
Meestal hebben we maar data uit 1 steekproef en gaan we ons hierop baseren.
Hierop conclusie maken over verband tussen verschillende variabelen in de hele populatie
Belangrijk: weten hoe goed de β uit de steekproef het echte verband tussen de variabelen in
de populatie benaderd
Precisie van OLS schattingen
= hoe zeker we zijn van de waarde van de parameters
- Variantie van β1 = standaard error van de parrameter
Hoe groter de variantie hoe minder precies de schatting en hoe minder zeker we zijn van de
waarde van de parameter
Groter indien sigma groter wordt
Sigma = variantie in de resttermen
Hoe groter de spreiding in de resttermen hoe
minder precies de schatting van β1
De variantie van β1 is proportioneel aan de
variatie van de resttermen
Hoe groter de spreiding in de X waardes hoe preciezer de schatting van de parameters
De variantie van β1 is omgekeerd proportioneel aan variantie in X waarden
1.3 Assumpties
De 7 klassieke assumpties
1) The regression model is linear, is correctly specified, and has an addictive error term
2) The error term had a zero population mean
3) All explanatory variables are uncorrelated with the error term
4) Observations of the error term are uncorrelated with each other
5) The error term has a constant variance
6) No explanatory variable is a perfect linear function of any other explanatory variable
7) The error term is normally distributed (optioneel maar meestal aanwezig)
OLS- estimators are BLUE (Gauss-Markov)
- Indien voldaan aan de assumpties
Best: minimale variante, zo precies mogelijk
Linear: lineaire schatting => we verwachten dat de impact van X op Y altijd hetzelfde is,
onafhankelijk van hoe groot X is.
Unbiased: verwachte / gemiddelde waarde = echte waarde
- OLS- parameters zijn Best Lineair Unbiased Estimators van eigenlijke parameters
2
, Biased = gemiddelde wijkt af van het echte gemiddelde
Efficiënt = spreiding is kleiner, weinig variantie
2. Meervoudige regressie & dummy variabelen
2.1 Meervoudige regressie
2.1.1 Inleiding multivariate regressie
Y is niet enkel afhankelijk van X1 maar ook van X2
Ceteris paribus !!
β1 geeft de verandering in Y weer wanneer X 1 verandert met 1 eenheid, CETERIS PARIBUS
OLS schattingen
Varianties
Variantie β1 hangt nu ook af van r12 deze geeft het
verband aan tussen X1 en X2, hoe hoger de
correlatie hoe sterker het verband tussen deze
variabelen
Grotere correlatie = probleem van
multicolingialiteit ????
2.1.2 Fit van het model – adhv R²
Als we parameters vinden is het belangrijk om te kijken hoe goed het model fit met de onderliggende
data. Kijken naar welk model de variantie in Y het best beschrijft.
Fit gaat niet enkel om de kwaliteit van een regressiemodel te bestuderen maar ook om verschillende
modellen met elkaar te vergelijken.
We hebben een goed model als we de variantie in de afhankelijke variabele Y goed verklaart hebben
door het model. We gebruiken daarvoor R² = determinatie coëfficiënt.
Yi = eigenlijke waarde van Y
Yi met hoedje = door het model geschatte waarde van Y
Y met streepje = gemiddelde waarde van Y
R² = drukt het percentage uit van de
totale variatie van Y dat verklaard wordt door het regressie model. =>
Ligt altijd tussen 0 en 1 => hoe hoger hoe beter
3