Empirical Methods in Finance |
Deel 1
Block 1 – Maths and Stats Review
Probability Distributions
Random Variables zijn variabelen die elke waarde uit een set kunnen aannemen, en op zijn
minst gedeeltelijk willekeurig is.
- Bernoulli is binair, dus 0 of 1; kop of munt
- Discrete neemt een beperkte waarde aan; dobbelsteen (1 tot 6)
- Continuous kan oneindig veel waardes aannemen zoals een aandelenprijs
Probability Distribution Function laat de kans zien van elke mogelijke score
Probability Density Function laat de kansverdeling zien voor een continuous random
variable → oppervlak onder functie tussen 0 en 1 laat de kans zien dat de uitkomst tussen 0
en 1 ligt
- Voorbeeld: het is niet logisch om de kans dat de temperatuur 21.675… wordt te
berekenen, maar wel dat de temperatuur tussen 20 en 21 graden zit → dit is de
oppervlakte onder de PDF:
-
Cumulative Distribution Function laat de kans zien dat een random variable onder een
bepaalde waarde is
, -
Joint Distributions en (in)dependence
- 2 random variabelen zijn independent als het weten van de uitkomst van X de
kansen van de mogelijke uitkomsten van Y niet beïnvloedt en vice versa
- Dan is de kans dat de uitkomst van X gelijk is aan x, en de uitkomst van Y gelijk
is aan y P(X=x,Y=y) gelijk aan P(X=x)P(Y=y) → simpelweg de kans van de
2 uitkomsten vermenigvuldigen
- Als 2 random variabelen X en Y afhankelijk van elkaar zijn moet je kijken naar de
conditional distribution van Y gegeven een waarde van X, beschreven door de
conditional PDF
- Als X en Y onafhankelijk zijn dan is de conditionele PDF fY |X (y|x) = fX,Y (x, y)/fX
(x) = (fX (x)fY (y))/fX (x) = fY (y) → de kans dat Y=y is simpelweg niet
afhankelijk van de uitkomst van X=x
- Als X en Y afhankelijk zijn dan is de joint PDF fX,Y (x, y) = fY |X (y|x)fX (x) = P(Y =
y|X = x)P(X = x)
- Bijvoorbeeld BBP van 2021 is afhankelijk van BBP van 2020 →
als BBP van 2020 hoog is, moeten de kansen van mogelijke
uitkomsten van 2021 aangepast worden
Central Tendency – mean of median
Expected value van X is het gewogen gemiddelde van alle mogelijke waardes van X
E(cX + d) = cE(X) + d als c en d constanten zijn en X random
E(XY) = E(X)E(Y) als X en Y 2 independent random variabelen zijn
Median is het middelste getal van de getallenset
Median is minder gevoelig voor extreme waarden
Dispersion – variance, of afwijking van X van het gemiddelde
Var(X) = E[(X – μ)2]
Dus: (X- μ)2*P + (X- μ)2*P ....
Var(cX + d) = c2Var(X), omdat d geen variance heeft
Var(cX + dY) = c2Var(X) + d2Var(Y)
, Descriptive Statistics
Association – covariance of correlation meet hoe 2 variabelen samen bewegen
Covariance meet hoe X en Y samen variëren
o Cov(X,Y) = E[(X – μX)(Y- μY)]
o Dus als de covariance > 0 is, als X boven het gemiddelde is, is Y ook boven
het gemiddelde, en andersom
o
Correlation meet hoe 2 variabelen samen variëren onafhankelijk van de eenheid
o Correlation corrigeert voor de standard deviations van X en Y
o
o De Correlation is altijd tussen -1 en 1
Distributions
Normaalverdeling (Gaussian distribution)
- PDF is dan
- Standaard Normaalverdeling is een speciaal geval van de normaalverdeling wanneer
het gemiddelde 0 is, en de SD=1
- X ∼ N(µ,σ2) betekent dat X normaal verdeeld is met gemiddelde µ en variantie σ 2
-
- Standard Normal Cumulative Distribution Function (CDF), genoteerd als
Φ(z), weergeeft de kans dat Z kleiner is dan een waarde z
( P(Z<z). Gegeven dat de normale verdeling symmetrisch is →
P(Z<-z) = P(Z>z) = 1-Φ(z)
- Φ(z) is de oppervlakte onder het gebied, dit staat gegeven in de standaard
tabellen
Chi-Square verdeling
- df = degrees of freedom
t verdeling: T = Z / (√X/n)
Deel 1
Block 1 – Maths and Stats Review
Probability Distributions
Random Variables zijn variabelen die elke waarde uit een set kunnen aannemen, en op zijn
minst gedeeltelijk willekeurig is.
- Bernoulli is binair, dus 0 of 1; kop of munt
- Discrete neemt een beperkte waarde aan; dobbelsteen (1 tot 6)
- Continuous kan oneindig veel waardes aannemen zoals een aandelenprijs
Probability Distribution Function laat de kans zien van elke mogelijke score
Probability Density Function laat de kansverdeling zien voor een continuous random
variable → oppervlak onder functie tussen 0 en 1 laat de kans zien dat de uitkomst tussen 0
en 1 ligt
- Voorbeeld: het is niet logisch om de kans dat de temperatuur 21.675… wordt te
berekenen, maar wel dat de temperatuur tussen 20 en 21 graden zit → dit is de
oppervlakte onder de PDF:
-
Cumulative Distribution Function laat de kans zien dat een random variable onder een
bepaalde waarde is
, -
Joint Distributions en (in)dependence
- 2 random variabelen zijn independent als het weten van de uitkomst van X de
kansen van de mogelijke uitkomsten van Y niet beïnvloedt en vice versa
- Dan is de kans dat de uitkomst van X gelijk is aan x, en de uitkomst van Y gelijk
is aan y P(X=x,Y=y) gelijk aan P(X=x)P(Y=y) → simpelweg de kans van de
2 uitkomsten vermenigvuldigen
- Als 2 random variabelen X en Y afhankelijk van elkaar zijn moet je kijken naar de
conditional distribution van Y gegeven een waarde van X, beschreven door de
conditional PDF
- Als X en Y onafhankelijk zijn dan is de conditionele PDF fY |X (y|x) = fX,Y (x, y)/fX
(x) = (fX (x)fY (y))/fX (x) = fY (y) → de kans dat Y=y is simpelweg niet
afhankelijk van de uitkomst van X=x
- Als X en Y afhankelijk zijn dan is de joint PDF fX,Y (x, y) = fY |X (y|x)fX (x) = P(Y =
y|X = x)P(X = x)
- Bijvoorbeeld BBP van 2021 is afhankelijk van BBP van 2020 →
als BBP van 2020 hoog is, moeten de kansen van mogelijke
uitkomsten van 2021 aangepast worden
Central Tendency – mean of median
Expected value van X is het gewogen gemiddelde van alle mogelijke waardes van X
E(cX + d) = cE(X) + d als c en d constanten zijn en X random
E(XY) = E(X)E(Y) als X en Y 2 independent random variabelen zijn
Median is het middelste getal van de getallenset
Median is minder gevoelig voor extreme waarden
Dispersion – variance, of afwijking van X van het gemiddelde
Var(X) = E[(X – μ)2]
Dus: (X- μ)2*P + (X- μ)2*P ....
Var(cX + d) = c2Var(X), omdat d geen variance heeft
Var(cX + dY) = c2Var(X) + d2Var(Y)
, Descriptive Statistics
Association – covariance of correlation meet hoe 2 variabelen samen bewegen
Covariance meet hoe X en Y samen variëren
o Cov(X,Y) = E[(X – μX)(Y- μY)]
o Dus als de covariance > 0 is, als X boven het gemiddelde is, is Y ook boven
het gemiddelde, en andersom
o
Correlation meet hoe 2 variabelen samen variëren onafhankelijk van de eenheid
o Correlation corrigeert voor de standard deviations van X en Y
o
o De Correlation is altijd tussen -1 en 1
Distributions
Normaalverdeling (Gaussian distribution)
- PDF is dan
- Standaard Normaalverdeling is een speciaal geval van de normaalverdeling wanneer
het gemiddelde 0 is, en de SD=1
- X ∼ N(µ,σ2) betekent dat X normaal verdeeld is met gemiddelde µ en variantie σ 2
-
- Standard Normal Cumulative Distribution Function (CDF), genoteerd als
Φ(z), weergeeft de kans dat Z kleiner is dan een waarde z
( P(Z<z). Gegeven dat de normale verdeling symmetrisch is →
P(Z<-z) = P(Z>z) = 1-Φ(z)
- Φ(z) is de oppervlakte onder het gebied, dit staat gegeven in de standaard
tabellen
Chi-Square verdeling
- df = degrees of freedom
t verdeling: T = Z / (√X/n)