ALLE FORMULES EN TESTEN STAAN IN HET FORMULARIUM
1. Regressie & correlatie methoden
Introductie
Eenvoudige regressie = 2 verschillende variabelen in dezelfde sample zijn gerelateerd
Meervoudige regressie = de relatie tussen meer dan 2 variabelen worden tegelijk in rekening gebracht
Algemene concepten
x = oorzaak
→ we willen de waarde van y voorspellen op basis van de gekende waarde voor x
E(y|x) = α + βx
→ α = intercept = y-waarde als x=0
→ β = hellingsgraad = rico
→ x = onafhankelijke variabele
→ y = afhankelijke variabele
→ hieruit komt een rechte die het best overeenkomt met alle punten van de dataset
→ kan al vanaf 3 punten
y = α + βx zal niet juist zijn voor elk datapunt
⇒ foutenterm e = verschil tussen de voorspelde waarde & de werkelijke waarde
⇒ y = α + βx + e
→ we veronderstellen dat e normaal verdeeld is met gemiddelde = 0 & een variantie σ²
→ gemiddelde = 0 ⇒ de top bevindt zich op de y-as = we maken even veel positieve als negatieve
fouten
→ σ² = gemiddelde afwijking van de foutentermen ten opzichte van de werkelijke waarden
→ zegt hoe goed het model werkt: hoe lager de variantie, hoe beter het model
Method of least squares
Least-square line = rechte die y = α + βx die de som van de gekwadratiseerde afstanden van de werkelijke
waarden tot de rechte minimaliseerd
𝑛
→ S = ∑ di²
𝑖=1
Lxx = de gecorrigeerde som van kwadraten voor x
𝑛
→ ∑ (𝑥𝑖 − 𝑥)²
𝑖=1
Lyy = de gecorrigeerde som van kwadraten voor y
𝑛
→ ∑ (𝑦𝑖 − 𝑦)²
𝑖=1
Lxy = de gecorrigeerde som van het kruisproduct
, 𝑛
→ ∑ (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑖=1
We maken een schatting van de least-square line door a & b uit y= a + bx uit te rekenen
→ b= Lxy/Lxx
→ a = 𝑦 − 𝑏𝑥
y = a + bx wordt ook de geschatte regressierechte of regressierechte genoemd
Interferenties over parameters van regressierechten
Residuele component = error component = e = het verschil tussen het punt op de rechte & de werkelijke
waarde
Regressie component = het verschil tussen het punt op de rechte & de gemiddelde waarde voor de variabele
We willen de regressie component zo
groot mogelijk & de residuele
component zo klein mogelijk
⇒ significant resultaat
Total SS = de som van de regressie & de residuele component
𝑛
→ Lyy = ∑ (𝑦𝑖 − 𝑦)² = Reg SS + Res SS
𝑖−1
Reg SS = de som van alle regressie componenten
𝑛
→ ∑ (𝑦𝑖 − 𝑦)² = L²xy/Lxx
𝑖=1
Res SS = de som van alle residuele componenten
𝑛
→ ∑ (𝑦𝑖 − 𝑦𝑖)² = Lyy - L²xy/Lyy
𝑖=1
F-test voor simpele lineaire regressie
Reg MS = Reg SS/k
→ k = aantal predictor variabelen = vrijheidsgraad
Res MS = Res SS/(n-k-1)
→ n = steekproefgrootte
F-test maakt gebruik van de F-verderling
, H0: β = 0: er is geen statistisch significant effect
H1: β ≠ 0: er is een statistisch significant effect
𝑛
∑ (𝑦𝑖−𝑦)²
𝑖=1
𝑅𝑒𝑔 𝑀𝑆 𝑅𝑒𝑔 𝑆𝑆/𝑘 𝑘
F = 𝑅𝑒𝑠 𝑀𝑆 = 𝑅𝑒𝑠 𝑠𝑠/ (𝑛−𝑘−1)
= 𝑛
∑ (𝑦𝑖−𝑦𝑖)²
𝑖=1
𝑛−𝑘−1
→ f = reg ms/res ms (per punt)
Als f > F dan verwerpen we H0
Als f ⩽ F dan accepteren we H0
OF we gebruiken de p-waarde
→ statistisch significant als p < 0,05
Grafiek voor k = 1
Samenvattende resultaten in statistische output:
R² = R-squared = samenvattende meting van de goedheid van het model
= Reg SS/Total SS
= proportie van de variantie van y dat door het model, dus door de predictor variabelen in het model,
verklaard wordt