Verklaring begrippen
Enkelvoudige lineaire regressie
● Stochastische veranderlijken
○ Y = uitkomstvariabele
○ X = covariaat
● Model dat kiezen hangt af van de uitkomstvariabele (p19)
● Yi = α + ßxi + εi
○ α = intercept
○ ß = richtingscoëfficiënt
■ Indien 0: geen verband
■ Beta bepaald of dat er een significant verschil is
■ Additief effect op gemiddelde (bij lineaire regressie)
○ ε = storingsterm (observaties mogen afwijken van het regressiemodel/rechte)
● ß = Lyx/Lxx (p23)
○ Lx x
■ = geschaalde steekproefvariantie van x waarde
■ = gekwadrateerde afwijkingen van elke x tov steekproefgemiddelde
■ Groter Lxx = meer spreiding = kleinere rico
○ Lx y
■ = spreiding in y: hoe x en y samen variëren
● Residual standard error
○ = schatting voor de storingsterm/epsilon
○ Heel kleine → grote t-waarde → veel bewijs tegen de nulhypothese
● Total SS = Reg SS + Res SS(p25)
○ Total SS = Lyy = totale variabiliteit
○ Reg SS = verklaard deel (Regression Sum of Squares)
■ Indien Reg SS >> Res SS → veel verklaard dus bewijs tegen de H0, wel
verband, covariaat x heeft bijdrage tot regressiemodel
○ Resl SS = onverklaard deel (Residual)
○ Staan in anova model/tabel (voorbeeld p24)
■ SS = Sum of squares
■ MS = Mean sum of squares
● R² = Reg SS/Total SS(p26)
○ = de proportie door x verklaarde variabiliteit
○ Schaal van 0 tot 1
○ Dichter bij 0 = weinig verklaard (punten ver van rechte)
○ Dichter bij 1 = veel verklaard door x dus datapunten dichtbij rechte
● F-statistiek(p26)
○ = F-test = hoeveel verklaard tov hoeveel onverklaard
1
,
○
○ eg MS= Reg SS / k
R
○ Res MS= Res SS / (n - k - 1)
○ Als ß = 0 dan verwachten dat F = Reg MS/Res MS ≈ 1
○ Als F >> 1 dan is dat een indicatie dat ß ≠ 0 → dus H0 verwerpen (dat er geen
effect is; bij MLR: dat er geen gezamenlijk effect is)
○ Kijken naar p-waarde!
○ Df = degrees of freedom = k = aantal covariaten (ELR: k = 1) (=eerste getal)
○ N - k - 1: 2e getal bij F-statistiek
● T-test (p29)
○ σ²(variantie) = wortel van RES MS
● Standard error(p30)
○ = wortel van Variantie van B = wortel van MSE/Lxx
○ MSE = Res MS
○ = maat van onzekerheid van de uitkomst = schatting van de mate waarin de
uitkomsten van verschillende steekproeven van elkaar verschillen
○ Groter worden van standaardfout = onzekerder
● Estimate / Standard error = t-value(p30)
● Bij enkelvoudige regressie:F = t²(p30)
○ F-test is equivalent van tweewaardige t-test (niet bij eenzijdige t-test, dan
p-waarde gedeeld door 2 doen)
○ Als F test moeten uitvoeren dan kan je de p-waarde van de t-test gebruiken
● Betrouwbaarheidsinterval: als 0 mee in interval dan geen verband tussen x en y, dan H0
niet verwerpen (p32)
● Predictie-interval: altijd groter (voor 1 persoon) dan het gemiddelde
betrouwbaarheidsinterval (p35)
○ Gegevens: lower en upper limit zijn symmetrisch
● Correlatie(p36)
○ = drukt de mate van lineaire afhankelijkheid uit tussen 2 variabelen
○ +1 = perfecte positieve correlatie (stijging x = stijging y)
○ -1 = perfecte negatieve correlatie
○ 0 = geen correlatie (= geen lineair verband tussen x en y)
○ Als de rico van de regressielijn positief is → moet de correlatiecoëfficiënt ook pos
● Standaardafwijking vs standaardfout(opdracht lineaireregressie)
○ Standaardafwijking = capteert hoeveel variabiliteit je hebt in je opmetingen (bv
mannen-vrouwen, andere leeftijd) =σ²= kwadraat vande variantie vd
storingstermen
■ Hangt niet af van de steekproefgrootte
○ Standaardfout = de standaardafwijking mbt de schatter, te maken met de
precisie, niet direct iets te maken met de onderliggende variabelen
■ Standaardfout vh gemiddelde = positieve vierkantswortel van σ²/n
■ Hangt af van de steekproefgrootte (als meer mensen meer zekerheid,
delen door iets groter)
2
Enkelvoudige lineaire regressie
● Stochastische veranderlijken
○ Y = uitkomstvariabele
○ X = covariaat
● Model dat kiezen hangt af van de uitkomstvariabele (p19)
● Yi = α + ßxi + εi
○ α = intercept
○ ß = richtingscoëfficiënt
■ Indien 0: geen verband
■ Beta bepaald of dat er een significant verschil is
■ Additief effect op gemiddelde (bij lineaire regressie)
○ ε = storingsterm (observaties mogen afwijken van het regressiemodel/rechte)
● ß = Lyx/Lxx (p23)
○ Lx x
■ = geschaalde steekproefvariantie van x waarde
■ = gekwadrateerde afwijkingen van elke x tov steekproefgemiddelde
■ Groter Lxx = meer spreiding = kleinere rico
○ Lx y
■ = spreiding in y: hoe x en y samen variëren
● Residual standard error
○ = schatting voor de storingsterm/epsilon
○ Heel kleine → grote t-waarde → veel bewijs tegen de nulhypothese
● Total SS = Reg SS + Res SS(p25)
○ Total SS = Lyy = totale variabiliteit
○ Reg SS = verklaard deel (Regression Sum of Squares)
■ Indien Reg SS >> Res SS → veel verklaard dus bewijs tegen de H0, wel
verband, covariaat x heeft bijdrage tot regressiemodel
○ Resl SS = onverklaard deel (Residual)
○ Staan in anova model/tabel (voorbeeld p24)
■ SS = Sum of squares
■ MS = Mean sum of squares
● R² = Reg SS/Total SS(p26)
○ = de proportie door x verklaarde variabiliteit
○ Schaal van 0 tot 1
○ Dichter bij 0 = weinig verklaard (punten ver van rechte)
○ Dichter bij 1 = veel verklaard door x dus datapunten dichtbij rechte
● F-statistiek(p26)
○ = F-test = hoeveel verklaard tov hoeveel onverklaard
1
,
○
○ eg MS= Reg SS / k
R
○ Res MS= Res SS / (n - k - 1)
○ Als ß = 0 dan verwachten dat F = Reg MS/Res MS ≈ 1
○ Als F >> 1 dan is dat een indicatie dat ß ≠ 0 → dus H0 verwerpen (dat er geen
effect is; bij MLR: dat er geen gezamenlijk effect is)
○ Kijken naar p-waarde!
○ Df = degrees of freedom = k = aantal covariaten (ELR: k = 1) (=eerste getal)
○ N - k - 1: 2e getal bij F-statistiek
● T-test (p29)
○ σ²(variantie) = wortel van RES MS
● Standard error(p30)
○ = wortel van Variantie van B = wortel van MSE/Lxx
○ MSE = Res MS
○ = maat van onzekerheid van de uitkomst = schatting van de mate waarin de
uitkomsten van verschillende steekproeven van elkaar verschillen
○ Groter worden van standaardfout = onzekerder
● Estimate / Standard error = t-value(p30)
● Bij enkelvoudige regressie:F = t²(p30)
○ F-test is equivalent van tweewaardige t-test (niet bij eenzijdige t-test, dan
p-waarde gedeeld door 2 doen)
○ Als F test moeten uitvoeren dan kan je de p-waarde van de t-test gebruiken
● Betrouwbaarheidsinterval: als 0 mee in interval dan geen verband tussen x en y, dan H0
niet verwerpen (p32)
● Predictie-interval: altijd groter (voor 1 persoon) dan het gemiddelde
betrouwbaarheidsinterval (p35)
○ Gegevens: lower en upper limit zijn symmetrisch
● Correlatie(p36)
○ = drukt de mate van lineaire afhankelijkheid uit tussen 2 variabelen
○ +1 = perfecte positieve correlatie (stijging x = stijging y)
○ -1 = perfecte negatieve correlatie
○ 0 = geen correlatie (= geen lineair verband tussen x en y)
○ Als de rico van de regressielijn positief is → moet de correlatiecoëfficiënt ook pos
● Standaardafwijking vs standaardfout(opdracht lineaireregressie)
○ Standaardafwijking = capteert hoeveel variabiliteit je hebt in je opmetingen (bv
mannen-vrouwen, andere leeftijd) =σ²= kwadraat vande variantie vd
storingstermen
■ Hangt niet af van de steekproefgrootte
○ Standaardfout = de standaardafwijking mbt de schatter, te maken met de
precisie, niet direct iets te maken met de onderliggende variabelen
■ Standaardfout vh gemiddelde = positieve vierkantswortel van σ²/n
■ Hangt af van de steekproefgrootte (als meer mensen meer zekerheid,
delen door iets groter)
2