Statistiek samenvatting
Toetskeuze:
1. Dichotoom of continu?
2. Time-to-event?
3. Hoeveel verklarende variabelen?
4. Herhaalde metingen? (within of between subjects).
Wat is je afhankelijke variabele Situatie/ Type
Juiste Toets
(Y)? Voorspeller
Continu (bijv. BMI, gewicht, Enkelvoudige Lineaire
1 Continue voorspeller
oestrogeen) Regressie
1 Categorische
Independent t-test
voorspeller (2 groepen)
Meerdere voorspellers Multiple Lineaire
(Mixed) Regressie
Groepen + 1 extra
continue ANCOVA
(storende)factor
Meerdere metingen per Repeated Measures
persoon ANOVA
Dichotoom (Ja/Nee, Ziek/Gezond) Meerdere voorspellers Logistische Regressie
Survival Analyse
Tijd tot event (Survival) Vergelijken van groepen
(Kaplan-Meier)
Meerdere voorspellers
Cox Regressie
over tijd
Heel veel variabelen
Samenhang tussen items Factoranalyse
(reductie)
, Onderwerp 1: multipele regressie
Term Interpretaties
De voorspelde waarde van de afhankelijke variabele (Y) wanneer alle
Intercept (Constant)
onafhankelijke variabelen (X) gelijk zijn aan 0.
De gemiddelde verandering in Y bij een toename van exact één
Richtingscoëfficiënt (B)
eenheid in X, terwijl alle andere variabelen in het model gelijk blijven.
De aanname dat de variantie van de residuen (voorspelfouten) gelijk
Homoscedasticiteit
is voor alle niveaus van de voorspellende variabelen.
De correlatie tussen de werkelijke waarden van Y en de waarden die
R
door het model worden voorspeld.
Het deel (percentage) van de totale variatie in de afhankelijke
R (R Square)
2
variabele dat verklaard wordt door de onafhankelijke variabelen in
de steekproef.
Een schatting van het percentage verklaarde variatie in de populatie.
Adjusted R2
Het corrigeert voor het aantal voorspellers in het model.
Een schatting van de standaarddeviatie van de residuen; het geeft
Standard Error of the
aan hoe ver de werkelijke waarden gemiddeld afliggen van de
Estimate (SEE)
voorspelde waarden.
De maat voor de totale spreiding of variatie in de data (opgedeeld in
Sum of Squares (SS)
verklaarde en onverklaarde delen).
De Sum of Squares gedeeld door de bijbehorende vrijheidsgraden
Mean Square (MS)
(DF). Het is een maat voor de variantie.
De standaardfout van de geschatte B-waarde; het geeft de precisie
St. Error (bij Coëfficiënt) van de schatting aan (gebruikt om de t-waarde en p-waarde te
berekenen).
De totale variatie in de afhankelijke variabele ten opzichte van het
Sum of Squares Total
gemiddelde.
Sum of Squares De variatie in Y die door het lineaire model (de voorspellers) wordt
Regression verklaard.
De variatie in Y die niet door het model wordt verklaard (de
Sum of Squares Residual
foutenterm).
De extra variatie die verklaard wordt door een nieuwe set variabelen
R2 Change
toe te voegen aan een bestaand model.
De p-waarde die aangeeft of de toename in verklaarde variantie (R 2
Sig. F Change
Change) statistisch significant is.
De situatie waarin onafhankelijke variabelen onderling zeer sterk
Multicollineariteit samenhangen, wat de schatting van individuele coëfficiënten
onbetrouwbaar maakt.
Doel van regressie
Onderzoeksvraag:
Kan de afhankelijke variabele Y voorspeld worden op basis van één of meer
verklarende variabelen X?
Is er sprake van een lineair verband?
,Voorbeeld:
Y = vetpercentage
X = BMI
Een horizontale lijn betekent: geen verband → X heeft geen invloed op Y.
Regressiemodel en hypothesen
Simpele lineaire regressie
[Y] = β0 + β1 X
β₀ (intercept): waarde van Y als X = 0
β₁ (helling / richtingscoëfficiënt): verandering in Y bij een toename van X
met 1
Hypothesen:
H₀: β₁ = 0 (geen lineair verband, horizontale lijn)
H₁: β₁ ≠ 0 (wel een lineair verband)
Aannames van lineaire regressie
Deze aannames zijn nodig voor geldige toetsen:
1. Lineariteit
Het verband tussen X en Y is lineair.
2. Normaal verdeelde residuen
De fouten (Y − Ŷ) zijn normaal verdeeld.
3. Homoscedasticiteit
De variantie van de fouten (σ²) is constant voor alle waarden van X.
4. Onafhankelijke observaties
Metingen zijn onafhankelijk van elkaar.
Correlatie
Pearson correlatie (r)
Meet sterkte en richting van
een lineair verband
−1 ≤ r ≤ +1
Dimensieloos (eenheden maken niet uit)
Belangrijk:
r = 0 → geen lineair verband (er kan wel een
niet-lineair verband zijn)
Hypothesetoets (SPSS):
H₀: ρ = 0 (geen correlatie in de populatie)
Spearman’s rho (ρ)
Niet-parametrisch alternatief.
Gebruikt bij ordinale data of schending aannames.
SPSS-output: simpele lineaire
regressie
Model Summary
, R²: proportie van de variantie in Y verklaard door X (in %)
Adjusted R²: realistischer schatting voor de populatie
St. error of the estimate
Interpretatiezin:
“Het model verklaart 52,6% van de variantie in vetpercentage.”
Wat als adjusted R2 echt veel lager is dan de standard R2 dan zijn er te veel
onbelangrijke variabelen aan het model toevoegd. Adjusted R2 straft het toevoegen
van variabelen die de verklaarde variantie niet substantieel verhogen af.
ANOVA-tabel (F-toets)
Vraag: Doet het model als geheel iets?
Toetst H₀: β₁ = 0
Vergelijkt verklaarde variantie met
onverklaarde variantie
Rapportage:
“Het regressiemodel is significant,
F(1,249) = 276.61, p < .001.”
➡️ Conclusie: de regressielijn is niet
horizontaal.
5.3 Coefficients-tabel (t-toets)
B: ongestandaardiseerde
helling
p-waarde: significantie van
deze predictor
Beta: gestandaardiseerde
coëfficiënt
Interpretatie:
“BMI is een significante voorspeller
van vetpercentage (B = 1.53, p
< .001).”
Relatie tussen t- en F-toets
Bij simpele regressie geldt:
(F = t^2)
T toetst één coëfficiënt
F toetst het hele model
Toetskeuze:
1. Dichotoom of continu?
2. Time-to-event?
3. Hoeveel verklarende variabelen?
4. Herhaalde metingen? (within of between subjects).
Wat is je afhankelijke variabele Situatie/ Type
Juiste Toets
(Y)? Voorspeller
Continu (bijv. BMI, gewicht, Enkelvoudige Lineaire
1 Continue voorspeller
oestrogeen) Regressie
1 Categorische
Independent t-test
voorspeller (2 groepen)
Meerdere voorspellers Multiple Lineaire
(Mixed) Regressie
Groepen + 1 extra
continue ANCOVA
(storende)factor
Meerdere metingen per Repeated Measures
persoon ANOVA
Dichotoom (Ja/Nee, Ziek/Gezond) Meerdere voorspellers Logistische Regressie
Survival Analyse
Tijd tot event (Survival) Vergelijken van groepen
(Kaplan-Meier)
Meerdere voorspellers
Cox Regressie
over tijd
Heel veel variabelen
Samenhang tussen items Factoranalyse
(reductie)
, Onderwerp 1: multipele regressie
Term Interpretaties
De voorspelde waarde van de afhankelijke variabele (Y) wanneer alle
Intercept (Constant)
onafhankelijke variabelen (X) gelijk zijn aan 0.
De gemiddelde verandering in Y bij een toename van exact één
Richtingscoëfficiënt (B)
eenheid in X, terwijl alle andere variabelen in het model gelijk blijven.
De aanname dat de variantie van de residuen (voorspelfouten) gelijk
Homoscedasticiteit
is voor alle niveaus van de voorspellende variabelen.
De correlatie tussen de werkelijke waarden van Y en de waarden die
R
door het model worden voorspeld.
Het deel (percentage) van de totale variatie in de afhankelijke
R (R Square)
2
variabele dat verklaard wordt door de onafhankelijke variabelen in
de steekproef.
Een schatting van het percentage verklaarde variatie in de populatie.
Adjusted R2
Het corrigeert voor het aantal voorspellers in het model.
Een schatting van de standaarddeviatie van de residuen; het geeft
Standard Error of the
aan hoe ver de werkelijke waarden gemiddeld afliggen van de
Estimate (SEE)
voorspelde waarden.
De maat voor de totale spreiding of variatie in de data (opgedeeld in
Sum of Squares (SS)
verklaarde en onverklaarde delen).
De Sum of Squares gedeeld door de bijbehorende vrijheidsgraden
Mean Square (MS)
(DF). Het is een maat voor de variantie.
De standaardfout van de geschatte B-waarde; het geeft de precisie
St. Error (bij Coëfficiënt) van de schatting aan (gebruikt om de t-waarde en p-waarde te
berekenen).
De totale variatie in de afhankelijke variabele ten opzichte van het
Sum of Squares Total
gemiddelde.
Sum of Squares De variatie in Y die door het lineaire model (de voorspellers) wordt
Regression verklaard.
De variatie in Y die niet door het model wordt verklaard (de
Sum of Squares Residual
foutenterm).
De extra variatie die verklaard wordt door een nieuwe set variabelen
R2 Change
toe te voegen aan een bestaand model.
De p-waarde die aangeeft of de toename in verklaarde variantie (R 2
Sig. F Change
Change) statistisch significant is.
De situatie waarin onafhankelijke variabelen onderling zeer sterk
Multicollineariteit samenhangen, wat de schatting van individuele coëfficiënten
onbetrouwbaar maakt.
Doel van regressie
Onderzoeksvraag:
Kan de afhankelijke variabele Y voorspeld worden op basis van één of meer
verklarende variabelen X?
Is er sprake van een lineair verband?
,Voorbeeld:
Y = vetpercentage
X = BMI
Een horizontale lijn betekent: geen verband → X heeft geen invloed op Y.
Regressiemodel en hypothesen
Simpele lineaire regressie
[Y] = β0 + β1 X
β₀ (intercept): waarde van Y als X = 0
β₁ (helling / richtingscoëfficiënt): verandering in Y bij een toename van X
met 1
Hypothesen:
H₀: β₁ = 0 (geen lineair verband, horizontale lijn)
H₁: β₁ ≠ 0 (wel een lineair verband)
Aannames van lineaire regressie
Deze aannames zijn nodig voor geldige toetsen:
1. Lineariteit
Het verband tussen X en Y is lineair.
2. Normaal verdeelde residuen
De fouten (Y − Ŷ) zijn normaal verdeeld.
3. Homoscedasticiteit
De variantie van de fouten (σ²) is constant voor alle waarden van X.
4. Onafhankelijke observaties
Metingen zijn onafhankelijk van elkaar.
Correlatie
Pearson correlatie (r)
Meet sterkte en richting van
een lineair verband
−1 ≤ r ≤ +1
Dimensieloos (eenheden maken niet uit)
Belangrijk:
r = 0 → geen lineair verband (er kan wel een
niet-lineair verband zijn)
Hypothesetoets (SPSS):
H₀: ρ = 0 (geen correlatie in de populatie)
Spearman’s rho (ρ)
Niet-parametrisch alternatief.
Gebruikt bij ordinale data of schending aannames.
SPSS-output: simpele lineaire
regressie
Model Summary
, R²: proportie van de variantie in Y verklaard door X (in %)
Adjusted R²: realistischer schatting voor de populatie
St. error of the estimate
Interpretatiezin:
“Het model verklaart 52,6% van de variantie in vetpercentage.”
Wat als adjusted R2 echt veel lager is dan de standard R2 dan zijn er te veel
onbelangrijke variabelen aan het model toevoegd. Adjusted R2 straft het toevoegen
van variabelen die de verklaarde variantie niet substantieel verhogen af.
ANOVA-tabel (F-toets)
Vraag: Doet het model als geheel iets?
Toetst H₀: β₁ = 0
Vergelijkt verklaarde variantie met
onverklaarde variantie
Rapportage:
“Het regressiemodel is significant,
F(1,249) = 276.61, p < .001.”
➡️ Conclusie: de regressielijn is niet
horizontaal.
5.3 Coefficients-tabel (t-toets)
B: ongestandaardiseerde
helling
p-waarde: significantie van
deze predictor
Beta: gestandaardiseerde
coëfficiënt
Interpretatie:
“BMI is een significante voorspeller
van vetpercentage (B = 1.53, p
< .001).”
Relatie tussen t- en F-toets
Bij simpele regressie geldt:
(F = t^2)
T toetst één coëfficiënt
F toetst het hele model