Samenvatting TB234B Multivariate data analyse
Meetniveaus
Beschrijvende maten
● Gemiddelde: ΣYi / N
● Variantie (σ2/s2): Σ(Yi - Y )2 / N
● Standaarddeviatie (σ/s) √variantie
● Covariantie (cov(X,Y)/cxy) Σ(Yi - Y )(Xi - X ) / N
Correlatie = maat voor richting en samenhang van het lineair verband tussen twee
variabelen (gekromde dubbele pijl)
● Gestandaardiseerde covariantie, dus te gebruiken voor variabelen gemeten in
verschillende eenheden
● Correlatie met een constante is nul, want een constante heeft geen variantie
Standaardisatie = vergelijkbaar maken van variabelen gemeten op verschillende
meetschalen
Z-score drukt uit hoeveel standaarddeviaties de originele X score is verwijderd van het
originele gemiddelde van X
● Heeft gemiddelde 0 en standaarddeviatie en variantie 1
, Enkelvoudige regressie = voorspellen of verklaren: X → Y
Regressievergelijking (ongestandaardiseerd): Y = C + b*X
● C is waarde van Y bij X=0 en b is verandering in Y bij 1 eenheid toename X
Regressievergelijking (gestandaardiseerd): Zy = bz * Zx
● bz is verandering in standaarddeviaties bij 1 standaarddeviatie toename X
● Heeft geen constante omdat het gemiddelde nul is
● In enkelvoudige regressie (1 predictor): gestandaardiseerde coëfficiënt = correlatie!
Van gestandaardiseerd naar ongestandaardiseerd: omrekenen met
standaarddeviaties naar oorspronkelijke eenheid → vermenigvuldigen
Kleinste kwadraten methode = Regressielijn bepalen door het minimaliseren van de
gekwadrateerde residuen
● Kwadrateren zodat positieve en negatieve verschillen niet tegen elkaar wegvallen,
hierdoor zijn grote residuen invloedrijker
● Verklaarde deel = het verschil tussen de regressielijn en het gemiddelde
● Onverklaarde deel = het verschil tussen geobserveerde waarde en voorspelde
waarde op regressielijn (residu / error / voorspellingsfout)
Proportie of percentage verklaarde variantie (R2) = dat deel van de variantie in Y dat
verklaard kan worden door de regressie met X (door de predictor) = maat voor hoe goed het
regressiemodel kan voorspellen
● SS regression / SS total
● Bij 1 predictor: R2 = r2 (correlatie in het kwadraat)
● SPSS: in Anova, automatisch gemaakt bij regressieanalyse en in model summary
Multipele regressieanalyse
● Variabelen met grootste correlatie met te onderzoeken variabele komen in
aanmerking voor multipele regressie analyse
Partiële regressiecoëfficiënt = het pure effect van een predictor, waarbij andere predictoren
niet tegelijkertijd ook veranderen (gecontroleerd voor…)
● Drukt uit hoeveel eenheden Y verandert bij 1 eenheid verandering in predictor, onder
controle andere predictoren
Gestandaardiseerd:
● Drukt uit hoeveel std. dev. Y verandert bij 1 std. dev. verandering in predictor, onder
controle andere predictoren
Meetniveaus
Beschrijvende maten
● Gemiddelde: ΣYi / N
● Variantie (σ2/s2): Σ(Yi - Y )2 / N
● Standaarddeviatie (σ/s) √variantie
● Covariantie (cov(X,Y)/cxy) Σ(Yi - Y )(Xi - X ) / N
Correlatie = maat voor richting en samenhang van het lineair verband tussen twee
variabelen (gekromde dubbele pijl)
● Gestandaardiseerde covariantie, dus te gebruiken voor variabelen gemeten in
verschillende eenheden
● Correlatie met een constante is nul, want een constante heeft geen variantie
Standaardisatie = vergelijkbaar maken van variabelen gemeten op verschillende
meetschalen
Z-score drukt uit hoeveel standaarddeviaties de originele X score is verwijderd van het
originele gemiddelde van X
● Heeft gemiddelde 0 en standaarddeviatie en variantie 1
, Enkelvoudige regressie = voorspellen of verklaren: X → Y
Regressievergelijking (ongestandaardiseerd): Y = C + b*X
● C is waarde van Y bij X=0 en b is verandering in Y bij 1 eenheid toename X
Regressievergelijking (gestandaardiseerd): Zy = bz * Zx
● bz is verandering in standaarddeviaties bij 1 standaarddeviatie toename X
● Heeft geen constante omdat het gemiddelde nul is
● In enkelvoudige regressie (1 predictor): gestandaardiseerde coëfficiënt = correlatie!
Van gestandaardiseerd naar ongestandaardiseerd: omrekenen met
standaarddeviaties naar oorspronkelijke eenheid → vermenigvuldigen
Kleinste kwadraten methode = Regressielijn bepalen door het minimaliseren van de
gekwadrateerde residuen
● Kwadrateren zodat positieve en negatieve verschillen niet tegen elkaar wegvallen,
hierdoor zijn grote residuen invloedrijker
● Verklaarde deel = het verschil tussen de regressielijn en het gemiddelde
● Onverklaarde deel = het verschil tussen geobserveerde waarde en voorspelde
waarde op regressielijn (residu / error / voorspellingsfout)
Proportie of percentage verklaarde variantie (R2) = dat deel van de variantie in Y dat
verklaard kan worden door de regressie met X (door de predictor) = maat voor hoe goed het
regressiemodel kan voorspellen
● SS regression / SS total
● Bij 1 predictor: R2 = r2 (correlatie in het kwadraat)
● SPSS: in Anova, automatisch gemaakt bij regressieanalyse en in model summary
Multipele regressieanalyse
● Variabelen met grootste correlatie met te onderzoeken variabele komen in
aanmerking voor multipele regressie analyse
Partiële regressiecoëfficiënt = het pure effect van een predictor, waarbij andere predictoren
niet tegelijkertijd ook veranderen (gecontroleerd voor…)
● Drukt uit hoeveel eenheden Y verandert bij 1 eenheid verandering in predictor, onder
controle andere predictoren
Gestandaardiseerd:
● Drukt uit hoeveel std. dev. Y verandert bij 1 std. dev. verandering in predictor, onder
controle andere predictoren