Applied multiple regression / correlation analysis
for
Behavioral sciences
(Cohen & Cohen)
Door Esther van Zessen
Inhoudsopgave
Korte herhaling statistiek 2
Multipele regressie
H3, H5
Niet-lineaire regressie
H6, H13
Categoriale of nominale onafhankelijke variabelen
H8
Verbanden tussen categoriale variabelen
Herhaalde metingen ANOVA
H9, H15
,Korte herhaling statistiek 2
Enkelvoudige lineaire regressie
Yi = β0 + β1X1 + εi
Assumpties: lineaire relatie tussen X en gemiddelde van Y, alle subpopulaties voor elke waarde van X
zijn normaal verveeld met gelijke variantie σ (homoscedasticiteit), residuen εi ~ N(0, σ) zijn
onafhankelijk van X.
Geschatte regressielijn: Ŷ = B0 + BYXX met BYX = rYX * (sdY/sdX) en B0 = MY - BYXMX
SE van de residuen: SEY -Ŷ = √( ( Σ(Yi - Ŷi)2 / (n - 2) )
Gebruik tn-2 verdeling
Multipele regressie
Hoe minder vars, hoe beter interpreteerbaar, hoe slechter R2
Multicollineariteit: 2+ IV sterk gecorreleerd, coefficienten overlappen en betrouwbaarheid
gereduceerd. Correlatiematric houdt geen rekening met indirecte correlatie (X & Z zwak, X&Y
& Z sterk). VIF (variance inflation factor) houdt daar wel rekening mee: 1/(1-R2) MAAR
regressie doorvoeren voor elke IV. Vanaf 10 = ernstige multicollineariteit.
Oplossing: centreren van data. Als twee variabelen hetzelfde meten, 1 eruit halen.
By1 = ryx1*( Σ(Y) / sdx1) regression coefficient
B0 = Ymean - By1*X1mean
Partial regression coefficients (direct effects): BY1.2 for Y on X1 with X2 in equation, By2.1 for Y on X2
with X1 in equation. Full equation: Ŷ = By1.2X1 + By2.1X2 + B0y.12
Als X1 met 1 eenheid verandert, verandert Y met By1.2 als X2 gelijk blijft
βy1.2 = (ry1 - ry2*r12) / (1 - r122) waarbij β gestandaardiseerde regressie coefficient is, ry1 en ry2 zero-order
correlaties met Y en r12 de correlatie van X1 met X2
By1.2 = βy1.2 * (sdy / sd1) en B0 = My - By1.2*M1 - By2.1*M2
R2 = sdŷ2 / sdy2 [R2 = (SStotal - SSresiduals/error) / SStotal ]
R = rŷy
r2 is proportie van de variantie van elke variabele die gedeeld wordt met de andere, R2 is proportie van
de variantie van de afhankelijke variabele (sdy2) die gedeeld wordt met de optimaal gewogen
onafhankelijke variabelen.
Ry.12 = √( (ry12 + ry22 - 2*ry1*ry2*r12) / (1 - r122) ) ofwel Ry.12 = √(βy1.2*ry1 + βy2.1*ry2)
ry1 = correlatie tussen Y en Ŷ1, ry2 = correlatie tussen Ŷ12 en Y-Ŷ1, r12 = correlatie tussen Ŷ12 en Y
dus omdat Ŷ zo dicht mogelijk bij Y ligt, kan r12 niet negatief zijn en r12 = Ry.12 dus die kan ook
niet negatief zijn. (liever niet mee rekenen als Ry.12)
Ry.122 = sdy.122/sdy2
Semipartial correlation coefficients (srn): squared is het de proportie variantie in Y, verklaard door de
onafhankelijke variabelen (a+b+c), min de overlap tussen de onafhankelijke variabelen (c). Dus de
unieke verklaarde variantie van Y door de onafhankelijke variabelen (a+b). Semipartieel omdat de
effecten van X2 wel uit X1 zijn gehaald, maar niet uit Y.
> Hoeveel totale variantie in Y is uniek verklaard door deze IV?
a = sr12 = Ry.122 - ry22
b = sr22 = Ry.122 - ry12
ry12 = a + c
ry22 = b + c
Ry.122 = a + b + c
, sr1 = (ry1 - ry2*r12) / √(1 - r122)
sr12 = Ry.122 - ry22 = a + b + c - (b + c) = a
sr1 = ry (x1 min xx1.2) of, wordt ook wel vermeld als, ry(1.2)
c is niet per se positief, dus interpreteer c niet als proportie van variantie, a & b nooit negatief.
i . j means i from which j is partialed
part correlation = semipartial correlation
partial correlation = partial correlation
Partial correlation coefficients (prn): squared is het de proportie van sdy2 (a+b+c+e) niet geassocieerd
met X2 (a+e) en wel geassocieerd met X1 (a).
> Welke proportie van de totale variantie in Y die niet verklaard wordt door andere IVs, is uniek
> verklaard door deze IV?
pr12 = a / (a + e) = (Ry.122 - ry22) / (1 - ry22) = a / (1 - b + c)
Omdat de noemer/denominator niet groter kan zijn dan 1, zijn partiele correlaties altijd groter dan
semipartiele correlaties, tenzij andere onafhankelijke variabelen 0 correleren met Y, dan sr = pr
pr1 = (ry1 - ry2*r12) / (√(1 - ry22)*√(1 - r122))
pr1 = r(y min ŷ2) (x1 min xx2.1) of, wordt ook wel vermeld als, ry2.1 wat betekent: r(y.1) (2.1)
Omdat Ŷ1 een lineaire transformatie is van X1 en dus hetzelfde moet correleren, is rŷ1 y = ry1 = r1
Zo is ook rŷ12 y = Ry.12 en rŷ1 (y min ŷ1) = 0, want als je X1 weghaalt uit Y, correleert het residu nul met elke
lineaire transformatie van de weggehaalde variabelen, en Ŷ1 is een lineaire transformatie van X1
(Ŷ1 = B1*X1 + B0)
Dus als sr12 is groot, dan heeft X1 een unieke relatie met Y en als pr12 is groot, dan heeft X1 een unieke
relatie met Y als X2 constant blijft.
Met k onafhankelijke variabelen:
βi = Bi * (sdi/sdy)
Ry.12...k2 = Σ(βiryi)
R2 = Σ(βi2) + 2 * Σ(βiβjrij) met eerste over k IVs en tweede over k(k-1)/2 distincte paren IVs
AdjRy2 = 1 - (1 - Ry2) *(n-1)/(n-k-1) is the adjusted R2
sri2 = Ry.12...i...k2 - Ry.12...(i)...k-12
sri = ry(i.12...(i)...k-1)
sri = βi * √(1 - Ri.12...(i)...k-12) alles in de wortel is de tolerantie van de variabele
Ri.12....(i)...k-12 = Ri2 = 1 - 1/rii waarbij rii uit de inverse van de correlatie matrix komt
sri2 = (pri2 / (1 - pri2)) * (1 - Ry.123...k2)
pri = ryi.12...(i)...k-1
pri2 = sri2 / (1 - Ry.12...(i)...k-12)
Waarbij sri2 gelabeld wordt als de 'unique contribution' aan R2 en pri2 de proportie van de variantie van
Y dat onafhankelijk is van de andere IVs, uniek verklaard door Xi.
SER22 = ( 4R2 * (1 - R2)2 * (n - k - 1)2 ) / ( (n2 - 1) * (n + 3) ) let op: standaard error is niet kwadratisch
CI: R2 ± (tc * SE) or R2 ± me
SERv2 - Rm2 = √(SERv2 + SERm2)