Samenvatting Statistiek
Normaalverdeling
Variantie van een serie waarnemingsgetallensteekproef Waarin:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 xi = i-de getal in de getallenreeks x
𝑆 2 / 𝑉𝑎𝑟(𝑋̅) =
𝑛−1 x =̅ het steekproefgemiddelde
Variantie van een serie waarnemingsgetallenpopulatie n = het aantal observaties in de getallenreeks x
μ = het populatiegemiddelde
∑𝑛
𝑖=1(𝑥𝑖 −𝜇)
2
𝑆 2 / 𝑉𝑎𝑟(𝑋) = 𝑛 σ = de standaarddeviatie
Standaarddeviatie van een serie waarnemingsgetallensteekproef
𝑛
∑ (𝑥𝑖 −𝑥̅ ) 2
𝑆/𝜎(𝑋̅) = √ 𝑖=1𝑛−1 Waarin:
Zxi = de z-score van het i-de geobserveerde punt in de reeks x
Zyi = de z-score van het i-de geobserveerde punt in de reeks y
Standaarddeviatie van een serie waarnemingsgetallenpopulatie
n = het aantal observaties in de dataset
∑𝑛
𝑖=1(𝑥𝑖 −𝜇)
2
𝑆/𝜎(𝑋) = √ 𝑛
De waarschijnlijkheid van een bepaalde Z-score voor een waarde
𝑋−𝜇 ó𝑓 𝑥̅
Z-score 𝑍 = 𝜎
binnen een normaalverdeling volgt uit de volgende kenmerken
van een normaalverdeling:
𝑃(𝜇 − 𝜎 ≤ 𝑋 ≤ 𝜇 + 𝜎) ≈ 0,68
𝑃(𝜇 − 2𝜎 ≤ 𝑋 ≤ 𝜇 + 2𝜎) ≈ 0,95
𝑃(𝜇 − 3𝜎 ≤ 𝑋 ≤ 𝜇 + 3𝜎) ≈ 0,997
Oftewel, de kans op een Z-score van groter dan 3 of kleiner dan -3
Regressie-analyse is (tezamen) gelijk aan 1-0,997 = 0,003.
r = 1: er is een perfecte positieve lineaire relatie tussen de twee
variabelen.
Pearson’s ruitgedrukt in termen van Z-scores
r = −1: er is een perfecte negatieve lineaire relatie tussen de twee
∑𝑛
𝑖=1(𝑍𝑥𝑖 ×𝑍𝑦𝑖 )
variabelen. Alle punten liggen precies op een rechte lijn met een
𝑟= 𝑛−1 negatieve helling.
r = 0: er is geen lineaire relatie tussen de twee variabelen. Er is geen
verband tussen de variabelen.
1
, Determinatie-coëfficiënt Waarin:
∑𝑛 (𝑌 −𝑌
̂ )2 𝑌𝑖 = de geobserveerde waarden i zijn van de
𝑟 2 / 𝑅 2 = ( ∑𝑖=1
𝑛 (𝑌
𝑖 𝑖
−𝑌̅)2
) of afhankelijke variabele
𝑖=1 𝑖
̂𝑖 = de voorspelde waarden i van het
𝑌
regressiemodel
som van gekwadrateerde afwijkingen in de voorspelde waarden 𝑌̅ = de gemiddelde waarde van de geobserveerde
𝑟 2 /𝑅 2 = ( som van gekwadrateerde afwijkingen in de werkelijke waarden ) waarden
n = het aantal observaties in de dataset
of
𝑆𝑆tot − 𝑆𝑆res Waarin:
𝑟2/ 𝑅2 =
𝑆𝑆tot
𝑆𝑆tot = de totale som van kwadraten
of 𝑆𝑆res = de residuale som van kwadraten
𝑆𝑆𝑟𝑒𝑔 𝑆𝑆𝑟𝑒𝑔 = de regressiesom van kwadraten
𝑟 2 /𝑅2 =
𝑆𝑆tot
volgend uit
Waarin:
𝑦𝑖 = de waarden van de afhankelijke variabele
Totale som van kwadraten (𝑆𝑆tot ): voor observatie 𝑖
𝑛 𝑦̅ = het gemiddelde van de afhankelijke variabele
∑(𝑦𝑖 − 𝑦̅)2 𝑛 = het aantal observaties in de dataset
𝑖=1
Residuale som van kwadraten (𝑆𝑆res ):
𝑛
2
∑(𝑦𝑖 − 𝑦̂)
𝑖
Waarin:
𝑖=1 𝑦̂𝑖 = de voorspelde waarden van de afhankelijke
variabele voor observatie 𝑖
Regressie som van kwadraten (𝑆𝑆reg ):
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2
of
Voor berekenen regressielijn, zie ‘methodiek’.
𝑆𝑆𝑟𝑒𝑔 = 𝑆𝑆tot − 𝑆𝑆res
2
, Kritieke T-waardelineaire regressiecoëfficiënt
𝑏
𝑇 =
𝑠𝑒𝑏
Waarin:
b = de lineaire regressiecoëfficiënt
De berekening van de standaardfout in deze
𝑠𝑒𝑏 = de standaardfout van b
context is ingewikkeld en wordt in de
kennisclips en in de voorgeschreven literatuur
niet genoemd. Tijdens een tentamen zal deze
altijd gewoon worden gegeven.
Waarin:
b = de lineaire regressiecoëfficiënt
Betrouwbaarheidsinterval slope
𝑠𝑒𝑏 = de standaardfout van b
𝑏 ± 𝑇95%(𝑠𝑒𝑏 )
𝑇95% = de kritieke T-waarde bij df
Vrijheidsgradenlineaire regressiecoëfficiënt Waarin:
𝑑𝑓 = 𝑛 − 1 − 𝑘 n = het aantal observaties
k = het aantal regressoren/onafhankelijke
variabelen
Kritieke F-waarde
𝑑𝑓2 𝑆𝑆reg = de regressiesom van kwadraten
𝑆𝑆reg ×
𝑑𝑓1
𝐹= 𝑆𝑆res = de residuale som van kwadraten
𝑆𝑆res
𝑑𝑓1 = het aantal vrijheidsgraden voor de
regressie, gelijk aan het aantal regressoren
(onafhankelijke variabelen) in het model (=k).
𝑑𝑓2= het aantal vrijheidsgraden voor de residuen,
gelijk aan het aantal observaties minus het aantal
regressoren minus 1.
Betrouwbaarheidsanalyse
Waarin:
Covariantie tussen twee variabelen
X & Y = de twee variabelen waarvan je de
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) covariantie wilt berekenen
𝐶𝑜𝑣(𝑋, 𝑌) =
𝑛−1 xi & yi = de individuele waarden van deze
variabelen
x̅ & y̅ = de gemiddelden van X en Y
n = het aantal waarnemingen
3
Normaalverdeling
Variantie van een serie waarnemingsgetallensteekproef Waarin:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 xi = i-de getal in de getallenreeks x
𝑆 2 / 𝑉𝑎𝑟(𝑋̅) =
𝑛−1 x =̅ het steekproefgemiddelde
Variantie van een serie waarnemingsgetallenpopulatie n = het aantal observaties in de getallenreeks x
μ = het populatiegemiddelde
∑𝑛
𝑖=1(𝑥𝑖 −𝜇)
2
𝑆 2 / 𝑉𝑎𝑟(𝑋) = 𝑛 σ = de standaarddeviatie
Standaarddeviatie van een serie waarnemingsgetallensteekproef
𝑛
∑ (𝑥𝑖 −𝑥̅ ) 2
𝑆/𝜎(𝑋̅) = √ 𝑖=1𝑛−1 Waarin:
Zxi = de z-score van het i-de geobserveerde punt in de reeks x
Zyi = de z-score van het i-de geobserveerde punt in de reeks y
Standaarddeviatie van een serie waarnemingsgetallenpopulatie
n = het aantal observaties in de dataset
∑𝑛
𝑖=1(𝑥𝑖 −𝜇)
2
𝑆/𝜎(𝑋) = √ 𝑛
De waarschijnlijkheid van een bepaalde Z-score voor een waarde
𝑋−𝜇 ó𝑓 𝑥̅
Z-score 𝑍 = 𝜎
binnen een normaalverdeling volgt uit de volgende kenmerken
van een normaalverdeling:
𝑃(𝜇 − 𝜎 ≤ 𝑋 ≤ 𝜇 + 𝜎) ≈ 0,68
𝑃(𝜇 − 2𝜎 ≤ 𝑋 ≤ 𝜇 + 2𝜎) ≈ 0,95
𝑃(𝜇 − 3𝜎 ≤ 𝑋 ≤ 𝜇 + 3𝜎) ≈ 0,997
Oftewel, de kans op een Z-score van groter dan 3 of kleiner dan -3
Regressie-analyse is (tezamen) gelijk aan 1-0,997 = 0,003.
r = 1: er is een perfecte positieve lineaire relatie tussen de twee
variabelen.
Pearson’s ruitgedrukt in termen van Z-scores
r = −1: er is een perfecte negatieve lineaire relatie tussen de twee
∑𝑛
𝑖=1(𝑍𝑥𝑖 ×𝑍𝑦𝑖 )
variabelen. Alle punten liggen precies op een rechte lijn met een
𝑟= 𝑛−1 negatieve helling.
r = 0: er is geen lineaire relatie tussen de twee variabelen. Er is geen
verband tussen de variabelen.
1
, Determinatie-coëfficiënt Waarin:
∑𝑛 (𝑌 −𝑌
̂ )2 𝑌𝑖 = de geobserveerde waarden i zijn van de
𝑟 2 / 𝑅 2 = ( ∑𝑖=1
𝑛 (𝑌
𝑖 𝑖
−𝑌̅)2
) of afhankelijke variabele
𝑖=1 𝑖
̂𝑖 = de voorspelde waarden i van het
𝑌
regressiemodel
som van gekwadrateerde afwijkingen in de voorspelde waarden 𝑌̅ = de gemiddelde waarde van de geobserveerde
𝑟 2 /𝑅 2 = ( som van gekwadrateerde afwijkingen in de werkelijke waarden ) waarden
n = het aantal observaties in de dataset
of
𝑆𝑆tot − 𝑆𝑆res Waarin:
𝑟2/ 𝑅2 =
𝑆𝑆tot
𝑆𝑆tot = de totale som van kwadraten
of 𝑆𝑆res = de residuale som van kwadraten
𝑆𝑆𝑟𝑒𝑔 𝑆𝑆𝑟𝑒𝑔 = de regressiesom van kwadraten
𝑟 2 /𝑅2 =
𝑆𝑆tot
volgend uit
Waarin:
𝑦𝑖 = de waarden van de afhankelijke variabele
Totale som van kwadraten (𝑆𝑆tot ): voor observatie 𝑖
𝑛 𝑦̅ = het gemiddelde van de afhankelijke variabele
∑(𝑦𝑖 − 𝑦̅)2 𝑛 = het aantal observaties in de dataset
𝑖=1
Residuale som van kwadraten (𝑆𝑆res ):
𝑛
2
∑(𝑦𝑖 − 𝑦̂)
𝑖
Waarin:
𝑖=1 𝑦̂𝑖 = de voorspelde waarden van de afhankelijke
variabele voor observatie 𝑖
Regressie som van kwadraten (𝑆𝑆reg ):
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2
of
Voor berekenen regressielijn, zie ‘methodiek’.
𝑆𝑆𝑟𝑒𝑔 = 𝑆𝑆tot − 𝑆𝑆res
2
, Kritieke T-waardelineaire regressiecoëfficiënt
𝑏
𝑇 =
𝑠𝑒𝑏
Waarin:
b = de lineaire regressiecoëfficiënt
De berekening van de standaardfout in deze
𝑠𝑒𝑏 = de standaardfout van b
context is ingewikkeld en wordt in de
kennisclips en in de voorgeschreven literatuur
niet genoemd. Tijdens een tentamen zal deze
altijd gewoon worden gegeven.
Waarin:
b = de lineaire regressiecoëfficiënt
Betrouwbaarheidsinterval slope
𝑠𝑒𝑏 = de standaardfout van b
𝑏 ± 𝑇95%(𝑠𝑒𝑏 )
𝑇95% = de kritieke T-waarde bij df
Vrijheidsgradenlineaire regressiecoëfficiënt Waarin:
𝑑𝑓 = 𝑛 − 1 − 𝑘 n = het aantal observaties
k = het aantal regressoren/onafhankelijke
variabelen
Kritieke F-waarde
𝑑𝑓2 𝑆𝑆reg = de regressiesom van kwadraten
𝑆𝑆reg ×
𝑑𝑓1
𝐹= 𝑆𝑆res = de residuale som van kwadraten
𝑆𝑆res
𝑑𝑓1 = het aantal vrijheidsgraden voor de
regressie, gelijk aan het aantal regressoren
(onafhankelijke variabelen) in het model (=k).
𝑑𝑓2= het aantal vrijheidsgraden voor de residuen,
gelijk aan het aantal observaties minus het aantal
regressoren minus 1.
Betrouwbaarheidsanalyse
Waarin:
Covariantie tussen twee variabelen
X & Y = de twee variabelen waarvan je de
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) covariantie wilt berekenen
𝐶𝑜𝑣(𝑋, 𝑌) =
𝑛−1 xi & yi = de individuele waarden van deze
variabelen
x̅ & y̅ = de gemiddelden van X en Y
n = het aantal waarnemingen
3