Hoofdstuk 1: vergelijken van gemiddeldes en enkelvoudige lineaire regressie
1.2 one-sample probleem
°testen of een bepaalde variabele gemiddeld verschilt van een waarde X
°nulhypothese (H0) stelt dat er geen verschil is: 𝐻" : 𝜇" = 𝑋
Alternatieve hypothese (Ha) omvat de andere mogelijkheden: 𝐻( : 𝜇" ≠ 𝑋
°via toetsingsgrootheid of test-statistiek waarschijnlijkheid van H0 testen: <5% = verwerpen
, -+
+
°vergelijken van gemiddeldes met verwachte waarde: 𝑇 = 1.
,
/0
2
ð Hoeveel geobserveerde gemiddelde afwijkt van verwachting / standaard fout
°standaardfout geeft weer hoe nauwkeurig gemiddelde geschat wordt
°t-verdeling met n-1 vrijheidsgraden als H0 correct is:
-verdelen in aanvaardingsregio en verwerpingsregio: grenzen t0,025, n-1 en t0,975,n-1
-p-waarde: kans om een extremer resultaat te bekomen
à als die > 5% H0 aanvaarden
-tweezijdige toets: 𝐻" : 𝜇" = 𝑋 en 𝐻( : 𝜇" ≠ 𝑋
Links eenzijdige: 𝐻" : 𝜇" ≥ 𝑋 en 𝐻( : 𝜇" < 𝑋
Rechts eenzijdige: 𝐻" : 𝜇" ≤ 𝑋 en 𝐻( : 𝜇" > 𝑋
-gaat ervanuit dat de data normaal verdeelt zijn: 𝑦8 ~𝑁(𝜇, 𝜎 > )
à eerst testen met Shapiro-Wilk test
°bij niet normaal verdeelde data niet-parametrische test uit voeren vb. wilcox test
1.3 we maken fouten
°𝛽 afhankelijk van: -werkelijk verschil H0 en Ha
-𝛼: hoe kleiner 𝛼, hoe groter 𝛽 en omgekeerd
-breedte normale verdeling: hoe kleiner 𝜎 of steekproefgrootte, hoe kleiner 𝛽
1.4 two-sample probleem
°testen van hypotheses voor 2 populaties (vergelijken van 2 gemiddeldes)
°𝐻" : 𝜇B = 𝜇B → 𝐻" : 𝜇B − 𝜇B = 0 en 𝐻( : 𝜇B ≠ 𝜇B → 𝐻( : 𝜇B − 𝜇B ≠ 0
, -+
(+ , )-+
°toetsingsgrootheid: 𝑇 = FG, 1 .
, F IH
H ,1
,F1 L(K1 -B)G
(KF -B)G ,11
°gepoolde variantie: 𝜎J+,F -+,1 = / (als varianties gelijk zijn)
KF LK1 ->
ð T-verdeling met 𝑛B + 𝑛> − 2 vrijheidsgraden
,1
G ,1
G
𝜎J+,F -+,1 = /KF + KF (varianties niet gelijk)
F 1
1
,1
0 F ,1
0 F
P L R
QF Q1
ð T-verdeling met 1 1 vrijheidsgraden
,1
0 ,1
0
S FT S FT
QF QF
L
QF IF Q1 IF
Homoscedasticity: het gelijk zijn van de varianties
°via var.test kijken of varianties gelijk zijn als F sterk verschilt van 1 zijn ze niet gelijk
°om normaliteit te testen vector maken van de waarden met het gemiddelde ervan afgetrokken
°power.t.test geeft de power van de test en de steekproefgrootte nodig op verschil aan te tonen
, 1.6 gepaarde data en de gepaarde t-test
°gegevens zijn 2 aan 2 afhankelijk van elkaar à je kan geen gewone t-test uitvoeren
°voor elk koppel datapunten het verschil berekenen en hiermee t-test doen
°𝐻" : 𝜇B-> = 0 en 𝐻( : 𝜇B-> ≠ 0
1.7 anova
°2 of meer gemiddeldes met elkaar vergelijken o.b.v. het vergelijken van de varianties
°𝐻" : 𝜇B = 𝜇> = 𝜇U = ⋯
°statistisch model: 𝑦8W = 𝜇8 + 𝜀8W met 𝜀8W ~𝑁(0, 𝜎 > ) (i=nummer groep, j=nummer waarneming)
à 𝑦8W = 𝜇" + 𝛼8 + 𝜀8W met 𝜇" =gemiddelde van referentiegroep
𝛼8 =verschillen in gemiddelde t.o.v. referentiegroep
ànulhypothese: alle 𝛼8 zijn gelijk aan nul
°y splitsen in: -deel verklaard door model SSA(variatie tussen groepen)
-residuele variatie SSE(verschil binnen groepen)
ð mean sum of squares (MSA en MSE) door sum of squares te delen door hun vrijheidsgraden
°MSA=MSE als de gemiddeldes gelijk zijn à toetsingsgrootheid = ratio MSA en MSE
ð Beiden varianties die chi-kwadraat verdeling volgen, ratio volgt F-verdeling
Z[\
°als H0 correct toetsingsgrootheid 𝐹 = Z[] met k-1 en N-k vrijheidsgraden
°als er geen gelijkheid van varanties of normaliteit kruskal-wallis test gebruiken
°om na te gaan waar te verschillen zitten Tukey test uitvoeren
1.8 enkelvoudige lineaire regressie
1.8.1 inleiding
°waarden van variabele bestuderen in relatie tot 1 of meerdere andere variabelen
°𝑦8 = 𝛽" + 𝛽B · 𝑥8 + 𝜀8 met 𝜀8 ~𝑁(0, 𝜎 > ) (𝛽" =intercept en 𝛽B =helling)
ð 𝛽" en 𝛽B moeten geschat worden (schatters b0 en b1)
°voor elke waarde van x gefitte waarde voor y: 𝑦J8 = 𝑏" + 𝑏B 𝑥8
=deterministische gedeelte van model
°verschil tussen geobserveerde waarden y en gefitte waarden 𝑦J8
=stochastische gedeelte
1.8.2 schatten van parameters en toetsen hypotheses
°helling en intercept schatten door methode van de kleinste kwadraten
ð Minimaliseren van de som van de kwadraten van de residuele waarden
= afstand data en regressierechte
∑Q (cd -ef)(gd -hf)
𝑏aB = diF
Q
∑diF(cd -ef ) 1 en 𝑏a" = 𝑌f − 𝑏aB 𝑋f
°regressieverband afleiden door summary op te vragen
1.8.3 model assumpties onderzoeken
°scatterplot van gefitte waarden tegenover residuele waarden
ð Als dit horizontale puntenwolk is verband lineair en varianties constant
°normal probability plot om normaliteit te bekijken
°figuur met op x-as leverage en y-as gestandardiseerde residuele waarden
ð Combinatie van deze 2 waarden = cooks afstand
ð > 1 = invloedrijke waarneming die regressieverband verstoord
1.8.4 voorspellingen maken
°2 soorten betrouwbaarheidsintervallen: -confidence: uitspraak over gemiddelde waarneming
-prediction: voorspelling individuele waarneming
1.2 one-sample probleem
°testen of een bepaalde variabele gemiddeld verschilt van een waarde X
°nulhypothese (H0) stelt dat er geen verschil is: 𝐻" : 𝜇" = 𝑋
Alternatieve hypothese (Ha) omvat de andere mogelijkheden: 𝐻( : 𝜇" ≠ 𝑋
°via toetsingsgrootheid of test-statistiek waarschijnlijkheid van H0 testen: <5% = verwerpen
, -+
+
°vergelijken van gemiddeldes met verwachte waarde: 𝑇 = 1.
,
/0
2
ð Hoeveel geobserveerde gemiddelde afwijkt van verwachting / standaard fout
°standaardfout geeft weer hoe nauwkeurig gemiddelde geschat wordt
°t-verdeling met n-1 vrijheidsgraden als H0 correct is:
-verdelen in aanvaardingsregio en verwerpingsregio: grenzen t0,025, n-1 en t0,975,n-1
-p-waarde: kans om een extremer resultaat te bekomen
à als die > 5% H0 aanvaarden
-tweezijdige toets: 𝐻" : 𝜇" = 𝑋 en 𝐻( : 𝜇" ≠ 𝑋
Links eenzijdige: 𝐻" : 𝜇" ≥ 𝑋 en 𝐻( : 𝜇" < 𝑋
Rechts eenzijdige: 𝐻" : 𝜇" ≤ 𝑋 en 𝐻( : 𝜇" > 𝑋
-gaat ervanuit dat de data normaal verdeelt zijn: 𝑦8 ~𝑁(𝜇, 𝜎 > )
à eerst testen met Shapiro-Wilk test
°bij niet normaal verdeelde data niet-parametrische test uit voeren vb. wilcox test
1.3 we maken fouten
°𝛽 afhankelijk van: -werkelijk verschil H0 en Ha
-𝛼: hoe kleiner 𝛼, hoe groter 𝛽 en omgekeerd
-breedte normale verdeling: hoe kleiner 𝜎 of steekproefgrootte, hoe kleiner 𝛽
1.4 two-sample probleem
°testen van hypotheses voor 2 populaties (vergelijken van 2 gemiddeldes)
°𝐻" : 𝜇B = 𝜇B → 𝐻" : 𝜇B − 𝜇B = 0 en 𝐻( : 𝜇B ≠ 𝜇B → 𝐻( : 𝜇B − 𝜇B ≠ 0
, -+
(+ , )-+
°toetsingsgrootheid: 𝑇 = FG, 1 .
, F IH
H ,1
,F1 L(K1 -B)G
(KF -B)G ,11
°gepoolde variantie: 𝜎J+,F -+,1 = / (als varianties gelijk zijn)
KF LK1 ->
ð T-verdeling met 𝑛B + 𝑛> − 2 vrijheidsgraden
,1
G ,1
G
𝜎J+,F -+,1 = /KF + KF (varianties niet gelijk)
F 1
1
,1
0 F ,1
0 F
P L R
QF Q1
ð T-verdeling met 1 1 vrijheidsgraden
,1
0 ,1
0
S FT S FT
QF QF
L
QF IF Q1 IF
Homoscedasticity: het gelijk zijn van de varianties
°via var.test kijken of varianties gelijk zijn als F sterk verschilt van 1 zijn ze niet gelijk
°om normaliteit te testen vector maken van de waarden met het gemiddelde ervan afgetrokken
°power.t.test geeft de power van de test en de steekproefgrootte nodig op verschil aan te tonen
, 1.6 gepaarde data en de gepaarde t-test
°gegevens zijn 2 aan 2 afhankelijk van elkaar à je kan geen gewone t-test uitvoeren
°voor elk koppel datapunten het verschil berekenen en hiermee t-test doen
°𝐻" : 𝜇B-> = 0 en 𝐻( : 𝜇B-> ≠ 0
1.7 anova
°2 of meer gemiddeldes met elkaar vergelijken o.b.v. het vergelijken van de varianties
°𝐻" : 𝜇B = 𝜇> = 𝜇U = ⋯
°statistisch model: 𝑦8W = 𝜇8 + 𝜀8W met 𝜀8W ~𝑁(0, 𝜎 > ) (i=nummer groep, j=nummer waarneming)
à 𝑦8W = 𝜇" + 𝛼8 + 𝜀8W met 𝜇" =gemiddelde van referentiegroep
𝛼8 =verschillen in gemiddelde t.o.v. referentiegroep
ànulhypothese: alle 𝛼8 zijn gelijk aan nul
°y splitsen in: -deel verklaard door model SSA(variatie tussen groepen)
-residuele variatie SSE(verschil binnen groepen)
ð mean sum of squares (MSA en MSE) door sum of squares te delen door hun vrijheidsgraden
°MSA=MSE als de gemiddeldes gelijk zijn à toetsingsgrootheid = ratio MSA en MSE
ð Beiden varianties die chi-kwadraat verdeling volgen, ratio volgt F-verdeling
Z[\
°als H0 correct toetsingsgrootheid 𝐹 = Z[] met k-1 en N-k vrijheidsgraden
°als er geen gelijkheid van varanties of normaliteit kruskal-wallis test gebruiken
°om na te gaan waar te verschillen zitten Tukey test uitvoeren
1.8 enkelvoudige lineaire regressie
1.8.1 inleiding
°waarden van variabele bestuderen in relatie tot 1 of meerdere andere variabelen
°𝑦8 = 𝛽" + 𝛽B · 𝑥8 + 𝜀8 met 𝜀8 ~𝑁(0, 𝜎 > ) (𝛽" =intercept en 𝛽B =helling)
ð 𝛽" en 𝛽B moeten geschat worden (schatters b0 en b1)
°voor elke waarde van x gefitte waarde voor y: 𝑦J8 = 𝑏" + 𝑏B 𝑥8
=deterministische gedeelte van model
°verschil tussen geobserveerde waarden y en gefitte waarden 𝑦J8
=stochastische gedeelte
1.8.2 schatten van parameters en toetsen hypotheses
°helling en intercept schatten door methode van de kleinste kwadraten
ð Minimaliseren van de som van de kwadraten van de residuele waarden
= afstand data en regressierechte
∑Q (cd -ef)(gd -hf)
𝑏aB = diF
Q
∑diF(cd -ef ) 1 en 𝑏a" = 𝑌f − 𝑏aB 𝑋f
°regressieverband afleiden door summary op te vragen
1.8.3 model assumpties onderzoeken
°scatterplot van gefitte waarden tegenover residuele waarden
ð Als dit horizontale puntenwolk is verband lineair en varianties constant
°normal probability plot om normaliteit te bekijken
°figuur met op x-as leverage en y-as gestandardiseerde residuele waarden
ð Combinatie van deze 2 waarden = cooks afstand
ð > 1 = invloedrijke waarneming die regressieverband verstoord
1.8.4 voorspellingen maken
°2 soorten betrouwbaarheidsintervallen: -confidence: uitspraak over gemiddelde waarneming
-prediction: voorspelling individuele waarneming