Inhoudsopgave
Hoofdstuk 2.................................................................................................................................. 2
Hoofdstuk 3.................................................................................................................................. 5
Hoofdstuk 6.................................................................................................................................. 8
Hoofdstuk 8................................................................................................................................. 13
Deel- en Semi-deelcorrelatie ................................................................................................... 14
Hoofdstuk 9................................................................................................................................. 17
Hoofdstuk 11 ............................................................................................................................... 22
1
,Hoofdstuk 2
Hypothesen en fouten
Ø 2 soorten hypothesen
v Null hypothesis (H₀)
= Stelt dat er geen effect of verschil is in de populatie. Dit is
de hypothese die we proberen te weerleggen.
v Alternative hypothesis (H₁)
= De hypothese die stelt dat er wél een effect of verschil is. Als
de nulhypothese wordt verworpen, wordt deze geaccepteerd.
Ø Type errors
v Type I error
= Het onterecht verwerpen van een ware nulhypothese (vals
positief). De kans hierop wordt bepaald door het α-level. Hallucinatie
v Type II error
= Het niet verwerpen van een valse nulhypothese (vals negatief). De kans hierop wordt
beïnvloed door het β-level. Blind zijn
Significantie en foutmarges
Ø α-level (significantieniveau)
= De grenswaarde (meestal 0,05) waaronder een resultaat als significant wordt beschouwd.
Ø β-level
= De kans op een Type II-fout, dus de kans dat een bestaand effect niet wordt ontdekt.
Ø Power
= De kans dat een statistische test correct een bestaand effect detecteert (1 - β).
Hogere power betekent een grotere kans om ware effecten te vinden.
Ø Confidence interval (betrouwbaarheidsinterval)
= Een schatting van een populatieparameter met een bepaalde zekerheid (bijv. 95% kans dat
het werkelijke gemiddelde binnen dit interval ligt).
Statistische toetsen
Ø One-tailed test
= Een test die alleen kijkt of een effect in één specifieke richting significant is (bijv. groter
dan of kleiner dan een waarde).
Ø Two-tailed test
= Een test die beide richtingen onderzoekt en kijkt of er een verschil is, ongeacht de richting.
Ø Test statistic
= De berekende waarde uit de steekproefdata die bepaalt of de nulhypothese wordt
verworpen.
2
, Steekproeven en populatie
Ø Population =De volledige groep waarover een conclusie wordt getrokken.
Ø Sample = Een subset van de populatie die wordt geanalyseerd om iets over de hele
populatie te zeggen.
Ø Sampling distribution= De verdeling van een steekproefstatistiek (zoals het gemiddelde) bij
herhaalde steekproeftrekking.
Ø Sampling variation= De variabiliteit in steekproefresultaten doordat verschillende
steekproeven verschillende uitkomsten geven.
Regressie en modellen
Ø Linear model
= Een wiskundig model dat de relatie tussen variabelen beschrijft met een lineaire
vergelijking.
Ø Method of least squares
= Een techniek om parameters in een lineair model te schatten door de som van de
gekwadrateerde afwijkingen tussen voorspelde en waargenomen waarden te minimaliseren.
Ø Ordinary least squares (OLS)
= Een veelgebruikte methode in regressieanalyse om een lineair model te fitten door fouten
te minimaliseren.
Ø Fit
=Hoe goed een statistisch model de geobserveerde data verklaart.
Fouten bij multiple testing
Ø Experimentwise error rate
= De kans dat ten minste één nulhypothese onterecht wordt verworpen in een experiment
met meerdere tests.
Ø Familywise error rate
= De kans dat ten minste één hypothese uit een familie van tests foutief wordt verworpen.
Ø Bonferroni correction
= Een methode om de kans op een Type I-fout te verminderen bij meerdere tests, door de α-
waarde te verdelen over het aantal uitgevoerde tests.
Statistische verdelingen en schattingen
Ø Central limit theorem
= Stelt dat de steekproefverdeling van het gemiddelde altijd een normale verdeling
benadert, ongeacht de verdeling van de populatie, mits de steekproef groot genoeg is.
v Bij grote steekproeven (>30) benadert de steekproevenverdeling een normale
verdeling.
o Hierdoor kunnen we de standaardfout benaderen met een wiskundige formule.
v Bij kleinere steekproeven (<30) volgt de verdeling een t-verdeling, wat een aangepaste
methode vereist.
Ø Degrees of freedom
= Het aantal onafhankelijke waarden dat kan variëren bij het schatten van een parameter,
vaak relevant bij t-tests en ANOVA.
Ø Deviance
= Een maat voor hoe goed een model de data verklaart; lager betekent een betere fit.
3