Introduction;
Why?
o Behavioristische studies zijn veelal empirisch. Men maakt voorruitgang door
de realiteit te manipuleren en effecten te meten (experimenteel)
relaties tussen variabelen voorzichtig te observeren (correlationeel)
o toch… veel te maken met
onzekerheid (gedrag is beïnvloed door versch factoren)
measurement noise (meetfouten – nooit perfect)
variation tussen personen – situaties – tijd
o DUS decrease (vermindering) van onzekerheid – noise en beter begrijpen van soorten variaties
o Toch… onderzoeker /mensen snel beïnvloed door verkeerde ideeën/overtuigingen (fallacies)
o DOEL: statistiek op kritische manier te gebruiken ahv 3 meest gebruikte stat modellen
Analyses of variance
Linear regression
Logistic regression
X² = X square
Sample size = SP grootte
Dependent variable = afh variabele Y (scores /outcome)
Independent variable = onafhankelijke variabele X (manipulaties /interventiegroepen)
Average/mean = Gemiddelde Xstreep
Sample standard deviation = SD Sx (RM sigma x)
CI = confidence interval = BI
Y streep = Y bar
^µ = µ hat =>voor een geschatte gemiddelde v populatie in inferentiele stat
= fitted value is a model based approximation tot the observed score (postdiction
ipv prediction)
Aantal contrasts = aantal statistische toetsen = aantal hypothesen
SSeffect = effecten kwadratensom
SSerror = ss totaal ~beperkt = kwadratensom beperkt model
SS uitgebreid = fouten kwadratensom (uitgebreid model)
MSeffect = gemiddelde effectkwadratensom
MS error/uitgebreid = gemiddelde foutenkwadratensom
Anova 2 Werk je niet meer met error beperkt model, wel met effecten (.. gegeven…)
1
,Hoofdstuk 1 – data anlaysis workflow (& t-tests)
Voorbeeld; invloed van extrinsieke/intrinsieke motivatie op creativiteit. We zien verschil in gemiddelde maar is er ook verschil in
populatiegemiddelde tss 2 groepen?
1. Preparations = voorbereidingen
Onderzoeksvraag helder?
Match desing en onderzoeksvraag?
Gerandomiseerd, willekeurig voor causale vraag
Quasi experimenteel?
Check data for errors (fouten)
Vb decimalen vergeten, score hoger dan op punten schaal van 10 vragen
2. Exploratory data analyses = verkennende data analyse
= EDA = manier om data te onderzoeken op inhoudelijke kenmerken, samenhang, voorspellende/verklarende
eigenschappen
Gebruik descriptieve statistische tools
Om data te begrijpen
Voorzichtig antwoorden te zoeken op onderzoeksvragen
Extremen (outliers) te detecteren
Interessante aspecten van data ontdekken
X & Sx of info in histogram of info in boxplot (spreiding – distribution tss 2 groepen)
! extremen /outliers trekt curve naar die kant (rechts of links scheef)
3. Statistical inference ~ pagina 1 formularium
Stap 1; formuleer modellen & hypothesen
Reduce model:
Full model:
! iid = independent and identically
distributed = observaties zijn onafh
en komen v identiek zelfde
verdeling
Link met EAS?
Stap 2; toets statistiek: keuze en waarde
Wat weten we over verdeling van Y1-Y2 bij verschillende SP?
1. Normaal verdeeld
2. Met gemiddelde waarde van µ1-µ2
3. SD sigma * wortel 1/n1 + 1/n2
Maar sigma is onbekend dus (SE=standard error) SD van SP gebruiken als schatter
(estimate)
S’²op RM is dat Sx (schatter)
Vb t-toets (onder H0)=>altijd formule sigma gelijk en onbekend
Stap 3; SP verdeling (t verdeling), determineer p-waarde en maak een beslissing
p waarde = probability waarde
vgl p waarde met uitkomst t-toets (TABEL D)
≠ waarschijnlijkheid dat nulhypothese fout is
= afh van n (grootte SP) , NIET afh van effectgrootte =effect size (alfa/C)
Effectsize helpt ‘praktische significantie’ te evalueren
= resultaat ve test is statistisch sign of niet
p≤alfa verwerp Ho
Stap 4: effect size determination
Confidence interval (CI)
Kritieke t* vinden ahv alfa/2 of C= 1-alfa
2
,4. Interpretation
Conclusie formuleren:
Antwoord op onderzoeksvraag
Gebruik substantieve terminologie = inhoudelijk/vakgebonden termen
Resultaten samenvatten door plots te gebruiken
Indien enkel 2 groepen gebruikt=> niet echt nodig
Vb plots = boxplots
Benoem onderzoekslimieten
Randomisatie: causale inferentie mogelijk
Willekeurige/aselecte SP: assumptie is niet zeker, eigenlijk geen inferentie naar populatie
mogelijk
In realiteit is model -workflow meer complex omdat er bepaalde assumpties nodig zijn (normale verdeling,
gelijke variantie etc)drm steeds model kiezen en model checken !!!
3
, Hoofdstuk 2 – one way ANOVA
Voorbeeld; is er een verschil tss populatiegemiddelden?
1. Notation and introduction in one way ANOVA
Score van pp i in groep j
Aantal observaties in groep j
Totaal aantal observaties
Aantal groepen
o Factor
o Level of facto
SP in groep j
SP van alle observaties
Data-tabel
2. Exploratory data analysis = voorspellingen
Descriptief =>enkel beschrijvend hier !! >< geen uitspraken over populatie
Gemiddelde, SD, SP grootte => per conditie (groep) en voor volledige dataset
3. statistical inference ~ANOVA with one factor
uitspraken over population: “is there a difference between conditions” via ANOVA= analysis of variance
o ANOVA decomposes the total variability of DV Yij (SS total) into BG variability (SSeffect) and WG
(SSerror/full)
! SStotal = SSerror/reduced ~related to sample variance of DV
steeds 4 stappen ~pagina 2 en 3 formularium
stap 1; formuleer modellen en hypotheses
o reduced model:
o full model:
o P. 18 =>Qreduced (µ) is een functie van de onbekende parameter µ
Yij - µ = het verschil tss een observatie en wat het model ons vertelt = residual
Hoog residual: model doet het slecht met het uitleggen van die observatie
Laag residual: model doet het goed met het uitleggen v die observatie
stap 2; toets statistiek: keuze en waarde
o doel; vgl welk model meer adequaat is (met populatie)
ahv schattingen (estimating)
ahv 2 zaken die we bestuderen:
1) fit met data ~ Formule Sum of squares error (reduced/full)
o Doel: Schatten van µ in populatie
o ! SS error reduced model altijd ≥ SS error full model !
Want som van verschil tussen individuele scores en algemeen gemiddelde is groter
want afstand tussen scores is groter
o ! SS error reduced = SS total !
2) complexiteit (µ en sigma²) ~formule degrees of freedom (reduced/full)
o Doel: Schatten van µ1, µ2,… in populatie
o ! Reduced model heeft altijd meer vrijheidsgraden !
Want heeft minder parameters, dus 1 grote groep met alle n >< full model heeft
meerdere groepen, dus meerdere parameters, dus meerdere kleine n, dus minder
vrijheidsgraden (N-a)
o F-statistiek ~formularium & tabel E
BG: Intergroup variability: systematic variability door variatie in OV = tussen groepen var
= verschil tss scores met gemiddelde algemeen
WG: Within group variability: verschil tss scores met gemiddelde per groep
Kleine F toets: allemaal dichtbij elkaar (kleine BG) en gemiddelde per groep is ong gelijk VS
grote F toets : grote BG, gemiddelde per groep verschilt
Denominators (noemers) zijn in beide gevallen van F-toets hetzelfde
o ~related to mean square and global mean?
4