Verkennen van data
Waarom data-analyse?
- Data-analyse = noodzakelijk voor psychologen
o Cfr. data-analyse in de media
o Begrip van + kritische instelling tegenover vakliteratuur
o Kunnen verzamelen/analyseren van data
- Het helpt je om
o Data te organiseren (grafieken, …)
o Data te beschrijven (beschrijvende/deductieve – samenvatten)
o Interpreteren en uitspraken doel op basis van data (inferentiële/inductieve
– verklaren)
o Theorieën te verifiëren en aan te passen
Inductieve statistiek
Populatie Schatten:
Toetsen:
Significant verschil?
Inferentiële statistiek Steekpro x = 50 =?
= 80 ef
. Steekproefgemiddelde populatiegemiddelde
hypothese
Algemene uitspraken Beschrijvende statistiek
Specifieke uitspraken
- Begrippen
o Steekproefgrootheid (a statistic, statistische grootheid) Theorie
Maat gebaseerd op de gegevens van de steekproef (vb.
rekenkundig gemiddelde, proportie,…) Hypothese
Toevalsvariabele met een bepaalde verdeling n
steekproevenverdeling
Stel: steekproefgrootheid = x Steekproef
o Wanneer men herhaaldelijk toevallige
steekproeven met grootte n trekt uit een Steekproef
-
normaal verdeelde populatie met gemiddelde groothede
= en standaardafwijking = dan is de
steekproevenverdeling van het steekproefgemiddelde
normaal verdeeld:
( )
o N ,
❑
√n
o Steekproefverdeling (sample distribution)
Frequentieverdeling van de uitkomsten van de steekproef
Empirisch, gekend
o Steekproevenverdeling (sampling distribution)
Kansverdeling van alle mogelijke waarden die een
steekproefgrootheid (voor alle mogelijke verschillende
steekproeven) kan aanmelden
Verdeling van steekproefgrootheden
Theoretisch, benaderen
o Centrale limietstelling
Wanneer men herhaaldelijk toevallige steekproeven met grootte n
trekt uit een willekeurig verdeelde
populatie met gemiddelde = en
, standaardafwijking = en indien n voldoende groot (vuistregel: n
30) is, dan benadert de steekproeven-verdeling van het
steekproefgemiddelde een normaalverdeling
N ,( )
❑
√n
- Notaties:
Eyeballing data VA BA
- Grafisch verkennen van data rechts geskewed
positief
o Onderzoek van verdelingen
Histogram
Info over normaliteit verdeling
Stam/blad diagram uniform
grotere box
Box plot
Info over positie, spreiding, links geskewed
negatief
symmetrie
Globaal zicht
- Analyse van ontbrekende data (missing data)
o Ontbrekende waarden voor 1/meer variabelen
Oorzaak?
Onafhankelijk van respondent
o Procedure (eg. indien ‘nee’, ga naar vraag x
branching)
o Codeerfouten
Afhankelijk van respondent
o Omvang? (veel of weinig)
o Analyse van het profiel van missing data (is er
systematiek of random?)
Impact?
Praktische impact
o Reductie steekproefgrootte (listwise deletion, vb.
Antarctica data)
o Indien te veel: N vergroten of remediëren
Non-random missingness
o Bias!
o Specifieke groepen uitgesloten uit analyse (vb. hoge
inkomens)
o Merk je pas op als je missing data hebt bestudeerd
o Stappenplan
Stap 1: bepaal het soort missing data
Verwaarloosbare missing data
o Verwacht, deel van de procedure, toegelaten
o Random missingness
Data van individuen (observatie-eenheden) die
niet in de steekproef zitten (vb. geen vragen over
mentale gezondheid)
Skip-patronen in design (vb. indien ‘nee’, ga naar
vraag x)
Censored data: niet beschikbaar
Niet remediëren
Gekende niet-verwaarloosbare missing data
o Te wijten aan procedurele factoren
, o Weinig controle over
Codeerfouten, fouten bij ingeven data
Vragenlijst niet volledig ingevuld (vb. tijdsgebrek)
Sterfte respondent
Onbekende niet-verwaarloosbare missing
data
o Moeilijker op te sporen/remediëren
o Gerelateerd aan respondent
Weigering ‘gevoelige’ items: “geen mening”
Stap 2: hoeveel data is missing?
Indien omvang zeer klein is
o <10% per case
o Voldoende cases zonder missing
o Geen non-randomness geen effect op resultaten +
elke remedie OK
Indien groot randomness (toeval) onderzoeken
o >1/3 = groot probleem
Stap 3: toeval in missing data onderzoeken
Soorten
o Missing completely at random (MCAR)
Tussen de subgroepen zijn missing data random
gelijk
De kans dat data missing is, is gelijk voor iedereen
in de sample
De oorzaak van missing data is onafhankelijk van
de data
Elke remedie is OK
Zeer weinig voorkomen
Vb. als een enquête willekeurig wordt
gestopt vanwege een stroomstoring, dan
zijn de ontbrekende antwoorden
o Missing at random (MAR) onderzoeken
Binnen subgroepen zijn missing data random
maar verschillen tussen groepen
Missing data zijn afhankelijke van andere
variabelen
Gerelateerd aan de waargenomen gegevens, maar
niet aan de ontbrekende gegevens zelf
Vb. als mannen minder geneigd zijn om een
vraag over emoties te beantwoorden, maar
dit alleen afhangt van het geslacht (een
waargenomen variabele) en niet van de
werkelijke emoties (de ontbrekende
variabele),
Vb. studie naar het voorspellen van inkomen
obv opleiding
o Inkomensgegevens ontbreken bij
laagste inkomensgroep MAR
o Missing Not at Random (MNAR)
Gerelateerd aan de niet-waargenomen gegevens,
oftewel de ontbrekende gegevens zelf.
De kans dat een gegeven ontbreekt afhankelijk is
van zowel waargenomen als niet-waargenomen
gegevens.
, Vb. studie naar het voorspellen van inkomen
obv opleiding
o Inkomensgegevens missen bij de
hoogste inkomens/ bepaalde ‘range’
van data ontbreekt MNAR
Hoe nagaan?
o Visuele inspectie: waar zijn de gaten in de data
o Diagnostische tests
Cases met missings voor variabele Y vergelijken
met cases zonder missing op Y: verschillen ze op
andere variabelen (vb. t-toets)
Recoding: geldige respons = 1; missing = 0;
vervolgens punt-biseriële correlatie berekenen
Overall test for randomness
Runs Test: kijkt naar de volgorde van
opeenvolgende waarnemingen om te
bepalen of het aantal runs (opeenvolgende
waarnemingen boven of onder de mediaan)
groter of kleiner is dan wat je zou
verwachten bij een willekeurige reeks
o "Run" = reeks opeenvolgende
observaties met dezelfde eigenschap
Test for Serial Correlation: controleert op
correlatie tussen opeenvolgende
waarnemingen. Als de waarnemingen
volledig willekeurig zijn, zou er geen (of zeer
lage) correlatie moeten zijn
o Vooral gebruikt bij tijdreeksgegevens
Spectral Analysis: spectrale analyse helpen
om te bepalen of er cyclische patronen zijn
die niet willekeurig lijken
o Tijdreeksgegevens
Chi-Square Tests for Randomness:
onderzoeken of de frequentieverdeling van
waarnemingen over verschillende
categorieën overeenkomt met wat verwacht
zou worden onder een willekeurige verdeling
Stap 4: omgaan met missing data
Hoe?
o Trachten te vermijden (vb. check vragenlijsten,
aandachtig bij coderen, …)
o Standaard listwise deletion (enkel complete cases)
o Cases en/of variabelen verwijderen (als random)
o MAR of MCAR: imputatie (missing data vervangen)
Imputation of missing data based on extent of
missing data (rules of thumb 2-2):