Tinneke Nijs
2023-2024
,MULTIVARIATE DATA-ANALYSE
WAAROM DATA-ANALYSE?
Data-analyse = noodzakelijk voor psychologen
1. Cf. data-analyse in de media
2. Begrip van + kritische instelling tegenover vakliteratuur
3. Kunnen verzamelen/analyseren van data
VOORBEELDEN
Data-analyse komt vaak voor in de koppen maar je moet oppassen want
ze leggen snel causale verbanden terwijl het over bijvoorbeeld over
associatie/corelaties gaat
Heeft een grote invloed op ons functioneren -> bv. Tijdens corona
werden verkeerde begrippen van data-analyse gebruikt (verkeerd begrip
van statistiek, verkeerde analyse van gegevens, dingen uit de context
halen, …)
Vandaag: wat gaan we doen indien we data hebben (hoe analyseren?)?
1
,HRM psycholoog
• Bevraging werknemers omtrent jobtevredenheid
• Hoe ga je de data analyseren
• Het helpt je om: (verschillende stappen die je zet tijdens de data-analyse)
1. Data te organiseren (grafieken,…)
- Neemt veel tijd in beslag
2. Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
- Kijk naar je data -> grafieken want in tabellen neem je een outliner niet snel weer die
kan zorgen voor een schijn-effect maar in grafieken kan je dit wel beter zien
- Visuele methoden zoals grafieken maken data meer overzichtelijk en artikels meer
aantrekkelijk
3. Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek, verklaren)
- Data is nooit fout maar interpretatie kan wel fout zijn. Toetsen geven altijd een
uitkomst maar zorg ervoor dat deze juist geïnterpreteerd worden en ook of deze zinnig
is (bv. Als je rugnummers hebt kun je een anova gaan uitvoeren maar wilt dit iets
zeggen?)
4. Theorieën te verifiëren en aan te passen
- Geneert nieuwe onderzoeksvragen en hypotheses waardoor de wetenschap vooruit
kan
INDUCTIEVE STATISTIEK
Inductieve Statistiek
2
,Kunnen niet heel de populatie gaan onderzoeken dus trekken er een steekproef uit
(soms kan je wel een hele populatie onderzoeken en dit heeft impact op statistieken want gaan meestal steekproefgegevens
extrapoleren naar de populatie maar als je data van iedereen van de populatie hebt moet je niet gaan extrapoleren =>
beschrijvende statistiek)
Gaan inductieve statistiek toepassen op de steekproef om aan de hand van infertiele statistiek algemene uitspraken over de
populatie te doen
VAN STEEKPROEF NAAR POPULATIE
Gaan steekproef trekken en onze testen laten dan toe om zaken die we in de steekproef observeren te testen of dat sig verschilt
van populatiegemiddelde
Dient voornamelijk voor uitspraken te doen over grotere groepen die we niet volledig kunnen meten -> zien of het redelijkerwijs
afwijkt van voorspelling
Schatten:
Toetsen:
BEGRIPPEN
Theorie → Hypothese → Steekproef → Steekproefgrootheden
• Theorie: begint met voorkennis aan statistiek -> bepaald fenomeen informeren door bv. Literatuur
• Hypothese: obv voorkennis gemaakt
• Steekproef: dient om hypothese te verifiëren
3
, • Steekproefgrootheid: Leiden uit de steekproef een aantal grootheden af
Belang van context -> inbedded in theory (bekijken in de context van uw theorie)
• Meeste statistiek dat wij doen is geen data-minding maar vertrekt vanuit een bepaalde gedachte -> voor kwalitatief
interpreteren van data is dit belangrijk -> bv. Merken een interactie-effect op die compleet tegenovergesteld is van de
theoretische verwachtingen dan mogen we dit niet gewoon aannemen maar moeten we contextualiseren (hoe komt dit?)
-> heeft het te maken met de kwaliteit van mijn data, heb je het verkeerd onderzoek gedaan, verkeerde codering gedaan,
…? -> indien je alle mogelijke fouten bent nagegaan en je nog steeds hetzelfde uitkomt dan kan je zeggen dat je iets
nieuws gevonden hebt (maar eerst kwalitatieve checks doen want het moet in context van uw theory bekeken worden =
inbedded in theory)
Steekproefgrootheid
• (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de steekproef (vb.: rekenkundig gemiddelde, proportie,…)
o Je kan oneindig veel steekproeven trekken uit een populatie die bijna altijd andere resultaten gaat geven ->
stel dat je 100000 steekproeven trekt en steeds een gemiddelde gaat berekenen dan zie je dat die
steekproefproefgrootheden ook een verdeling hebben ➔ Steekproefgrootheid = toevalsvariabele
met een bepaalde verdeling → steekproevenverdeling (verdeling van steekproefgrootheid)
- Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en we berekenen S2, etc. tot Sn
S1, S2, S3, S4, …, Sn
• Bootstrap-methode
- De verdeling van deze steekproefgrootheden = Steekproevenverdeling
SteekproeFverdeling (samPLE distribution)
• Frequentieverdeling van de uitkomsten van de
steekproef
• Empirisch, gekend (zien en observeren we)
SteekproeVENverdeling (sampLING distribution)
• Kansverdeling van alle mogelijke waarden die een
steekproefgrootheid (voor alle mogelijke
verschillende steekproeven) kan aannemen
• Theoretisch, benaderen, observeren we niet
Stel: steekproefgrootheid = X (gemiddelde)
Wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit een normaal verdeelde populatie met gemiddelde =
en standaardafwijking = dan is de steekproeven-verdeling van het steekproefgemiddelde normaal verdeeld
N ,
n
Centrale limietstelling: Wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit een willekeurig verdeelde
populatie met gemiddelde = en standaardafwijking = en indien n voldoende groot (vuistregel: n 30) is, dan benadert de
steekproevenverdeling van het steekproefgemiddelde een normaalverdeling:
4
,
N ,
n
(basically: als je voldoende observaties hebt zal het de normaalverdeling volgen)
Centrale limietstelling: Applet
Hoe meer personen je hebt, hoe dichter het bij de normaalderverdeling gaat gaan
Examen: krijgt grafiek en je moet daarover vragen beantwoorden (wat ontbreekt er?
Wat is het probleem? Wat is het effect van de standaardafwijking die groot is? Wat
is het effect van variantie-analyse als je de spreiding verhoogt of wnr je veel
verschillen in data hebt) => wolfram kan helpen om hier een beter zicht op te krijgen
Regressie naar het gemiddelde: als je een voorspelling maakt gaat het meer kans hebben dat het ergens naargelang het
gemiddelde gaat liggen -> meest juiste voorspelling met beperkte gegevens (bv. Voorspellen hoe groot een kind gaat zijn later
door de gemiddelde lengte van de ouders ten nemen als voorspelling)
NOTATIES
EYEBALLING DATA
Cf. Hair et al. (2013), Chapter 2, pp. 31-89
Overzicht
• Grafisch verkennen van data
• Analyse van ontbrekende data (missing data)
• Outliers
• Assumpties
5
, • Normaliteit
• Homoscedacticiteit
• Lineariteit
• Data transformaties
• Dummy codering
• Besluit
GRAFISCH VERKENNEN
Onderzoek van verdelingen
o Histogram
o Stam/blad diagram
o Box Plot
→ Globaal zicht!
Boxplot: info over positie, spreiding, symmetrie, rekenkundig gemiddelde, percentielen, hoogste en laagste waarde, maximum
voor outliers, …
• Handig in je thesis om deze ook te geven
• Was ooit een examenvraag
Boxplot in SPSS
• Als je een frequentiegrafiek bekijkt (rechts), hoe ziet dat eruit in een boxplot (links)? -> kun je dezelfde informatie uit
halen maar boxplot kan het overzichtelijker maken
Histogram: info over normaliteit verdeling
6
,Stem en leaf: werkelijke waarden waarnemingen
GRAFIEK OPTIES
7
,ANALYSE MISSING DATA
Ontbrekende waarden voor 1/meer variabelen
• Komt heel veel voor (veel outliers, kwijt gespeelde data, niet ingevulde data, …)
• Afh van de methode die je gebruikt om deze gaten op te vullen heeft het effect op de toelaatbaarheid van verschillende
technieken
o Bv. Je wilt een test met herhaalde metingen uitvoeren van 10 mensen die je 150 keer gaat meten kan SPSS
listwise delition toepassen waarbij die iedereen verwijderd waar dat er 1 ding of meer ontbreekt -> kan zijn
dat je dan niemand meer overhoudt omdat SPSS iedereen verwijderd heeft
Oorzaak van ontbrekende waarde?
- Onafhankelijk van respondent
• Procedure (e.g., Indien “nee”, ga naar vraag xxx → “branching”)
- Om biasen door te lange vragenlijsten te voorkomen -> afh van antwoorden krijg je andere vragen maar
je krijgt hierdoor veel blanco antwoorden omdat niet iedereen alle vragen krijgt
• Codeerfouten
- Afhankelijk van de respondent
• Omvang? (veel of weinig)
- Hoeveel van de respondenten heeft niet geantwoord?
- De hoeveelheid van de vragen heeft ook invloed op hoeveel % van de vragenlijst wordt ingevuld
• Analyse van het profiel van missing data (is er systematiek of random?)
- Is het random?
- OF Is er iets in de data waarbij je als onderzoeker impact hebt gehad op de data = systematische fout
(hebben we niet graag want dat wil zeggen dat we een slecht design hebben)
- Missing data analyse om dit na te gaan: gaat het over random of systematische missing data?
Impact missing data
- Praktische impact
• Reductie steekproefgrootte (listwise deletion; vb. Antarctica data)
- Bij grote studies maakt dit niet veel uit maar als je onder extreme omstandigheden zoals antartica en
je slecht kleine steekproeven hebt dan kan dit sneller een probleem vormen
• Indien te veel missing: N vergroten of remediëren (zie verder)
• Zorgt dat je een goed design hebt anders krijg je uw data niet meer rechtgetrokken
- Nonrandom missingness (systematische missing)
• Geven bias!
- Impact op interpretaties -> verkeerde interpretaties de wereld insturen
8
, • Specifieke groepen uitgesloten uit analyse (vb. hoge inkomens zijn vaak niet open over hun inkomen en
weigeren info vrij te geven)
• Merk je pas op als je missing data hebt bestudeerd
Data-set voorbeeld
• Deelnemers met ontbrekende variabele (horzizontaal)
• Of variabele die over respondenten vaak open gelaten wordt
(verticaal)
Kan dus zowel aan de variabele als aan de deelnemer liggen
STAP 1: BEPAAL HET SOORT MISSING DATA
Verwaarloosbare missing data
Niet-verwaarloosbare missing data
Dit bepaalt de juiste remedie!
Zie stappenplan Hair et al. (2013), Figure 4, p. 43
Verwaarloosbare missing data
= verwachte missing data , deel van de procedure, toegelaten
= random missingness
1. Data van individuen (observatie-eenheden) die niet in de steekproef zitten en dus ook niet test maar wel
uitspraken over doet
2. Skip-patronen in design (e.g., “Rookt u? Zo neen, ga naar item x”)
3. Censored data: niet beschikbaar
- Bv. Data van het verleden is niet altijd
voor handen (bv. Hoe voelde je je
gisteren -> zit mogelijk bias in)
→ Niet remediëren voor deze gevallen!
GEKENDE niet-verwaarloosbare MD
= te wijten aan procedurele factoren
= hebt hier relatief weinig controle over
o Codeerfouten, fouten bij ingeven data
o Vragenlijst niet volledig ingevuld (vb tijdsgebrek)
9