1. Inlezen van een dataset, dataverkenning & missing value analyse
1.1. CSV databestand inlezen SPSS: wide-formaat
File à open data à CSV databestand kiezen à stappen volgen in het menu
Goed de data bekijken en de juiste tabs aanvinken.
Zeker:
- Remove leading spaces from string values
- Remove trailing spaces from string values Als likertschaal: mag je als Interval
- Paste in syntax – yes meetniveau interpreteren!! Gedraagt zich
lineair. à Van de likertschaal scores wordt
Bekijk je data view en variable view! meestal een gemiddelde genomen.
Klopt string /numeric (= bevat enkel getallen) overal?
“Lineariteitsvoorwaarde is voldaan.” DWZ: de
Kloppen de meetniveau’s?
sprong tussen verschillende waarde is even
Vul je ‘values’ aan! groot over de gehele Schaal = een interval
Zie je op het eerste zicht veel missing data? schaal
ƒanti-
1.2. Dataverkenning: correcte tabellen en grafieken
Scatterplot Relatie of verband tussen Interval/ratio × "Bestaat er een Graphs à
twee continue variabelen Interval/ratio samenhang Scatter/dot…
tussen X en Y?"
Lineair
verband?
Uitschieters?
Barplot Verschillen Nominaal/ordinaal "Welke groep Graphs à
tussen groepen op basis × Gemiddelde of scoort hoger?" Bar…
van een categorie frequentie "Hoe vaak à p. 8 WPO
komt iets voor? à p. 17 WPO
Boxplot Vergelijk verdelingen of Nominaal/ordinaal "Hoe Graphs à
mediaan/spreiding × Interval/ratio verschillen Boxplot…
tussen groepen groepen qua
mediaan en
spreiding?"
Detectie van
uitschieters/ à p. 11,14 WPO
outliers
Histogram Spreiding of verdeling Interval/ratio "Is de verdeling Graphs à
van één continue normaal?" Histogram…
variabele Symmetrie,
scheefheid,
multimodaliteit
Summaries for groups of cases = gegevens binnen dezelfde figuur afbeelden
Summaries of seperate variables = Voor elke variabele een andere figuur
1
, Lijngrafiek Verandering van Ordinaal/tijd × Hoe verandert Graphs à
waarden over tijd of Gemiddelde iets over tijd of Line…
ordinale categorieën volgorde?
à p. 19,20 WPO
Options à missing values:
‘exclude cases listwise’ = Als 1 van de 2 cases ontbreekt, beide niet mee opnemen in de
analyse
bv. Als in 2005 wel data, maar niet in 2023 à niet opnemen
‘exclude cases variable by variable’ = geef mij alle info die voorhanden is (globale interesse)
Een bepaalde beschrijvende statistiek weergeven voor een beperkte groep binnen de
data set: Select cases
Data à select cases…
Een bepaalde beschrijvende statistiek weergeven waarbij de data weergeven wordt
volgens een bepaalde onderverdeling (bv. per continent, per loonschijf, per geslacht,…)
Zowel in grafiek als in tabel:
Data à split file…
Altijd weer afzetten na een oefening!
Daarna de beschrijvende statistieken opvragen en/of een z-score variabele aanmaken
via:
analyze à descriptive statistics à descriptives p. 15 WPO
OF (meer uitgebreid: grafieken, normaalverdeling (vd z-scores) testen, missing data
bekijken,…)
analyze à descriptive statistics à explore
OF
Zelf een tabel opstellen:
analyze à table à custom table
2
, 1.3. Variabelen aanpassen/veranderen
“Maak een nieuwe variabele aan (obv bestaande data)”
Bv. een variabele met gemiddelden, een verschilscore,…
Transform à compute variable…
“Pas een variabele aan, maar behoud de variabele”
Bv. Maak van een string variabele een numerieke variabele: man/vrouw =>
Transform à recode into same variables
“Pas een variabele aan, maar maak een nieuwe variabele aan”
Bv. Baseer je op inkomen en verdeel de dataset volgens laag, middelmatig en hoog
inkomen in de nieuwe variabele
Transform à recode into diRerent variables
1.4. Missing value analysis
- Nieuwe variabele aanmaken die missingness aangeeft (data wel/niet aanwezig)
Transform è recode into diRerent variables
‘System of user-missing’ = 1
‘else’ = 0
-Missing data gaan analyseren:
Analyze è missing value analysis
Opdelen in kwalitatieve en kwantitatieve variabelen
Voor de Little’s MCAR-test moet je EM aanduiden. Hoe
aflezen?
H0: data zijn MCAR
Ha: data zijn niet MCAR
Als niet significant (p > .05) → data zijn MCAR
-Samenhang tussen missingness en andere variabele
à Zie p. 7 (1.6: puntbiseriële correlatie)
3
, 1.5. Outliers/uitschieters
Hoe de bekijken of er (problematische) uitschieters zijn?
Graph è boxplot
Simple boxplot; summaries of seperate variables!
Schaalvariabelen bij
‘boxes represent’
‘label cases by’ invullen om de
uitschieters in de output een naam te geven
bv. ID, sex,…
Bolletjes: de uitschieters zijn meer dan
1,5 interkwartielafstand verwijderd zijn
van de mediaan.
Sterretjes: de uitschieters zijn meer dan
3 interkwartielafstanden verwijderd is
van de mediaan.
Via frequentietabel (descriptive
statistics) kan je beter overzicht
krijgen van de uitschieters. Kan je
misschien ook gaan bepalen of het
gaat over extreme waarden of een
foute waarde bv. typfout
Analyse à descriptive statistics à descriptives
! Let op grote verschillen tussen mediaan en gemiddelde
! Let op de spreiding
! Let op minimum en maximum: zit er een waarde bij die er niet zou kunnen/mogen
staan?
4