De dataset WPO1.csv bevat een dataset uit het sociaal-wetenschappelijke GAPMINDER onderzoek van
onderzoeksbureau Gallup. Probeer ter voorbereiding alvast enkele van onderstaande vragen te
beantwoorden. Zorg ervoor dat je bij figuren steeds een titel voorziet voor de figuur, voor de assen en dat je
zinvolle labels hebt per
categorie. Sommige van de vragen bundelen inzichten uit de zelfstudiebundel, dus je mag zeker ook
internet (denk naast Google ook aan Copilot of chatGPT) gebruiken bij het helpen voorbereiden.
Variabele Informatie Legende
country Land, voluit geschreven NOMINAAL MEETNIVEAU
hap_2005 tot hap_2023 Happiness scores voor het Herschaald naar een
land voor de jaren 2005 t.e.m. 2023, score tussen 0 en 100.
berekend als een ➔ RATIO MEETNIVEAU
gemiddelde van een ➔ NUMERIEKE
steekproef van inwoners. VARIABELEN
Geluk wordt gemeten met de Cantril
Scale.
• Please imagine a
ladder with steps
numbered from zero at the
bottom to 10 at the top.
• The top of the ladder
represents the best
possible life for you and
the bottom of the ladder
represents the worst
possible life for you.
• On which step of the
ladder would you say
you personally feel you stand
at this time?
income_groups Een inkomensclassificering voor het Low, lower-middle, upper-
land in 4 categorieën middle, high income
obv BNP per capita. ➔ ORDINAAL MEETNIVEAU
landlocked Is het land volledig ➔ NOMINAAL MEETNIVEAU
continentaal, of heeft het een
kustlijn.
main_religion_2008 Meest voorkomende religie in ➔ NOMINAAL MEETNIVEAU
het land, zoals gemeten in 2008.
1
, world_4region Continent Europa, Azië, Amerika,
Afrika
➔ NOMINAAL MEETNIVEAU
world_6region Andere continentale indeling in 6 europe_central_asia,
continenten middle_east_north_africa,
sub_saharan_africa,
America,
east_asia_pacific
➔ NOMINAAL MEETNIVEAU
pop_2023 Bevolkingsgrootte, gemeten in ➔ RATIO
2023
gini_2023 Gini index, hoge waarden betekent ➔ RATIO
een hoge mate van economische
ongelijkheid (kleine minderheid die
meerderheid van geld bezit)
gdp_pcap_2023 BNP per capita, gemeten in ➔ RATIO
2023
life_exp_2023 Levensverwachting, zoals geschat in Hoe oud (in jaren) wordt een
2023. persoon als de
omstandigheden hetzelfde
zouden blijven
als nu.
➔ RATIO
unemployment_2017 Werkloosheidsgraad, % langdurig werklozen in de
gebaseerd op de cijfers beschikbaar actieve bevolking
in 2017. ➔ RATIO
Verklaarde -> y-as -> Afhankelijke v
Verklarende -> x-as -> Onafhankelijke v
2
,Voorbereiding
1. Zoek op hoe je een csv bestand inleest en importeer het bestand. Let goed op het
scheidingsteken van de gegevens (deze kan je zien door het bestand in kladblok/notepad te
openen). Voor SPSS gebruikers: er is eenmalig een .sav
bestand voorzien als de import thuis niet zou lukken, maar vanaf volgende lessen zal dit niet meer
voorzien worden.
a. Lees de data in
b. Controleer steeds ook je data type: zijn numerieke variabelen ook ingelezen als
getallen en niet als string/character?
Belangrijke stappen
Open eerst het bestand in notepad en zoek naar:
*1) wat de verschillende waarden scheidt = "delimiter",
*2) wat het decimaalteken is,
*3) op welke lijn de namen van de variabelen staat en vanaf waar de cases beginnen,
*4) hoe waarden worden onderscheiden van elkaar, bv via aanhalingstekens,
Aandachtspunten
*Open het bestand via "open" of via "import" en zorg dat alle instellingen juist staan voor
het databestand dat je probeert in te lezen
*Zorg ervoor dat je numerieke variabelen als numeriek inleest.
*Elk databestand is anders; zorg dat je deze zaken goed nakijkt zodat je achteraf geen
problemen hebt met het manipuleren van je data.
3
, Instellingen goed zetten
➔ Geen aanpassing nodig
➔ Geeft preview wat er gaat
komen
Bekijken voor iedere dataset, voor iedere dataset anders:
➔ Delimited: telkens een bepaald karakter (bv: een komma) tussen de verschillende variabelen
staan -> in eerste voorbeeld komma
➔ Variables included at the top of your file -> in preview zichtbaar vanboven dus JA
➔ Period -> ts v een punt
4