HOOFDSTUK 2: HET ABC VAN STATISTIEK
INLEIDING
Corona & Welzijn (C&W) studie
Grootschalige veranderingen:
o Werkloosheid
o Eenzaamheid
o Ziekte
Onderzoeksinteresse:
o Hoeveel procent van Belgen had in het begin van de coronapandemie te kampen met depressieve
gevoelens?
o Lag dat percentage een jaar later hoger of lager?
Doelgroep: ouder dan 18j, woonachtig te België, de Nederlandse taal machtig.
Bijna 4000 personen vulden tussen 3 en 17 april 2020 de eerste vragenlijst online in.
Een deel van de antwoorden van die respondenten zijn het eerste databestand waarop dit handboek is
gebaseerd.
Van 2 tot 16 april 2021 werd een tweede keer de vragenlijst online gepost, dit keer namen ongeveer 512
mensen deel.
De antwoorden van deze respondenten zijn het tweede databestand van dit handboek.
Specifiek is gekeken naar
o 1) mentaal welzijn:
o 2) stress over corona:
o 3) relatiestress en partnergeweld:
o 4) ouderschapsstress:
o 5) werk- en studiestress:
o 6) financiële stress:
VOORBEELD ‘financiële stress’
o Item1: Met mijn/ons huidig inkomen is het moeilijk om veel meer te veroorloven dan de
basisbenodigdheden.
o Item2: Ik heb het gevoel dat mijn/ons huidig inkomen toelaat een levensstandaard te behouden die ik
wens.
o Item 3: Met mijn/ons huidig inkomen is het moeilijk om rond te komen (dit wil zeggen ‘de eindjes aan
elkaar te knopen’.
o Antwoordopties: van (1) niet akkoord tot (5) Akkoord
Onderzoeksvragen beantwoorden
1) Gegevens of kenmerken verzamelen over de onderzoekspopulatie = waarden verzamelen van variabelen
2) De juiste descriptieve of inferentiële analysetechniek(en) kiezen
3) Statistische analyse(s) uitvoeren op de verzamelde gegevens
1
,Drie bepalende factoren
Drie bepalende factoren om de juiste descriptieve of inferentiële analysetechniek te bepalen
1) Aantal variabelen in de onderzoeksvraag
o Vb. Welke leeftijdsgroep ervaarde het meest depressieve gevoelens tijdens de coronaperiode?
2 variabelen: leeftijdsgroep en depressieve gevoelens
2) Meetniveau van elke variabele
o Vb. Welke leeftijdsgroep ervaarde het meest depressieve gevoelens tijdens de coronaperiode?
Leeftijdsgroep: ordinale variabele
Depressieve gevoelens: metrische variabele
3) Rol van elke variabele in de onderzoeksvraag
o Vb. Welke leeftijdsgroep ervaarde het meest depressieve gevoelens tijdens de coronaperiode?
Leeftijd: onafhankelijke variabele
Depressieve gevoelens: afhankelijke variabele
Meetniveau van variabelen
Onderzoekseenheden & variabelen
Onderzoekseenheden
o Respondenten
Bv. Variabele ‘gender’ en ‘gewicht’
o Producten of diensten zoals socialemedia-apps
Bv. Variabele ‘aantal actieve gebruikers’
o Tijdsperiodes of ruimtes zoals gevangenissen
Bv. Variabele ‘aantal m2 celruimte per gedetineerde’
Variabelen: belang van operationalisatie
Operationaliseren = Hoe elk kenmerk meten?
o Bv. Leeftijd gemeten via geboortejaar (1998)
leeftijd (22 jaar)
leeftijdscategorie (1 = 18 – 25 jaar)
Pollock (2005, p7). Van concept naar variabele!
o “Een concept is een mentale constructie dat verschijnselen in de echte wereld voorstelt. [...] De
uitdaging bestaat erin concepten om te zetten in concrete, meetbare termen"
Operationaliseren = meetbaar maken
o De waarden die een variabele kan aannemen, bepaalt het meetniveau van de variabele en het
informatiegehalte
Meetniveau van variabelen
De antwoorden op een vraag worden omgezet in een getal zodat die statistisch kunnen verwerkt worden.
Bv. Ik ben: (0) man (1) vrouw (2) ander
Vier meetniveaus geordend van weinig naar meer informatief
o Nominaal
Categorische variabelen
o Ordinaal
o Interval Metrische (of continue) variabelen
o Ratio
Hoe lager, hoe beperkter de mogelijkheden om de gegevens statistisch te bewerken
2
,Categorische variabelen
Nominale variabelen
Getalwaarde
o = louter benoeming, geen functie of betekenis
o = arbitrair
Gelijkwaardige categorieën: de waarden van de nominale kenmerken kunnen niet in logische
volgorde worden gezet
o Bv. Chinees restaurant
o Geen rangschikking mogelijk – je kan ze omwisselen
Klassen zijn discreet: er komen geen tussenliggende waarden voor
o Bv. Geslacht: Waarde 1.5 is niet mogelijk
Nominale variabelen met twee categorieën = binaire variabele = dichotome variabele
o Bv. Type klacht
Ordinale variabelen
Getalwaarde met bepaalde logische of natuurlijke rangorde (categorieën)
Ordinale variabelen laten niet toe om een uitspraak te doen over ‘hoeveel meer of beter’
Geen gelijke intervallen tussen de categorieën
Niet-gelijkwaardige categorieën
Vb. inkomens
Categorische variabelen = (meestal) discrete variabelen
Mogelijke waarden = beperkt en liggen vooraf vast
Tussenliggende waarden niet mogelijk (hebben geen betekenis)
o Bv. Eindstand in hotdogwedstrijd:
1 = Meeste hotdogs gegeten
2 = Meeste hotdogs gegeten op één kandidaat na
3 = Meeste hotdogs gegeten op twee kandidaten na
plaats 6.3 onmogelijk, enkel op plaats (of in categorie) 6 of 7 enkele gehele plaats
mogelijk
Kunnen ook continu zijn (vb. haarkleur: zwart, blond – tenzij je alle tinten gaat opnemen)
o Komt niet vaak voor
3
,Metrische variabelen
Zoals ordinale variabelen: logische volgorde (rangorde):
o Bv. Lichaamslengte (n = 4) : 159.66 cm < 165.34 cm < 170.11 cm < 176.88 cm
MAAR metrische variabelen:
o 1) Extra informatie: vaste meeteenheid
veel preciezer
Bv. Lengte : 170.11 cm < 176.88 cm (ordinaal), maar je kan hier exact berekenen
hoeveel groter, nl. 6.77 cm
o 2) Tussenliggende waarden mogelijk: continue variabele (continuüm aan mogelijke scores)
Bv. je hebt enkel 170.11 en 176.88 gemeten
tussenliggende waarde 174.45 is ook mogelijk!
Intervalvariabelen
Verschil tussen waarden is betekenisvol
Oneindig veel mogelijke tussenliggende waarden
o Bv. Jaartal (2022 – 1998 = 24)
Geen absoluut nulpunt: Het kenmerk nul heeft niet de betekenis van niet-zijn of niet bestaan. De nul bestaat
enkel bij conventie.
Verhoudingen tussen de waarden van een intervalvariabele niet zinvol!
o Vb. Jaartal (In het jaar 2000 is de aarde niet 2 keer zo oud als in het jaar 1000)
o Vb. temperatuur
Ratiovariabelen
Verschil tussen waarden betekenisvol (rangorde)
Oneindig veel mogelijke tussenliggende waarden
Verhoudingen tussen de waarden zinvol
o Bv. Percentage alcohol in bloed (3 promille is 3 keer zo veel als 1 promille)
Wel absoluut nulpunt: verschil tussen zijn en niet zijn
o Bv. Gewicht
o Bv. Salaris
MAAR in onderzoekspraktijk is onderscheid interval vs. ratio amper relevant (ook niet in SPSS)!!
DUS GROTE VERSCHIL TUSSEN INTERVAL EN RATIO:
o Intervalwaarden kunnen negatief zijn, ratiowaarden niet
Abstracte kenmerken concreet maken: enkelvoudige vragen
Enkelvoudige vragen die één concept meten
o bv. werktevredenheid
Nadelen van een enkelvoudige vraag:
o 1) Het concept is vaak te heterogeen om slechts door één vraag te dekken.
Kan niet meetbaar gemaakt worden a.d.h.v. 1 vraag
o 2) Toevalsinvloeden spelen een rol.
Eén vraag valt niet altijd op tussen de resem vragen in een enquête: afgeleid zijn, slecht begrip,
emotionele stemming, …
Grote meetfouten mogelijk
4
,Abstracte kenmerken concreet maken: meervoudige vragen
Meervoudige vragen (meetschaal) laten toe om respondenten achteraf beter te onderscheiden.
Via meetschalen zoals de Likertschaal een abstract concept meten:
o Minstens 3 concrete ordinale schaalitems, die eenzelfde abstract kenmerk zo goed mogelijk
vertegenwoordigen
o Elk ordinaal schaalitem: beantwoord o.b.v. geordende antwoordopties (= puntenschaal):
bv. 1 = Niet akkoord, 2 = Eerder niet akkoord, 3 = Eerder wel akkoord, 4 = Wel akkoord
o De waarden van de schaal zijn niet meer discreet, maar metrisch!!
bv. De score varieert van 0 tot 10, met tussenliggende waarden
Elk item apart is van ordinale waarde MAAR vanaf je ze allemaal samen bekijkt is het van metrisch niveau
van ordinaal niveau naar metrisch niveau (uitzondering want enkel mogelijk bij schalen)
Hiërarchie van meetniveaus en belang van de juiste vraagstelling
Duidelijke hiërarchie tussen de meetniveaus:
o Hoe hoger gerangschikt, hoe meer bewerkingen of analyses (mogelijkheden) een bepaald meetniveau
toelaat :
o Metrisch > ordinaal > nominaal
MAAR elk meetniveau is altijd even nuttig/waardevol:
o Bv. Pijnniveau na behandeling
Pijn metrisch meten > pijn nominaal meten (‘0 = Nee’, ‘1 = Ja’)
Maar daarnaast ook nominale variabele geslacht meten = extra informatie: pijnniveau
vergelijken tussen twee doelgroepen.
Metrische variabelen achteraf categorisch maken = altijd mogelijk MAAR omgekeerd niet!
o Vraagstelling in survey belangrijk: hoger meetniveau = meer informatie
Bv. Leeftijd:
eerst metrisch gemeten (bv. 19 jaar)
= achteraf toewijzen aan een bredere maar minder informatierijke categorie steeds
mogelijk (bv. 18 – 24 jaar)
Bv. Leeftijd:
initieel ordinaal gemeten (bv. 18 – 24 jaar)
= onmogelijk om nadien te achterhalen wat iemands exacte leeftijd was, je blijft vast
op het ordinale niveau
Likertschalen: toch achteraf van ordinaal naar metrisch
o Bv. Likertschaal over angst, met drie items op een 7-puntensschaal
‘1 = Helemaal oneens’, ‘2 = Oneens’, ‘3 = Eerder oneens’, ‘4 = Noch eens, noch oneens’, ‘5 = Eerder
eens’, ‘6 = Eens’ of ‘7 = Helemaal eens’
o Resulteert in drie ordinale variabelen
o Samenvoegbaar tot één schaalvariabele (gemiddelde of som van alle antwoorden)
Discrete antwoordcategorieën veranderen in een score voor het abstracte concept (Bv. een
respondent antwoordt 5, 6 en 5 op drie items = een gemiddelde score van 5.33 voor angst of
een somscore van 16 voor angst)
o Deze gecombineerde scores liggen op een breder continuüm dan voorheen: de schaalvariabele wordt
als metrisch beschouwd
o Elk item apart is van ordinale waarde MAAR vanaf je ze allemaal samenvoegt naar een
schaalvariabele, is het van metrisch niveau van ordinaal niveau naar metrisch niveau (uitzondering
want enkel mogelijk bij schalen)
5
,Hiërarchie van meetniveaus: gemiddelde score
1) Rekenkundig gemiddelde
= alle items worden even belangrijk geacht
Het gemiddelde is gevoelig voor uitschieters
o Bv. een schaal met vier items (van 1 tot 7)
o (1 + 1 + 7 + 7)/4 = 4
o (2 + 2 + 6 + 6)/4 = 4
o (4 + 4 + 4 + 4)/4 = 4
Het gemiddelde berekenen van een schaal zegt niets over de waarde van een schaal
Range van gemiddelde ALTIJD duidelijk maken (vb. 1 – 7)
o Voorbeeld: Beide antwoorden hebben eenzelfde gemiddelde maar een andere range (minimum en
maximum score
Hiërarchie van meetniveaus: somscore
2) Somscore
= alle items worden even belangrijk geacht
Alles optellen
De somscore is gevoelig voor uitschieters
o Bv. een schaal met vier items (van 1 tot 7)
o 1 + 1 + 7 + 7 = 16
o 2 + 2 + 6 + 6 = 16
o 4 + 4 + 4 + 4 = 16
De somscore berekenen van een schaal zegt niets over de waarde van een schaal
Range van somscore ALTIJD duidelijk maken (4 – 28)
Hoe hoger de score – hoe meer het kenmerk aanwezig is
MAAR
Hoe meer items – hoe hoger de score
Vaak gebruikt om betrouwbaarheid na te gaan
OEFENING
Bereken het gemiddelde en de somscore van onderstaande schaal (0 = nooit, 1 = weinig, 2 = soms, 3 = vaak, 4 = altijd)
Gemiddelde
o Behaald gemiddelde: 1,6
o Max gemiddelde: 4
Som
o Behaalde som: 8
o Max som: 20
6
,Rol van variabelen in onderzoeksvraag
Afhankelijke variabele
Afhankelijke variabele (Y) = variabele waar hele onderzoeksvraag rond draait
o Eindpunt van de analyse (daarom ook = uitkomstvariabele)
‘Afhankelijk’ van omgeving: afhankelijke variabelen (AV’s) veranderen door invloed van andere variabelen
o De verandering in Y : meest interessant voor onderzoekers
Bv. “Gebruiken jongeren meer drugs dan ouderen?”
o AV = Druggebruik, want:
Leeftijd niet beïnvloedbaar
Druggebruik als enige beïnvloedbaar
Onafhankelijke variabele
Onafhankelijke variabele (X) = variabele die invloed uitoefent op afhankelijke variabele
o Beginpunt van je analyse (daarom ook = predictor of determinant)
‘Onafhankelijk’ van omgeving: veronderstelling dat onafhankelijke variabelen (OV’s) niet beïnvloed worden
maar juist een effect of verandering veroorzaken bij andere variabelen
o MAAR causaliteit (oorzaak – gevolg) moeilijk te bewijzen
Bv. “Gebruiken jongeren meer drugs dan ouderen?”
o OV = Leeftijd
Beïnvloedende variabele
Beïnvloedende variabele = variabele die relatie tussen OV en AV mogelijks beïnvloedt
1) Controlevariabelen
Meenemen in analyse om relatie tussen de OV en AV beter te isoleren
o Vraag: Hoeveel controlevariabelen opnemen?
o Controle variabelen nodig want anders vertekend beeld MAAR niet te veel opnemen anders maak je
de analyse onnodig complex
Controleren of de invloed van X op Y wel degelijk van X komt, of is er een derde variabele (controlevariabele)
Bv. Eerder onderzoek: mannen gebruiken meer drugs dan vrouwen
o Geslacht als controlevariabele in je analyse
o Foute conclusie voorkomen: leeftijd beïnvloedt druggebruik, maar effect komt eigenlijk van geslacht
2) Interfererende variabelen
Meegenomen om relatie tussen de OV en AV beter te verklaren (= mediator) of om te weten wanneer de
relatie sterker of zwakker is (= moderator)
o Bv. Mediator: Leeftijd à Druggebruik
Indirect effect
Werkt in op variabele
Bv. Groepsdruk
o Bv. Moderator: Groepsdruk à Druggebruik
Statistische interactie (werkt in op relatie)
Bv. Normbesef: het effect tussen groepsdruk en
druggebruik wordt sterker/zwakker
7
,Mediërende variabele
= indirect effect
Vb. De relatie tussen ouderschapsstress en probleemgedrag wordt gemedieerd door open ouder kind
communicatie
De derde variabele is de mediërende variabele:
o X: Onafhankelijke variabele
o Y: Afhankelijke variabele
o Z: Mediërende variabele
1) X moet gerelateerd zijn aan Y
o bv. als er geen verband is tussen stress en probleemgedrag, valt er niets te onderzoeken
2) Z moet gerelateerd zijn aan X en Y
o bv. je verwacht dat stress een invloed heeft op hoe ouders met hun kinderen praten
o bv. je verwacht dat hoe ouders met hun kind praten een invloed heeft op hun gedrag
3) De initiële relatie tussen X en Y verzwakt door de invloed van Z
Modererende variabele
De derde variabele is de modererende variabele:
o X: Onafhankelijke variabele
o Y: Afhankelijke variabele
o Z: Modererende variabele
De relatie tussen X en Y is niet constant, maar hangt af van Z
o Bv. geslacht (z)
Man: zien van reclame (x) verhoogde interesse in bier (y)
Vrouw: zien van reclame (x) verlaagde interesse in bier (y)
Moderatie = interactie-effect
3) Storende variabelen
Sterke samenhang met OV en AV, waardoor het lijkt alsof er een sterke relatie bestaat tussen OV en AV, terwijl
dat niet zo is
Veroorzaken schijnverband tussen OV en AV
Storende variabelen meenemen in analyse om het netto verband te bekijken
Grote overlap met controlevariabelen
Bv. Sterk verband tussen aantal kerstliedjes op de radio en CO2- uitstoot
o Temperatuur = storende variabele
o Hoe kouder, hoe meer kerstliedjes
EN
o hoe kouder, hoe meer CO2 –uitstoot
MAAR NIET
o hoe meer kerstliedjes, hoe meer CO2 –uitstoot!
8
,INFERENTIËLE OF INDUCTIEVE STATISTIEK
Typische les waarover theorie vragen komen op het examen
Verschil beschrijvende en inductieve statistiek
Uitspraak: “35% van de volwassen onderzoekseenheden in de steekproef is ooit minstens 1x slachtoffer
geworden van pestgedrag”
o Beschrijvende statistiek
o We beschrijven wat we meten in de steekpreof
Uitspraak: “Op basis van de steekproefgegevens besluiten we dat in Vlaanderen het percentage volwassenen
dat ooit minstens 1x slachtoffer is geworden van pestgedrag tussen 25% en 40% ligt”
o Inductieve statistiek
o Steekproef gebruiken om uitspraken te doen over de volledige populatie (conclusies of schattingen)
Representativiteit van de steekproef
Uitspraken doen over een populatie: moeilijk om gegevens van hele populatie te verzamelen
Personen:
o Middelen zijn beperkt: geld en tijd
o Niet altijd identificeerbaar, bereikbaar en bereid
Ook bij andere onderzoekseenheden
o Bv. gemiddeld CO2-gehalte in België
Oplossing
o 1. Steekproef nemen en gegevens meten
o 2. Schatting maken van onbekende populatieparameter
Voorwaarde voor inductieve statistiek : Representativiteit
o De steekproef moet een zo goed mogelijk afspiegeling zijn van de populatie
Aselecte steekproef:
elke eenheid heeft een even grote kans om gekozen te worden
Samenvattend
Populatiegegevens niet steeds beschikbaar
→ werken met steekproeven
Inferentiële statistiek gebruiken we om resultaten op basis van steekproeven te veralgemenen naar de
populatie
Steekproef moet representatief zijn = de steekproef moet een zo goed mogelijke afspiegeling zijn van de
populatie eenheden random selecteren (aselecte steekproeven / toeval steekproeven)
Opletten met terminologie
o Steekproefkenmerken latijnse letters
o Parameters uit populatie griekse letters
9
, Inductieve/inferentiële statistiek
Schatten en Toetsen
Statistisch schatten:
o Betrouwbaarheidsintervallen (intervalschatting):
De steekproefgrootheid is een schatting van de populatieparameter
Betrouwbaarheidsinterval = schatting ± foutenmarge
Statistisch toetsen of hypothesen testen:
o Significantietoets (puntschatting):
Toetsen of een bewering over de populatie waaruit de steekproef komt aannemelijk is op basis
van de steekproef in kwestie altijd werken vanuit een veronderstelling
Hoe goed komen de data en de hypothese met elkaar overeen?
Het belang van de normale verdeling
Empirische verdelingen en theoretische verdelingen
o Empirisch: verdeling van de gemeten waarden
Grafiek
o Theoretisch: xxx
Maten van centraliteit en spreiding: samenvatting van verdeling in 1 cijfer
Vaak kan ook vorm van verdeling samengevat worden via
‘sjabloonverdeling’: ideaaltypische (geïdealiseerde) beschrijving van een
verdeling a.d.h.v. een wiskundig model
Dichtheidskromme
= kansdichtheidsfunctie
Oppervlakte onder kromme = proporties (of relatieve percentages) van het aantal eenheden
Volledige oppervlakte onder de kromme = 100 % van de eenheden
Beschreven door wiskundige functie
o => dichtheidskromme (oppervlakte = frequentie)
o => kenmerken berekenbaar
Frequent gebruikt: normaalverdeling
Vorm van dichtheidskromme
Voor elke variabele en elke steekproef: uniek
MAAR benadert bij metrische variabelen vaak de normale verdeling
o Kenmerken: klokvormig, ééntoppig en symmetrisch rond 𝑋̅
bv. gewicht, lengte, bloeddruk, IQ
Hoe verder weg van 𝑋̅ in het midden:
o Hoe minder respondenten
o Hoe minder een waarde voorkomt (en dus hoe ‘extremer’)
10