HC1 – Praktische inleiding en inhoudelijke start
Het verschil tussen nomothetisch en idiografisch onderzoek staat centraal:
1. Nomothetisch (BETWEEN): het ‘standaard’ onderzoek. Steekproef toetsen om te
generaliseren naar de grotere populatie. Dit met een grote steekproef.
→ basis in traditionele testtheorie en normeringsonderzoek (Gauss, Quetelet)
2. Idiografisch (WITHIN): individueel onderzoek op maatwerk. Dit is dus niet direct
te generaliseren naar de grotere populatie. Vaak wordt er hier bij 1-3 individuen
voor een langere tijd gemeten. Dit gaat uit van de uniciteit van het individu.
Het huidige probleem is dat we nomothetisch onderzoek gebruiken om oplossingen te
vinden voor het idiografische individu. Ookwel het probleem van ergodiciteit genoemd:
je kunt eigenlijk moeilijk van zo’n grote steekproef naar het individu uit de populatie
generaliseren, maar we doen het toch. Hierdoor kloppen talloze conclusies niet.
Dit komt omdat we dan uitgaan van de ‘gemiddelde mens’ die dus niet bestaat. We
vinden in onderzoek dus goede oplossingen voor het probleem van deze gemiddelde
mens, maar die oplossingen sluiten nooit goed aan bij individuen, omdat deze niet de
‘gemiddelde mens’ zijn.
Nomothetisch onderzoek werkt dus goed voor ergodische systemen: systemen die
voldoen aan de assumpties van statistische modellen (lineariteit, normativiteit,
homogeniteit van variantie, onafhankelijkheid). Maar de mens en maatschappij voldoet
hier helemaal niet aan! De mens is geen ergodisch systeem. Hier wordt echter geen
rekening mee gehouden (en niet benoemd in literatuur).
Toch blijven we dit doen, met als argument de stochastische foutentheorie: om echt
tot de kern te komen moet je oneindig vaak onder dezelfde omstandigheden
onafhankelijk kunnen testen, maar door biases en oefeneffecten kan dit niet. Als we in
een gedachtenexperiment dit bovenstaande wél zouden kunnen, zou iemands
persoonlijke privéverdeling van een test over tijd heen waarschijnlijk enorm afwijken
van de normverdeling die uit nomothetisch onderzoek rolt.
We kunnen dus niet zomaar van intra-individuele/between/nomothetische metingen
naar inter-individuele/within/idiografische metingen generaliseren doordat de mens
een complex systeem is in plaats van een ergodisch systeem (waar elementen
homogeen zijn). De oplossing hiervoor is dan dus idiografisch onderzoek: kleine groep
mensen heel vaak meten en observeren. Het doel is hier niet generalisatie, maar
simpelweg ontdekken wat voor dat individu werkt.
Complexe Systeem Benadering: gaat uit van interne/externe interactie tussen
complexe factoren in een systeem (adaptief, emergent, zelforganiserend) wat je
onderzoekt. In dit vak gaan we leren hoe je dit soort systemen wél kunt onderzoeken.
1
,Artikel Loretan, Radstaak & Bosman (2019) – De test getest
Er zijn twee problemen in de sciëntist-practitioner praktijk:
1) De validiteit van metingen: er is geen ‘handboek’ over hoe we precies betekenis
geven aan psychologische factoren die we willen meten. Dit geeft ruimte voor
misinterpretaties bij generalisatie.
Bij het meten (en operationaliseren) van een construct moet je drie aspecten kunnen
vervullen; ontologie (bestaat het te meten construct?), verandering in meetuitslag
(theorie: hoe zorgen veranderingen in het construct voor een verschil in meting?) en
epistemologische toegang (meetinstrument moet daadwerkelijk dit meten). Bij veel
psychologische factoren vinden we hier geen consensus over, wat leidt tot veel
comorbiditeit en inflatie van testen (door overvloed aan ziektebeelden).
2) Generalisatie van steekproef naar populatie: we gaan uit van de ‘gemiddelde
mens’ en generaliseren van steekproeven zomaar naar populatie en individu,
terwijl we onderzoekstechnieken naar individuen negeren.
Statistische (norm)uitspraken o.b.v. een steekproef/populatie zijn volgens de theorie
van ergodiciteit alleen nuttig wanneer elke factor uit de populatie dezelfde variabiliteit
heeft. Bij mensen zijn er juist grote interindividuele verschillen in variabiliteit, wat
ervoor zorgt dat de groepsgemiddelden uit dergelijk onderzoek vaak niet goed toe te
passen zijn op het individu.
Tegenwoordig doen we veel dergelijk statistisch normeringsonderzoek waarmee we
uiteindelijk classificaties maken voor problemen en stoornissen. Dit doen we via de
klassieke testtheorie met testscore X, ‘ware score’ T, betrouwbaarheidsinterval B en de
uiteindelijke norm C. Met het betrouwbaarheidsinterval wordt dus wel enige onzekerheid
over de score medegedeeld, maar nog lang niet alles.
Het domein van de astronomie heeft deze toepassing van statistiek in de sociale
wetenschappen geïnspireerd. Mensen werden zich in de 18e/19e eeuw bewust van
meetfouten.
- Galileo: vormde eerste ‘foutentheorie’ met een ‘ware waarde’ (voorloper T en
symmetrische normaalverdeling).
- Quetelet: gemiddelde-consensus, door herhaaldelijk meten accurater T
schatten dan hierboven en daarmee een symmetrische verdeling maken.
- Binet: eerst testen (op IQ), dan theorie ontwikkelen.
De verwachte waarde (T) komt overeen met het gewogen gemiddelde, waardoor het
concept van kansspelen op. Hiermee kon a priori de verwachte waarde van simpele
spelobjecten bepaald worden.
2
,Wet van grote aantallen (ofwel wet van gemiddelden): veronderstelt dat onder
bepaalde voorwaarden een herhaald onderzoek uitkomsten zal hebben met een
bepaalde regelmaat. Assumpties: concept is stationair op lange termijn, onafhankelijk
en de metingen zijn oneindig vaak herhaald.
→ langetermijnstabilisatie: wanneer je 10 keer kop/munt gooit is het misschien 7/3,
maar na 1000 keer gooien zal het de 50/50 naderen.
Hier komen waarschijnlijke uitspraken uit, die we (omgezet in kansverdelingen)
toepassen op mens en maatschappij.
Quetelet ontwikkelde een theoretisch kader voor de sociologie met zijn ‘morele
statistiek’: alle psychologische eigenschappen kunnen worden vastgelegd met de
berekening van het gemiddelde en een onder- en bovengrens van de afwijking daarvan.
→ verandering visie op het gemiddelde: heterogene steekproef homogeen behandelen.
Hiermee ging de oorzaak van meetfouten van de onderzoeker naar variabiliteit. Dit zorgt
ervoor dat het gemiddelde niet meer gezien werd als een eigenschap van een object.
→ verandering visie op meetfouten: niet meer de fout van de onderzoeker, maar een
intrinsieke eigenschap van de gemeten personen.
Hieruit volgde uiteindelijk de klassieke testtheorie (KTT). X = T + E met als gevolg
individuele scoreverdelingen waaruit het gemiddelde werd genomen en tegenover de
norm wordt gezet.
Bezwaren hiertegen: herhaalde metingen zijn door leereffecten nooit volledig
onafhankelijk, T en SE blijven dus in principe ‘onbekend’. Het gebruik van Cronbach’s
alpha lijkt dit op te lossen, maar nog blijft dit een probleem.
→ hiermee wordt T uit voor groepen geschat, maar dit is nooit compleet empirisch
verifiëerbaar voor het individu.
Ergodische systemen zijn systemen die voldoen aan de assumpties van de KTT
(homogene factoren in systeem en stationaire factoren die niet veranderen). Mensen
voldoen hier niet aan (zijn heterogeen en niet stationair) en dus is de mens geen
ergodisch systeem.
Kortom baseren we huidig onderzoek op onverifieerbare informatie over het individu (T,
SE en de privéverdeling) waardoor vaak verkeerde conclusies worden getrokken.
→ door het gebruik van groepsgemiddelden als vervanging voor intra-individuele data.
We blijven deze gestandaardiseerde tests gebruiken door onwetendheid,
kostenefficiëntie en handelingsnoodzaak.
3
, Artikel Speelman et al. – Most Psychological Researchers Assume Their Samples
are Ergodic
Onderzoek in de kwantitatieve psychologie generaliseert vanuit (soms geschatte)
steekproefgegevens naar populaties. Groepsresultaten worden dan gebruikt om
kenmerken van individuen te beschrijven. Speelman stelt dat onderzoekers hierdoor te
vergaande conclusies trekken.
Ergodiciteitstheorie van George Birkhoff: gemiddelde is alleen geldig voor een individu
als de individuen identiek en stabiel zijn.
Statistische tests hebben dus aanvullende analyses (pervasiviteitsanalyse: individuele
analyse op welke factoren de utikomst van de statistische test beïnvloeden) nodig om
écht van nut te zijn en deze goed te interpreteren. Dit gebeurt echter nog niet.
Dit is de ergodische denkfout. Speelman et al. Onderzochten 4 datasets met gelijke
gemiddelden, maar de onderliggende spreiding van individuele effecten bleek
uiteenlopend (om maar een enkel voorbeeld te noemen). Zij onderzochten de
prevalentie van deze denkfout; onderwijs- en klinisch psychologen zijn minder geneigd
om deze fout te maken, anderen in het veld doen dit vaker.
Om dit te onderzoeken analyseerden ze artikelen uit alle 2020-edities van de drie
bestverkopende psychologische tijdschriften. De artikelen werden onderscheiden in:
1) Ergodische denkfout: fout aanwezig
2) Ergodisch bewustzijn: ergodisch onderzocht, maar bewust en benoemd dat de
groepsresultaten mogelijk niet die voor individuen weerspiegelen
3) Ambigu: enige erkenning van het probleem, maar de conclusie wordt alsnog
getrokken met behulp van ergodisch denken
Ook keken zij naar hoe de resultaten werden weergegeven; als individuele scores
‘verdoezeld’ werden door alles in grote tabellen te zetten werd een artikel als ambigu
geschaald. Bij het toch uitvoeren van een pervasiviteitsanalyse (bijv. tellen hoeveel
mensen een bepaald effect ervaarden) ging het sneller naar ergodisch bewustzijn.
88.2% van de artikelen bevatte de denkfout, 11.8% was enigszins bewust of werd als
ambigu beoordeeld. Ook het onderzoeksveld maakt uit: de Journal of Experimental
Psychology: learning, memory and cognition (JEP) had 93,3% kans op de fout, de
Journal of Educational Psychology (JEdP) had 89,3% kans op de fout en de Journal of
Consulting and Clinical Psychology (JCCP) had 77,9% kans op de fout
Deze associatie van verschil in tijdschrift en de ergodische denkfout is significant
gebleken door middel van een chi-kwadraat-analyse. De meerderheid van de artikelen
bevat dus de ergodische denkfout, er worden dus veel verkeerde conclusies getrokken.
Vaak wordt individuele variatie niet benoemd. Pervasiviteitsanalyses en het zichtbaar
maken van variatie zouden hierbij kunnen helpen.
4