Psychometrie
11-3-2025
en besliskunde
PB1512-242522B
S. van Hamont
,Inhoudsopgave
Introductie..........................................................................................................................................................2
Thema 1: Testconstructie en testbeoordelingen.................................................................................................3
Videoclip testconstructie – studietaak 1.2..........................................................................................................4
COTAN-beoordelingssysteem (2010)..................................................................................................................5
Hoofdstuk 1.....................................................................................................................................................7
Criterium 1: Uitgangspunten van de testconstructie...................................................................................7
Criterium 2: De kwaliteit van het testmateriaal..........................................................................................8
Criterium 3: De kwaliteit van de handleiding............................................................................................15
Criterium 4: Normen (p. 19-20).................................................................................................................18
Criterium 5: Betrouwbaarheid (p. 31-32)..................................................................................................20
Criterium 6: Begripsvaliditeit (p. 38-39)....................................................................................................22
Criterium 7: Criteriumvaliditeit (p. 43-44).................................................................................................24
Uit kernclip 1A:..................................................................................................................................................26
Thema 2: Factoranalyse I (unidimensionaliteit)................................................................................................27
Hoofdstuk 2 (exclusief paragraaf 2.17 en 2.18) – Uitvoeren en verslag leggen van factoranalyse van Ellis
(2013)............................................................................................................................................................28
Thema 3: Factoranalyse II (multidimensionalidteit)..........................................................................................36
Hoofdstuk 3 – Het vergelijken van meerdere factoranalyses van Ellis (2013)...............................................37
Thema 4: Betrouwbaarheid...............................................................................................................................39
Hoofdstuk 4 – Uitvoeren en verslag leggen van een betrouwbaarheidsanalyse van Ellis (2013)..................39
Artikel: Berchtold, A. (2016). Test–retest: Agreement or reliability? Methodological Innovations, 9,
205979911667287. https://doi.org/10.1177/2059799116672875...................................................................43
Hoofdstuk 5 t/m 5.9, 5.12 en 5.18, en hoofdstuk 6.1 en 6.7 (boek: Ellis)......................................................44
Thema 5: Validiteit............................................................................................................................................49
Boek van Gregory (2015) het begin tot en met de sectie over content validity (pp. 118-122)..........................49
Boek van Gregory (2015) het begin tot en met de sectie over content validity (pp. 127-133)......................51
Boek van Gregory (2015) het begin tot en met de sectie over content validity (pp. 122-127)......................52
Thema 6: Normeren..........................................................................................................................................54
Hoofdstuk 3 (Normeren) uit deel 1 van Ellis (2013)......................................................................................55
Thema 7: Besliskunde........................................................................................................................................62
Drenth & Sijtsma (2006), hoofdstuk 9, pp. 396-411 - De bijdrage van de test in het beslissingsproces............62
Tiemens et al. (2018): Waarom iedere psycholoog de regel van Bayes moet kennen, en hoe gemakkelijk die
eigenlijk is - GZ- psychologie.............................................................................................................................68
Artikel van Niessen et al. (2019). Mis(ver)standen in de selectiepraktijk: Een goed verhaal maakt nog geen
goede beslissing................................................................................................................................................71
1
,Belangrijke formules.........................................................................................................................................76
Introductie
Psychologische tests (definitie) =
- Meetinstrument
- Van een persoonseigenschap
- Meerdere componenten (items)
- Totaalscore (of subtest-score) er wordt één samenvattende score per persoon berekend (anders
noem je het geen test, als je alles één voor één zou berekenen.
Testen zijn begonnen voor het meten van intelligentie.
Verschil met persoonlijkheidstesten met andere testen: hier zitten geen foute antwoorden in. Je kunt bij dit
soort testen nog wel ‘doen alsof’. Dit kan tot bijv. maar een bepaalde mate bij intelligentietesten (bijv.: je
dommer voordoen).
Gemiddelde en standaarddeviatie
Het gemiddelde is 11.767 en de standaarddeviatie is 2.244. De APA geeft als richtlijn om af te ronden op een
relevant aantal decimalen; dat zijn meestal twee of drie decimalen.
Je mag Sum of Squares, Mean Square en F ook afronden naar één of twee decimalen, en p en R-
square mag je ook afronden op twee decimalen.
Minder dan twee decimalen weergeven is niet goed voor p en R-squared.
Meer dan drie decimalen weergeven is niet goed.
2
,Thema 1: Testconstructie en testbeoordelingen
Videoclip testconstructie – studietaak 1.1
Wat is meten in de psychologie? Kan soms wel, soms niet. Afhankelijk van de data.
Meten vs. classificatie
Classificatie = gebaseerd op een indeling die niet per discussie staat (bijv. ram, stier of schizofreen,
psychotisch).
Meten = gebaseerd op een toetsbare theorie (bijv. ampère meter) concepten kunnen veranderen n.a.v.
data (bijv. rekentoets taal, wiskunde, rekenen). De theorie wordt dan verworpen.
Voor meten is een cyclus nodig.
Latent = Eén construct. Niet waarneembaar. Is een theoretisch construct. Bijv. of iemand wel of niet aan het
liegen is.
Manifest = meerdere indicatoren Kan je wel waarnemen/observeren. Bijv. hartslag, bloeddruk. Deze
indicatoren worden gebruikt om te kijken wat er in het ‘latent’ gebeurt.
Bij het maken van een test is een cyclus nodig.
De cyclus van testconstructie
Bepalen dimensies: bijv. schizofrenie, depressiviteit of angst.
3
,IRT = item respons theory wordt gebruikt om de relatie tussen de antwoorden van een persoon op een
test (zoals een examen of vragenlijst) en de onderliggende vaardigheid of eigenschap die wordt gemeten, te
analyseren.
Normeren = nagaan wat is een hoge score en wat is een lage score.
Externe relaties = relaties met andere variabelen moeten worden onderzocht. Bijv. hebben mensen meer
angst als ze naar een horrorfilm kijken (bij ‘experimenten’).
Rekening houden = dat je een test moet verbeteren (en dat dit zich meerdere malen kan herhalen).
Groene vakjes van belang voor validiteit (= de mate waarin een test, meetinstrument of onderzoek
daadwerkelijk meet wat het beoogt te meten)
Gele vakjes van belang voor de betrouwbaarheid (Betrouwbaarheid = leidt herhaling van de meting tot
dezelfde scores of verschillen tussen scores?)
In de statistiek verwijst kwalitatief onderzoek naar een onderzoeksmethode die zich richt op het verzamelen
en analyseren van niet-numerieke gegevens. Het doel is om inzicht te krijgen in diepere betekenissen,
percepties, ervaringen en gedragingen van mensen. Dit staat in contrast met kwantitatief onderzoek, dat
draait om numerieke gegevens en statistische analyses.
Bij een testontwikkeling heb je meer dan duizenden proefpersonen nodig. Ligt ook aan de gevolgen van de
uitslag van de test, bijv. de uitslag naar welke middelbare schoolkinderen toe gaan. Zo’n soort test moet bij
vele mensen eerst worden onderzocht (bijv. 10.000 proefpersonen). Er moeten dan van iedere item de scores
worden geregistreerd.
Een test wil één ding meten, betekent: de items lijken veel op elkaar (anders meet je verschillende dingen).
Videoclip testconstructie – studietaak 1.2
Iteratief proces = een proces waarbij herhaling (iteratie) een belangrijk onderdeel is. Bij elke herhaling wordt
voortgebouwd op de resultaten van de vorige stap, zodat het proces stap voor stap wordt verbeterd,
aangepast of verfijnd. Het doel is om geleidelijk een beter resultaat, oplossing of begrip te bereiken.
Unidimensionaliteit = een concept in de statistiek en psychometrie dat verwijst naar het idee dat een
meetinstrument (zoals een vragenlijst, schaal of test) slechts één enkele eigenschap, kenmerk of dimensie
meet. Het is een belangrijk concept bij het ontwerpen en valideren van meetinstrumenten, omdat het ervoor
zorgt dat de resultaten eenduidig te interpreteren zijn.
Waarom is testconstructie in principe een iteratief proces?
Bij het onderzoek naar validiteit en betrouwbaarheid kan naar voren komen dat de test nog niet goed genoeg
is, en dan moet hij worden verbeterd. Dit betekent dat er andere items moeten worden gemaakt, waarna de
test weer opnieuw onderzocht moet worden.
Waarom wordt, binnen een cyclus, betrouwbaarheid onderzocht na unidimensionaliteit?
Bij validiteitsonderzoek wordt ook de geschiktheid van elk item onderzocht, en dit kan ertoe leiden dat
sommige items worden verwijderd. Betrouwbaarheid gaat alleen over de totaalscore, maar dan moet je eerst
weten welke items behouden blijven.
Waarom worden normen als laatste vastgesteld?
Normen hebben pas zin als de inhoud van de test definitief vaststaat, en daarvoor moeten eerst validiteit en
betrouwbaarheid zijn onderzocht.
Nederlands Instituut van Psychologen (NIP) = de Nederlandse beroepsvereniging van psychologen, en speelt
een leidende rol in de professionalisering van de beroepsgroep. Het NIP heeft een document met regels over
4
, hoe je als psycholoog verantwoord moet omgaan met psychologische tests. Dat is de Algemene Standaard
Testgebruik NIP 2017 (AST).
Commissie Testaangelegenheden Nederland (COTAN) = commissie van het NIP die zich bezighoudt met het
beoordelen van de tests. De COTAN heeft een beoordelingssysteem voor tests.
COTAN-beoordelingssysteem (2010)
Paragraaf ‘Betekenis van de beoordelingen’
Eerste nuancering
‘Onvoldoende’ voor een criterium die op twee manieren tot stand kan komen:
- Omdat de gevraagde informatie afwezig is,
- Omdat de kwaliteit van de wél aanwezige informatie negatief wordt beoordeeld Zo kan een
‘onvoldoende’ voor de betrouwbaarheid van een test betekenen dat de betrouwbaarheid niet is
onderzocht óf dat deze wel is onderzocht, maar dat dit onderzoek heeft aangetoond dat de test
onvoldoende betrouwbaar is.
Afwezigheid van onderzoeksgegevens wordt dus op dezelfde wijze beoordeeld als wél beschikbare
onderzoeksgegevens die tot een negatief resultaat leiden, omdat de COTAN meent dat het aan de auteur is
om onderzoeksgegevens te verschaffen. Hiermee worden de wetenschappelijke mores gevolgd dat de
bewijslast voor een uitspraak bij de onderzoeker ligt test bij afwezigheid van gegevens als onvoldoende
betrouwbaar wordt gezien tot het tegendeel is aangetoond.
Vanaf 1992 wordt kort de reden van de beoordeling gegeven. Ook beoordelingen kunnen verouderen.
Tweede nuancering
Eén of meer ‘onvoldoendes’ niet per se betekent dat een instrument onbruikbaar is.
Derde nuancering De grenswaarden die in het beoordelingssysteem worden genoemd en waaraan tests
moeten voldoen om een zo groot mogelijke objectiviteit bij de beoordeling te garanderen.
Zo worden bij de criteria Normen en Betrouwbaarheid specifieke steekproefgroottes respectievelijk hoogtes
van betrouwbaarheidscoëfficiënten genoemd waaraan moet worden voldaan voor een ‘voldoende’ of ‘goed’
beoordeling en die als ankerpunt fungeren voor de beoordelaar. Voor deze grenzen is echter geen sluitende
wetenschappelijke argumentatie te leveren: ze zijn gebaseerd op in het algemeen min of meer internationaal
geaccepteerde adviezen van vooraanstaande deskundigen (zie de betreffende hoofdstukken voor
referenties). Hiermee hangt samen dat in ieder geval van waarden die in de buurt van deze grenzen liggen,
nauwelijks is te beargumenteren waarom een bepaalde waarde net wel, en een andere waarde net niet
‘voldoende’ of ‘goed’ is. Op deze wijze kan echter beter worden gewaarborgd dat alle tests in principe op
dezelfde wijze worden beoordeeld.
Van de testgebruiker wordt verwacht dat hij met de in absolute termen gegeven beoordelingen op de juiste
wijze kan omgaan.
Voor de deskundige testgebruiker heeft het oordeel ‘onvoldoende’ (voor welk criterium dan ook) vooral de
functie van waarschuwingssignaal; in zo’n geval moet de testgebruiker, in overeenstemming met artikel 3.2.e
van de Algemene Standaard Testgebruik (Nederlands Instituut van Psychologen, 2004), expliciet
beargumenteren waarom hij het betreffende instrument inzet. Voor de minder deskundige testgebruiker is de
boodschap, vooral wanneer er meerdere onvoldoendes voor een test voorkomen: testgebruiker, gebruik deze
test niet!
Paragraaf ‘Beoordelingsprocedure’
De COTAN voert een actief beleid en beoordeelt in principe alle tests die voor opname in de Documentatie
van Tests en Testresearch in aanmerking komen.
5