100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Summary

Samenvatting PB1512 - Psychometrie en besliskunde (PB1502) Statistiek voor de psychologie 5 - Statistiek voor de psychologie factor- en itemanalyse

Rating
-
Sold
7
Pages
35
Uploaded on
19-07-2025
Written in
2024/2025

Gehaald met een 9.6! De samenvatting voor het vak psychometrie en besliskunde (PB1512). Het bevat de inhoud die je moet behandelen in de studietaken. Daarnaast zijn de 2 online oefententamens ook erg representatief voor het daadwerkelijke tentamen. En de kernclips van Jules Ellis zelf zijn ook goed om te kijken als voorbereiding.

Show more Read less
Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
July 19, 2025
Number of pages
35
Written in
2024/2025
Type
Summary

Subjects

Content preview

Psychometrie en besliskunde – samenvatting

Thema 1 - Testconstructie en testbeoordelingen
Psychologische tests worden veel gebruikt in zowel onderzoek als de praktijk. In onderzoek dienen
ze als meetinstrument voor theoretische variabelen, terwijl ze in de praktijk worden ingezet voor
bijvoorbeeld signalering, diagnostiek en selectie. Een goede psychologische test vereist ten eerste
een duidelijke theorie over wat gemeten moet worden, en ten tweede empirisch onderzoek om de
test en de theorie voortdurend te verbeteren. De kwaliteit van tests wordt beoordeeld met behulp
van het COTAN-systeem, dat onder andere kijkt naar betrouwbaarheid, validiteit en normering.
Deze cursus bereidt studenten voor op de Basisaantekening Psychodiagnostiek (BAPD) van het
Nederlands Instituut van Psychologen. Voor de BAPD moet je in staat zijn om psychologische
instrumenten op basaal niveau te evalueren en te reflecteren op de relatie tussen testkwaliteit en
de betrouwbaarheid van conclusies, waarbij je eventuele beperkingen van een test kunt meenemen
in de interpretatie van testresultaten.

Samenvatting video: soms kun je wel iets meten, en soms niet, afhankelijk van de data.
Classificatie vs meten: bij classificatie is er een indeling in categorieën die als vast wordt
aangenomen (zoals iemand is een schizogreen, psychotisch, ram stier). Niet gebaseerd op een
toetsbare theorie, eerder op conventie of klinische besluitvorming. Bij meten is het gebaseerd op
een toetsbare, wetenschappelijke theorie, zoals bij een Ampèremeter. Je meet een construct op
basis van een model dat kan worden aangepast op basis van nieuwe data.
Latent versus manifest: latente variabelen zijn theoretische constructen die niet direct
observeerbaar is (zoals angst, intelligentie, liegen). Je kunt het alleen indirect meten, via andere
(observeerbare) variabelen. Een manifest is een observeerbare indicator, zoals hartslag, bloeddruk,
antwoord op een testitem. Het wordt gebruikt om het latente construct te schatten (bijvoorbeeld in
een leugendetectietest).

Bij het maken van een test is een cyclus (niet-lineair) nodig; 1) theorievorming: begin met een
theorie over het te meten construct, vaak op basis van literatuur en kwalitatief onderzoek. In deze
theorie moeten dan verschillende dimensies worden onderscheiden die onderzocht moeten
worden; dit is één aspect, zoals bv. angst of depressiviteit. 2) itemconstructie: bedenk bij elke
dimensie meerdere items, de items moeten helder en precies geformuleerd zijn. Let op de
inhoudsvaliditeit, de items moeten het construct goed representeren. 3) dataverzameling: neem
de test af bij voldoende proefpersonen; bij 1 dimensie is dat ongeveer 100 mensen, bij meerdere
dimensies tussen de 300-800 mensen of meer. Verzamel scores per item per persoon, dit leidt tot
een datamatrix. 4) analyse interne structuur: bij factoranalyse/PCA check je of items clusteren
zoals verwacht, items binnen dezelfde dimensie moeten samenhangen. Onderzoek ook of de data
het model/theorie ondersteunen. 5) betrouwbaarheid: onderzoek de interne consistentie (bv
Cronbach’s alfa). Er zijn ook andere manieren om dit te doen: bv. test-hertest betrouwbaarheid,
split-half, interbeoordelaarsbetrouwbaarheid. 6) validiteit: onderzoek verschillend vormen:
Constructvaliditeit (via factoranalyse, IRT), Criteriumvaliditeit (relatie met externe maten),
Inhoudsvaliditeit (logische dekking van het construct). En kijk naar externe relaties: Correlaties met
andere tests, groepsvergelijkingen of experimenteel onderzoek. 7) normering: Pas normering toe
pas als inhoud, betrouwbaarheid en validiteit goedgekeurd zijn; en het inhoud van de test definitief
vaststaat. Afhankelijk van doelgroep en context.

Het is geen lineair proces: het kan zijn dat je in een volgende fase moet concluderen dat de test
niet goed (genoeg) is; en je de items en dimensies moet verbeteren, en dus weer terug moet gaan
naar die fase. Hier wordt in de planning vaak niet goed genoeg mee rekening gehouden.

Waarom wordt, binnen een cyclus, betrouwbaarheid onderzocht na unidimensionaliteit?
Bij validiteitsonderzoek wordt ook de geschiktheid van elk item onderzocht, en dit kan ertoe leiden
dat sommige items worden verwijderd. Betrouwbaarheid gaat alleen over de totaalscore, maar dan
moet je eerst weten welke items behouden blijven.

Het Nederlands Instituut van Psychologen (NIP) is de beroepsvereniging voor psychologen in
Nederland. Het NIP speelt een belangrijke rol in de professionalisering van het vak en stelt
richtlijnen op voor verantwoord handelen. Eén van die richtlijnen is de Algemene Standaard
Testgebruik (AST, 2017). Deze standaard beschrijft hoe psychologen zorgvuldig en verantwoord
moeten omgaan met psychologische tests, bijvoorbeeld bij diagnostiek of selectie.
Binnen het NIP is er een aparte commissie die zich richt op psychologische tests. Dit is de
Commissie Testaangelegenheden Nederland (COTAN). De COTAN beoordeelt de kwaliteit van
psychologische tests met behulp van een speciaal beoordelingssysteem. Daarbij wordt niet gekeken
of een test "wel of niet goedgekeurd" is; in plaats daarvan wordt de kwaliteit beoordeeld op zeven
afzonderlijke criteria. De zeven criteria waarop de COTAN een test beoordeelt zijn: de
uitgangspunten van de testconstructie, de kwaliteit van het testmateriaal, de kwaliteit van de

,handleiding, de normen, de betrouwbaarheid, de begripsvaliditeit, de criteriumvaliditeit. Voor elk
van deze criteria kan de beoordeling 'onvoldoende', 'voldoende' of 'goed' zijn. Het is dus een
genuanceerd systeem, waarbij psychologen zélf moeten nadenken over wat de sterke en zwakke
punten van een test zijn. Zo kunnen ze verantwoord besluiten of, en hoe, ze een test gebruiken.


Inhoud van het beoordelingssysteem
Het beoordelingssysteem van de COTAN is bedoeld om psychologische tests op een zorgvuldige en
consistente manier te evalueren. Een test kan op elk van de zeven beoordelingscriteria een
beoordeling krijgen: goed, voldoende of onvoldoende. Een onvoldoende betekent niet automatisch
dat een test onbruikbaar is, en kan om twee redenen worden gegeven: 1) De informatie
ontbreekt: er is bijvoorbeeld geen onderzoek gedaan naar de betrouwbaarheid van de test. 2) De
informatie is van onvoldoende kwaliteit: er is wel onderzoek gedaan, maar dit laat zien dat de
test bijvoorbeeld niet betrouwbaar genoeg is.
De bewijslast ligt bij de testauteur of onderzoeker: zij moeten laten zien dat hun test voldoet
aan de eisen. Als de gegevens ontbreken, gaat de COTAN ervan uit dat de test niet aan het
criterium voldoet, totdat het tegendeel is aangetoond. Daarom wordt bij een onvoldoende ook altijd
kort aangegeven waarom de beoordeling zo is uitgevallen.
Een test met één of meerdere onvoldoendes is niet per definitie onbruikbaar. Soms ligt het
probleem in het gebruik: bijvoorbeeld als de normen gebaseerd zijn op een groep die niet
overeenkomt met de doelgroep. In zo’n geval kan de test tóch bruikbaar zijn als de gebruiker zelf
nieuwe normen verzamelt. Ook bij lage betrouwbaarheid of validiteit is een test niet automatisch
afgeschreven. Het kan zijn dat sommige schalen onvoldoende betrouwbaar zijn, terwijl andere
onderdelen of de totaalscore nog steeds bruikbare informatie opleveren.
Voor belangrijke beslissingen over individuen gelden strenge eisen. Dan wordt bijvoorbeeld een
betrouwbaarheid van onder de .80 vaak als onvoldoende gezien. Toch kan zo’n test nog steeds
nuttige informatie geven, bijvoorbeeld als hij wordt gecombineerd met andere instrumenten.
Verder houdt het beoordelingssysteem geen rekening met de specifieke manier waarop een test
gebruikt wordt. Er wordt dus alleen gekeken naar de test op zichzelf. Dat betekent dat zelfs een test
met een lage voorspellende waarde in sommige situaties toch waardevol kan zijn, afhankelijk van
factoren zoals kans op toeval, de verhouding tussen selectie en afwijzing, en de kosten-
batenafweging. Om de beoordelingen zo objectief mogelijk te maken, hanteert de COTAN bepaalde
grenswaarden (bijvoorbeeld over steekproefgrootte of minimale betrouwbaarheid). Deze zijn
gebaseerd op algemeen geaccepteerde internationale adviezen van experts, maar niet altijd op
harde wetenschappelijke bewijzen. Rond die grenswaarden is het soms lastig exact te zeggen wat
nog voldoende is en wat niet. Toch helpen zulke richtlijnen om alle tests zo eerlijk en consistent
mogelijk te beoordelen.

Beoordelingsprocedure, De COTAN beoordeelt zowel psychologische tests die vrijwillig worden
aangeboden als tests die zij zelf geschikt achten voor opname in de Documentatie van Tests en
Testresearch. Om een test te kunnen beoordelen, verzamelt de COTAN materiaal en publicaties
over de test. Meestal wordt dit aangeleverd door de auteur of uitgever. Als zij weigeren informatie
te verstrekken, kan de test niet worden beoordeeld of opgenomen.
De beoordeling wordt uitgevoerd door twee onafhankelijke, anonieme beoordelaars. Zij
worden gekozen op basis van hun deskundigheid en mogen geen belang hebben bij de test
(bijvoorbeeld omdat ze eraan hebben meegewerkt). Minstens één beoordelaar is vaak lid van de
COTAN. Als de beoordelaars het niet met elkaar eens zijn, proberen ze het eerst samen op te
lossen. Lukt dat niet, dan wordt een derde beoordelaar ingeschakeld. Elke beoordelaar
onderbouwt zijn oordeel schriftelijk. Die toelichtingen worden samengevoegd tot een
eindbeoordeling en gedeeld met de testontwikkelaar. Die mag hierop reageren, en die reactie wordt
meegenomen in de uiteindelijke beoordeling. Daarna wordt de beoordeling gepubliceerd. Als er
later nieuwe informatie over de test beschikbaar komt, kan de COTAN een herbeoordeling
uitvoeren. Dit mag pas als de vorige beoordeling minstens een jaar oud is.

COTAN beoordelingssysteem
Hoofdstuk 1 – Criterium 1: Uitgangspunten van de testconstructie
Bij het ontwikkelen van een test is zorgvuldige voorbereiding nodig, omdat je betrouwbare
uitspraken wilt doen over verschillen tussen of binnen personen of groepen. De testgebruiker moet
op basis van de informatie kunnen beoordelen of de test geschikt is voor zijn of haar doel. Daarom
moet de meetpretentie (wat de test wil meten) duidelijk worden omschreven, en moeten keuzes
over de inhoud en meetwijze van de test goed worden onderbouwd.
Dit criterium gaat uitsluitend over de vraag of de uitgangspunten expliciet zijn benoemd, niet
over hoe goed het onderzoek is uitgevoerd. Dat komt pas bij de volgende criteria aan bod.

Hoofdstuk 2 – Criterium 2: Kwaliteit van het testmateriaal

,Bij dit criterium wordt gekeken naar de vormgeving en uitvoering van het testmateriaal, zowel
op papier als digitaal. Voor computerversies wordt geen onderscheid gemaakt tussen lokale en
online tests, omdat de eisen voor beide hetzelfde zijn. Belangrijk is dat de test zo wordt afgenomen
dat omgevingsfactoren geen invloed hebben op de uitkomst. De afname- en scoringswijze moeten
dus zorgvuldig zijn geregeld. Als een test in zowel papieren als digitale vorm bestaat, wordt de
kwaliteit van beide versies afzonderlijk beoordeeld. Zijn er grote verschillen, dan moet dat in de
beoordeling worden vermeld. Als de testinhoud en instructie echter niet overeenkomen, worden de
versies als twee aparte tests beschouwd.

Hoofdstuk 3 – Criterium 3: Kwaliteit van de handleiding
Hier wordt beoordeeld of de handleiding de gebruiker voldoende en duidelijke informatie biedt over
het gebruik van de test. Dit gaat over praktische aanwijzingen voor de afname, scoring en
interpretatie, maar ook over informatie over het onderzoek dat met de test is gedaan. De gebruiker
moet op basis hiervan kunnen inschatten wat een testscore betekent. De informatie moet
overzichtelijk en goed toegankelijk zijn, zowel op papier als digitaal. Bij computergestuurde tests
moeten er ook instructies zijn voor installatie, opstarten en gebruik.
Hoofdstuk 4 – Criterium 4: Normen
Het scoren van een test levert een ruwe score op, een ruwe testscore zegt op zichzelf weinig,
omdat deze wordt beïnvloed door kenmerken van de test (zoals aantal items of moeilijkheidsgraad)
en de omstandigheden van de afname. Pas wanneer een score wordt vergeleken met een norm,
krijgt deze betekenis. Er zijn twee typen normen:
Normgerichte (relatieve) interpretatie: de score wordt vergeleken met scores van anderen uit
een referentiegroep. En Domeingerichte of criteriumgerichte (absolute) interpretatie: de
score wordt vergeleken met vaste standaarden of grensscores, vaak vastgesteld door experts of op
basis van onderzoek. Bij criteriumgerichte interpretatie kan bijvoorbeeld een grensscore bepalen of
iemand slaagt of zakt. Zonder normen krijgt een test doorgaans een onvoldoende, al zijn er soms
uitzonderingen.

Hoofdstuk 5 – Criterium 5: Betrouwbaarheid
Betrouwbaarheid zegt iets over de consistentie van een testscore. In de klassieke testtheorie
bestaat een score uit een betrouwbare component (de ware score) en een toevallige
foutcomponent. Het doel is om in te schatten hoeveel invloed meetfouten hebben. De
betrouwbaarheid is dus de verhouding tussen de betrouwbare variantie en de totale variantie
in scores. Naast toevallige fouten kunnen ook systematische, onbedoelde invloeden een rol spelen.
Er bestaan meerdere vormen van betrouwbaarheid, afhankelijk van welke foutenbronnen je wilt
uitsluiten: Test-hertestbetrouwbaarheid meet of scores stabiel blijven over tijd (bijv. of
stemming invloed heeft).en Paralleltestbetrouwbaarheid vergelijkt gelijke tests bij dezelfde
groep.
De betrouwbaarheid hangt ook af van de groep waarin getest wordt. In een groep met meer
spreiding in de eigenschap die je meet, is de betrouwbaarheid doorgaans hoger. Bij tests met
meerdere subtests (zoals IQ-tests) gelden drie situaties: 1) Alleen de totaalscore telt → dan alleen
die score beoordelen; 2) Totaalscore is leidend, maar subtests mogen ook gebruikt worden → streng
voor de totaalscore, soepeler voor subtests. 3) totaalscore en subtests zijn even belangrijk → dan
gelden dezelfde eisen voor beide. Als er meerdere betrouwbaarheidsscores zijn voor verschillende
groepen, dan wordt meestal de laagste score of die van de belangrijkste doelgroep leidend
voor de beoordeling.

Bij validiteit gaat het om het meten wat je beoogt te meten. Bij betrouwbaarheid daarentegen gaat
het om de vraag of je onderzoeksresultaten hetzelfde zouden zijn als je het onderzoek op dezelfde
wijze nogmaals uitvoert.

Hoofdstuk 6 – Criterium 6: Begripsvaliditeit
Begripsvaliditeit gaat over de vraag of een test daadwerkelijk meet wat hij beoogt te meten. Om
de betekenis van testscores te begrijpen, is een onderliggende theorie nodig die uitlegt wat
gemeten wordt en hoe. Er bestaan meerdere vormen van validiteit, maar tegenwoordig wordt
validiteit vaak gezien als één geheel: een eigenschap van de interpretatie van testscores, niet
van de test zelf.
Toch gebruikt COTAN een praktische driedeling om validiteit gestructureerd te beoordelen:
1. Inhoudsvaliditeit – de test dekt het beoogde construct volledig.
2. Begripsvaliditeit – de test meet het bedoelde psychologische begrip.
3. Criteriumvaliditeit – de test voorspelt een extern criterium.
Begripsvaliditeit is altijd van belang, ongeacht het type test. Voorbeelden van onderzoeksmethoden
die bijdragen aan de begripsvaliditeit zijn: Factoranalyse (bijv. om te controleren of een test één
construct meet), Groepsvergelijkingen (groepen die verschillen, moeten ook verschillend
scoren), Correlaties met soortgelijke tests (zogenoemde ‘soortgenoten’). Geen enkele methode
is op zichzelf voldoende voor een positieve beoordeling. Pas de combinatie van meerdere

, aanwijzingen, of uitgebreider onderzoek zoals multi-trait-multi-methodanalyses, kan leiden tot een
beoordeling als 'voldoende' of 'goed'.

Hoofdstuk 7 – Criterium 7: Criteriumvaliditeit
Criteriumvaliditeit onderzoekt in hoeverre een testscore iets zegt over extern gedrag of
prestaties. Met andere woorden: hoe goed voorspelt de test iets buiten de test zelf, zoals
schoolsucces, werkprestatie of gedrag? Dit kan op drie manieren onderzocht worden: Retrospectief
(met terugwerkende kracht), Gelijktijdig (op hetzelfde moment),
Predictief (voorspellend voor later gedrag).
Het is belangrijk vooraf duidelijk te maken welke criteria (uitkomsten) je verwacht dat de test meet
of voorspelt. Zeker bij tests met meerdere schalen of subtests moet goed onderbouwd worden
welke onderdelen wat voorspellen. Toch hoeft niet élke subtest gevalideerd te zijn; één valide
schaal kan voldoende zijn voor een positieve beoordeling.
Hoewel criteriumvaliditeit meestal belangrijk is, zijn er uitzonderingen. Als een test geen
voorspellende functie heeft (bijv. een persoonlijkheidsbeschrijving zonder interpretatie), dan kan dit
criterium als niet van toepassing worden gemarkeerd in de beoordeling.
Verschil tussen begrips- en criteriumvaliditeit:
 Begripsvaliditeit kijkt naar de inhoudelijke betekenis van de testscore: wat meet de test
precies?
 Criteriumvaliditeit kijkt naar de praktische waarde: wat voorspelt of verklaart de testscore?



Kernclips 1A
COTAN- Kernwoord Beschrijving
beoordelingscriterium
Normen Afkapscore Welke scores zijn normaal, welke zijn bijzonder hoog of
laag?
Betrouwbaarheid Herhalen Leidt herhaling van de meting tot dezelfde scores of
dezelfde verschillen tussen scores?
Begripsvaliditeit Inzicht Begrijpen we wat de scores betekenen? Komen
voorspellingen van de theorie uit?
Criteriumvaliditeit Voorspellen Hoe goed kun je met de scores voorspellen?
Besliskunde Beslissingen Waarmee moet je rekening houden als je beslissingen
neemt op grond van de testscore?

Belangrijk tabel, leer uit je hoofd! Dit komt op het tentamen T1
Normen Betrouwbaarheid Begripsvaliditeit Criteriumvaliditeit
Groepsonderzoek X X
Signalering X X X
Inzicht krijgen X X X
Adviseren X X X of X
Screening X X X X
Diagnosticeren X X X X
Besluiten, toewijzen of X X X X
selecteren

Tests worden voor verschillende doelen gebruikt, die oplopen in zwaarte. Groepsonderzoek is het
lichtste doel, waarbij er geen consequenties zijn voor individuen. Beslissingen zoals toewijzen of
selecteren zijn het zwaarste doel, omdat hierbij belangrijke besluiten worden genomen waar
iemand geen definitieve zeggenschap meer over heeft. Voor zwaardere doelen is er meer
bewijsmateriaal en een hogere kwaliteit van de test vereist. Een test mag niet voor een zwaarder
doel worden ingezet dan waarvoor deze oorspronkelijk is gemaakt. Bij het beoordelen van tests
wordt rekening gehouden met het testdoel, waardoor een test met een licht testdoel ook licht
beoordeeld wordt. Een test die voldoende is voor groepsonderzoek hoeft bijvoorbeeld niet
automatisch geschikt te zijn voor diagnostiek. Voor zwaardere gebruiksdoelen gelden strengere
eisen, en als een test niet aan deze eisen voldoet, mag hij niet voor dat doel worden gebruikt.
Het testdoel moet minstens even zwaar zijn als het gebruikers doel en bij alle criteria
voor het gebruikers doel moet minstens een voldoende staan

Thema 2 Factoranalyse I (unidimensionaliteit)
In de psychologie bestaan tests uit meerdere items waarvan de scores worden samengevat in een
totaalscore. Soms worden meerdere verwante tests als één geheel aangeboden; dan spreekt men
van subtests binnen een test. Items mogen alleen samen een test vormen als ze unidimensioneel of

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
FvAgteren Open Universiteit
Follow You need to be logged in order to follow users or courses
Sold
90
Member since
1 year
Number of followers
0
Documents
10
Last sold
3 days ago

4.0

2 reviews

5
0
4
2
3
0
2
0
1
0

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions