Taak 1: Betrouwbaarheid:
1. classical test theory
2. alfa
3. wat is betrouwbaarheid en wekle vormen heb je? temporale stabiliteit (time sampling)/interne
consistentie (alfa)
4. voor en nadelen
5. betrouwbaarheid van psychometrische testen. Wanneer zijn ze betrouwbaar en wat heeft de
cronbachs alfa hiermee te make?
6. hoe bepaal je de betrouwbaarheid van bepaalde test?
7. hoe worden er beslissingen gemaakt over belangrijke testen en hoe wordt bepaald of een test goed
genoeg is om wat te doen wat hij moet doen?
8. CM: hoe wil je de betrouwbaarheid meten? test-retest. Maar stel we willen perse interne
consistentie meten dan: alpha (omdat ze allebei andere varianties hebben), split-half (odd-even?)
Hoofdstuk 4: Betrouwbaarheid (Kaplan)
In psychologische settings betekent error niet dat er een error is gemaakt. In plaats daarvan impliceert het dat
er altijd een zekere mate van onnauwkeurigheid in onze metingen zal zijn. De taak van een psycholoog is om de
omvang van dergelijke erroren te vinden en manieren te ontwikkelen om ze te minimaliseren. Tests die vrij zijn
van meeterroren worden als betrouwbaar beschouwd. Tests die te veel meeterroren bevatten, worden als
onbetrouwbaar beschouwd.
Geschiedenis en theorie van betrouwbaarheid:
Basisprincipes van testscoretheorie:
Klassieke testscoretheorie aannames:
1. Elke persoon heeft een echte score die zou worden verkregen als er geen fouten in de meting waren, maar
omdat meetinstrumenten onvolmaakt zijn, verschilt de waargenomen score altijd van iemands ware
vermogen.
X=T+E
((Waargenomen score = True Score + Error). Vandaar X – T = E; Waargenomen score – true score = fout.
2. Meetfouten zijn willekeurig.
De verdeling van willekeurige fouten is bellshaped (normale verdeling). Het centrum (gemiddelde) van de
verdeling (μ in de afbeelding) is de ware score. De spreiding rond dit gemiddelde is de verdeling van
steekproeffouten.>>Dus, hoewel de werkelijke score onbekend is, kunt u de score vinden door het gemiddelde
van de steekproeffouten te nemen. Hoe breder de spreiding, hoe meer fout er in de maat zit; een zeer smalle
spreiding betekent dat de meeste waarnemingen dicht bij de werkelijke score liggen.>>Als zodanig geldt dat
hoe breder de spreiding, hoe meer waarnemingen je realistisch nodig hebt; Als de spreiding smal is, kun je uit
weinig waarnemingen de ware score afleiden.
3. De werkelijke score voor een individu zal niet veranderen bij herhaalde toepassingen van dezelfde test.
Vanwege willekeurige fouten kunnen herhaalde toepassingen van dezelfde test verschillende scores
opleveren. Willekeurige fouten zijn verantwoordelijk voor de verdeling van scores zoals te zien in de
bovenstaande afbeeldingen. De standaarddeviatie van de foutverdeling vertelt iets over de omvang van de
meetfout.
4. De verdeling van willekeurige fouten zal (meestal) voor alle mensen hetzelfde zijn.
,Vandaar dat de klassieke testtheorie vertrouwt op de standaarddeviatie van fouten als de basismaat voor
fouten; de standaardfout van meting.
σ metingen De standaardfout van
metingen geeft gemiddeld aan hoeveel een score afwijkt van de werkelijke score.De standaarddeviatie van
de waargenomen score en de betrouwbaarheid van de test worden gebruikt om de standaardmeetfout te
schatten.
5. Gedragsdisposities zijn constant in de tijd.
De klassieke testtheorie gaat ervan uit dat gedragsdisposities constant zijn in de tijd (als je bijvoorbeeld een
agressief persoon bent, zul je de hele tijd agressief zijn). Belangrijke gedragskenmerken, zoals motivatie,
fluctueren echter in de loop van de tijd. In de klassieke testtheorie worden deze variaties verondersteld erroren
te zijn. Meer geavanceerde theorieën kunnen deze variaties voorspellen.
Deze veronderstelling kan problematisch zijn. >>Verschillende kenmerken kunnen in de loop van de tijd
fluctueren, wat wordt beschouwd als een fout in CTT.
Het domeinsteekproefmodel
Het domeinbemonsteringsmodel is een centraal concept in de klassieke testtheorie dat de problemen die
worden gecreëerd door het gebruik van een beperkt aantal items beschouwt als een grotere en meer
gecompliceerde constructie. De beste techniek om iemands spellingsvaardigheid te testen, is bijvoorbeeld om
systematisch door een woordenboek te gaan, elk woord te spellen en het % correct te bepalen.
Wanneer tests worden geconstrueerd, is elk item een voorbeeld van het vermogen of gedrag dat moet worden
gemeten. Om realistisch een evaluatie uit te voeren, moeten we een steekproef van items gebruiken in plaats
van een complete set. Naarmate een steekproef groter wordt, geeft deze het domein steeds nauwkeuriger
weer. Als gevolg hiervan, hoe groter het aantal items, hoe hoger de betrouwbaarheid.
De domeinsteekproefmethode conceptualiseert betrouwbaarheid als de verhouding tussen de variantie van de
waargenomen score op de kortere test en de variantie van de langere werkelijke score. De betrouwbaarheid
kan worden geschat op basis van de correlatie van de waargenomen testscore met de werkelijke score. Het
vinden van de ware score is echter zelden mogelijk.
We moeten dus de werkelijke score schatten. Aangezien items willekeurig uit een bepaald domein worden
getrokken, moet elke test of groep items een onbevooroordeelde schatting zijn van de werkelijke score.
Steekproeferror betekent echter dat verschillende willekeurige steekproeven van items verschillende
schattingen van de werkelijke score kunnen geven.
De verdeling van deze schattingen moet willekeurig zijn en normaal worden verdeeld. Om de betrouwbaarheid
te schatten, maken we veel willekeurig parallelle tests door herhaalde willekeurige steekproeven van items uit
hetzelfde domein te trekken. Vervolgens vinden we de correlatie tussen elk van deze tests en elk van de andere
tests. Deze correlaties worden gemiddeld.
Item response theory (IRT):
In de klassieke testtheorie worden dezelfde vragen aan elke persoon gesteld om hun vaardigheid te meten. Dit
betekent dat sommige vragen mogelijk te gemakkelijk zijn voor een persoon, terwijl andere te moeilijk kunnen
zijn. Dit kan de betrouwbaarheid van de score verminderen, omdat de vragen niet precies passen bij het
vaardigheidsniveau van de persoon.
Item Response Theory (IRT) is een benadering die zich richt op het vinden van de juiste balans in
moeilijkheidsgraad van de vragen, zodat het vaardigheidsniveau van een persoon nauwkeuriger kan worden
beoordeeld.
Bijvoorbeeld, als een persoon een aantal gemakkelijke vragen correct beantwoordt, kan de computer sneller
naar moeilijkere vragen gaan om te zien hoe goed ze daarmee omgaan. Aan de andere kant, als de persoon
moeite heeft met een aantal moeilijke vragen, kan de computer teruggaan naar een vraag die iets
gemakkelijker is, zodat de persoon ook correcte antwoorden kan geven.
,Deze aanpak vereist een "bank" van vragen die systematisch zijn geëvalueerd op moeilijkheidsgraad. Dit
betekent dat er veel vragen beschikbaar moeten zijn en dat ze zorgvuldig zijn getest om te bepalen hoe moeilijk
ze zijn. Dit vereist vaak uitgebreide testontwikkeling en complexe computersoftware om de juiste vragen te
selecteren en de vaardigheid van een persoon nauwkeurig te schatten.
Betrouwbaarheidsmodellen:
De meeste betrouwbaarheidscoëfficiënten zijn correlaties. Het is echter nuttig om betrouwbaarheid te
definiëren als de wiskundig equivalente verhouding. De betrouwbaarheidscoëfficiënt is de verhouding tussen
de variantie van de werkelijke scores op een test en de variantie van de waargenomen scores:
Variance of true scores
Theoretical reliability (r)=
Variance of observed scores
De verhouding tussen de werkelijke scorevariantie en de waargenomen scorevariantie kan worden gezien als
een percentage. Het is het percentage van de waargenomen variatie dat is toe te schrijven aan variatie in de
werkelijke score. Als we deze verhouding van 1 aftrekken, hebben we het percentage variatie dat kan worden
toegeschreven aan een willekeurige error.
Als de betrouwbaarheid van een test 0,40 is en een werkgever de test gebruikt om sollicitanten te vergelijken,
zal 40% van de variatie (verschil tussen mensen) worden verklaard door echte verschillen tussen mensen, en
60% zal worden toegeschreven aan willekeurige of toevallige factoren. Daarom moeten er hoge eisen worden
gesteld aan de betrouwbaarheid.
Bronnen van fouten:
-Waargenomen scores kunnen om verschillende redenen afwijken van echte scores:Situationele factoren
(Lawaai, kamer te warm, deelnemer voelt zich ziek, ...) Testitems zijn niet representatief voor het domein.-
Testbetrouwbaarheid wordt meestal geschat via een van de volgende drie manieren:
Test-hertestmethode: Houd rekening met de consistentie van testresultaten wanneer de test bij
verschillende gelegenheden wordt afgenomen.
Parallelle forms: het evalueren van tests in verschillende vormen van de test.
Interne consistentie: onderzoek hoe mensen presteren op vergelijkbare subsets van items die zijn
geselecteerd uit dezelfde vorm van de meting.>>Interne consistentiemethoden meten de mate waarin
testitems dezelfde eigenschap meten. Als de test meerdere eigenschappen meet, geven ze lage schattingen van
de betrouwbaarheid.
>>Factoranalyse kan worden gebruikt om af te leiden of een test meerdere eigenschappen meet.
Tijdbemonstering: De test-hertestmethode:- (enige test die temporale meet)
In de test-hertestmethode houden we rekening met de consistentie van testresultaten wanneer de test bij
verschillende gelegenheden wordt afgenomen (bijvoorbeeld twee verschillende keren). Deze analyse is alleen
waardevol wanneer we "eigenschappen" of kenmerken meten die in de loop van de tijd niet veranderen.
Om de betrouwbaarheid van de test-hertest te evalueren, berekenen we de correlatie tussen scores van de
twee administraties. Er moeten echter verschillende overwegingen worden gemaakt:
1. Carryover-effect - treedt op wanneer de eerste testsessie de scores van de tweede sessie beïnvloedt (=
overschattingen van echte betrouwbaarheid) en zijn van belang wanneer veranderingen in de loop van de
tijd willekeurig zijn in plaats van systematisch
« Systematische overdracht – ieders score verbetert met hetzelfde aantal punten
« Willekeurige overdracht - veranderingen zijn niet voorspelbaar van eerdere scores of wanneer
iets sommige maar niet alle testpersonen beïnvloedt
« Bijvoorbeeld, als sommige studenten aan het begin van het semester een lage score behalen
omdat ze de stof nog niet hebben bestudeerd, maar later beter presteren omdat ze de tijd
hebben gehad om te studeren, kan dit leiden tot een carryover-effect.
«
2. Oefeneffecten - een soort overdrachtseffect omdat sommige vaardigheden verbeteren met oefening
, « Beïnvloedt deelnemers anders, dus veranderingen zijn vaak niet constant in een groep
« Bijvoorbeeld, als studenten gedurende het semester regelmatig oefenen met
wiskundeproblemen, kunnen ze hun vaardigheden verbeteren en hogere scores behalen bij de
tweede testsessie.
Vanwege deze effecten moeten intervallen tussen testsessies zorgvuldig worden geselecteerd en geëvalueerd.
Als de twee administraties op tijd dicht bij elkaar zijn, is er een relatief groot risico op overdracht en
praktijkeffecten. Naarmate de tijd tussen testsessies toeneemt, kunnen veel andere factoren echter ingrijpen
om de scores te beïnvloeden.
Soms betekenen slechte test-hertestcorrelaties niet dat een test onbetrouwbaar is. In plaats daarvan kunnen ze
suggereren dat het kenmerk dat wordt bestudeerd, is veranderd.
Itembemonstering: parallelle formsmethode:- (interne consistentie)
Parallelle vormen betrouwbaarheid vergelijkt twee gelijkwaardige vormen van een test die hetzelfde kenmerk
meten. De twee vormen gebruiken verschillende items. De regels die worden gebruikt om items van een
bepaalde moeilijkheidsgraad te selecteren, zijn echter hetzelfde.
De Pearson-productmomentcorrelatiecoëfficiënt wordt gebruikt als schatting van de betrouwbaarheid tussen
beide vormen van de test. Wanneer beide vormen op dezelfde dag worden gegeven, zijn de enige bronnen van
variatie willekeurige erroren en het verschil tussen de vormen van de test (volgorde wordt gecompenseerd om
oefeneffecten te voorkomen). Wanneer de twee vormen van de test op verschillende tijdstippen worden
gegeven, worden erroren in verband met tijdbemonstering ook opgenomen in de schatting van de
betrouwbaarheid.
Deze methode biedt een van de meest rigoureuze beoordelingen van betrouwbaarheid.
Laten we eens kijken naar een voorbeeld om de parallelle formsmethode beter te begrijpen.
Stel je voor dat we een taalvaardigheidstest willen ontwikkelen en evalueren. We willen ervoor zorgen dat de
test betrouwbaar is en consistent de taalvaardigheid van de deelnemers meet. Om dit te bereiken, maken we
gebruik van de parallelle formsmethode.
We creëren twee gelijkwaardige vormen van de test, bijvoorbeeld Testvorm A en Testvorm B. Beide vormen
hebben dezelfde moeilijkheidsgraad en meten dezelfde aspecten van taalvaardigheid, maar ze bevatten
verschillende specifieke vragen en opgaven.
Om de betrouwbaarheid te schatten, nemen we een steekproef van deelnemers en geven we hen zowel
Testvorm A als Testvorm B. Dit kan op verschillende manieren gebeuren:
1. Dezelfde dag: Deelnemers krijgen eerst Testvorm A en direct daarna Testvorm B op dezelfde dag. Dit
minimaliseert de invloed van factoren zoals tijdsverloop en veranderingen in de taalvaardigheid van
deelnemers. De enige bronnen van variatie zijn willekeurige fouten en mogelijke verschillen tussen de
testvormen.
2. Verschillende dagen: Deelnemers krijgen Testvorm A op een bepaalde dag en vervolgens Testvorm B
op een later tijdstip, bijvoorbeeld een week later. Hiermee wordt de betrouwbaarheidsschatting
uitgebreid om ook de invloed van tijdsampling en mogelijke veranderingen in taalvaardigheid in de tijd
in overweging te nemen.
.-Con: Belastend om twee vormen van dezelfde test te ontwikkelen; Praktische beperkingen maken het moeilijk
om dezelfde groep individuen opnieuw te testen.
1. classical test theory
2. alfa
3. wat is betrouwbaarheid en wekle vormen heb je? temporale stabiliteit (time sampling)/interne
consistentie (alfa)
4. voor en nadelen
5. betrouwbaarheid van psychometrische testen. Wanneer zijn ze betrouwbaar en wat heeft de
cronbachs alfa hiermee te make?
6. hoe bepaal je de betrouwbaarheid van bepaalde test?
7. hoe worden er beslissingen gemaakt over belangrijke testen en hoe wordt bepaald of een test goed
genoeg is om wat te doen wat hij moet doen?
8. CM: hoe wil je de betrouwbaarheid meten? test-retest. Maar stel we willen perse interne
consistentie meten dan: alpha (omdat ze allebei andere varianties hebben), split-half (odd-even?)
Hoofdstuk 4: Betrouwbaarheid (Kaplan)
In psychologische settings betekent error niet dat er een error is gemaakt. In plaats daarvan impliceert het dat
er altijd een zekere mate van onnauwkeurigheid in onze metingen zal zijn. De taak van een psycholoog is om de
omvang van dergelijke erroren te vinden en manieren te ontwikkelen om ze te minimaliseren. Tests die vrij zijn
van meeterroren worden als betrouwbaar beschouwd. Tests die te veel meeterroren bevatten, worden als
onbetrouwbaar beschouwd.
Geschiedenis en theorie van betrouwbaarheid:
Basisprincipes van testscoretheorie:
Klassieke testscoretheorie aannames:
1. Elke persoon heeft een echte score die zou worden verkregen als er geen fouten in de meting waren, maar
omdat meetinstrumenten onvolmaakt zijn, verschilt de waargenomen score altijd van iemands ware
vermogen.
X=T+E
((Waargenomen score = True Score + Error). Vandaar X – T = E; Waargenomen score – true score = fout.
2. Meetfouten zijn willekeurig.
De verdeling van willekeurige fouten is bellshaped (normale verdeling). Het centrum (gemiddelde) van de
verdeling (μ in de afbeelding) is de ware score. De spreiding rond dit gemiddelde is de verdeling van
steekproeffouten.>>Dus, hoewel de werkelijke score onbekend is, kunt u de score vinden door het gemiddelde
van de steekproeffouten te nemen. Hoe breder de spreiding, hoe meer fout er in de maat zit; een zeer smalle
spreiding betekent dat de meeste waarnemingen dicht bij de werkelijke score liggen.>>Als zodanig geldt dat
hoe breder de spreiding, hoe meer waarnemingen je realistisch nodig hebt; Als de spreiding smal is, kun je uit
weinig waarnemingen de ware score afleiden.
3. De werkelijke score voor een individu zal niet veranderen bij herhaalde toepassingen van dezelfde test.
Vanwege willekeurige fouten kunnen herhaalde toepassingen van dezelfde test verschillende scores
opleveren. Willekeurige fouten zijn verantwoordelijk voor de verdeling van scores zoals te zien in de
bovenstaande afbeeldingen. De standaarddeviatie van de foutverdeling vertelt iets over de omvang van de
meetfout.
4. De verdeling van willekeurige fouten zal (meestal) voor alle mensen hetzelfde zijn.
,Vandaar dat de klassieke testtheorie vertrouwt op de standaarddeviatie van fouten als de basismaat voor
fouten; de standaardfout van meting.
σ metingen De standaardfout van
metingen geeft gemiddeld aan hoeveel een score afwijkt van de werkelijke score.De standaarddeviatie van
de waargenomen score en de betrouwbaarheid van de test worden gebruikt om de standaardmeetfout te
schatten.
5. Gedragsdisposities zijn constant in de tijd.
De klassieke testtheorie gaat ervan uit dat gedragsdisposities constant zijn in de tijd (als je bijvoorbeeld een
agressief persoon bent, zul je de hele tijd agressief zijn). Belangrijke gedragskenmerken, zoals motivatie,
fluctueren echter in de loop van de tijd. In de klassieke testtheorie worden deze variaties verondersteld erroren
te zijn. Meer geavanceerde theorieën kunnen deze variaties voorspellen.
Deze veronderstelling kan problematisch zijn. >>Verschillende kenmerken kunnen in de loop van de tijd
fluctueren, wat wordt beschouwd als een fout in CTT.
Het domeinsteekproefmodel
Het domeinbemonsteringsmodel is een centraal concept in de klassieke testtheorie dat de problemen die
worden gecreëerd door het gebruik van een beperkt aantal items beschouwt als een grotere en meer
gecompliceerde constructie. De beste techniek om iemands spellingsvaardigheid te testen, is bijvoorbeeld om
systematisch door een woordenboek te gaan, elk woord te spellen en het % correct te bepalen.
Wanneer tests worden geconstrueerd, is elk item een voorbeeld van het vermogen of gedrag dat moet worden
gemeten. Om realistisch een evaluatie uit te voeren, moeten we een steekproef van items gebruiken in plaats
van een complete set. Naarmate een steekproef groter wordt, geeft deze het domein steeds nauwkeuriger
weer. Als gevolg hiervan, hoe groter het aantal items, hoe hoger de betrouwbaarheid.
De domeinsteekproefmethode conceptualiseert betrouwbaarheid als de verhouding tussen de variantie van de
waargenomen score op de kortere test en de variantie van de langere werkelijke score. De betrouwbaarheid
kan worden geschat op basis van de correlatie van de waargenomen testscore met de werkelijke score. Het
vinden van de ware score is echter zelden mogelijk.
We moeten dus de werkelijke score schatten. Aangezien items willekeurig uit een bepaald domein worden
getrokken, moet elke test of groep items een onbevooroordeelde schatting zijn van de werkelijke score.
Steekproeferror betekent echter dat verschillende willekeurige steekproeven van items verschillende
schattingen van de werkelijke score kunnen geven.
De verdeling van deze schattingen moet willekeurig zijn en normaal worden verdeeld. Om de betrouwbaarheid
te schatten, maken we veel willekeurig parallelle tests door herhaalde willekeurige steekproeven van items uit
hetzelfde domein te trekken. Vervolgens vinden we de correlatie tussen elk van deze tests en elk van de andere
tests. Deze correlaties worden gemiddeld.
Item response theory (IRT):
In de klassieke testtheorie worden dezelfde vragen aan elke persoon gesteld om hun vaardigheid te meten. Dit
betekent dat sommige vragen mogelijk te gemakkelijk zijn voor een persoon, terwijl andere te moeilijk kunnen
zijn. Dit kan de betrouwbaarheid van de score verminderen, omdat de vragen niet precies passen bij het
vaardigheidsniveau van de persoon.
Item Response Theory (IRT) is een benadering die zich richt op het vinden van de juiste balans in
moeilijkheidsgraad van de vragen, zodat het vaardigheidsniveau van een persoon nauwkeuriger kan worden
beoordeeld.
Bijvoorbeeld, als een persoon een aantal gemakkelijke vragen correct beantwoordt, kan de computer sneller
naar moeilijkere vragen gaan om te zien hoe goed ze daarmee omgaan. Aan de andere kant, als de persoon
moeite heeft met een aantal moeilijke vragen, kan de computer teruggaan naar een vraag die iets
gemakkelijker is, zodat de persoon ook correcte antwoorden kan geven.
,Deze aanpak vereist een "bank" van vragen die systematisch zijn geëvalueerd op moeilijkheidsgraad. Dit
betekent dat er veel vragen beschikbaar moeten zijn en dat ze zorgvuldig zijn getest om te bepalen hoe moeilijk
ze zijn. Dit vereist vaak uitgebreide testontwikkeling en complexe computersoftware om de juiste vragen te
selecteren en de vaardigheid van een persoon nauwkeurig te schatten.
Betrouwbaarheidsmodellen:
De meeste betrouwbaarheidscoëfficiënten zijn correlaties. Het is echter nuttig om betrouwbaarheid te
definiëren als de wiskundig equivalente verhouding. De betrouwbaarheidscoëfficiënt is de verhouding tussen
de variantie van de werkelijke scores op een test en de variantie van de waargenomen scores:
Variance of true scores
Theoretical reliability (r)=
Variance of observed scores
De verhouding tussen de werkelijke scorevariantie en de waargenomen scorevariantie kan worden gezien als
een percentage. Het is het percentage van de waargenomen variatie dat is toe te schrijven aan variatie in de
werkelijke score. Als we deze verhouding van 1 aftrekken, hebben we het percentage variatie dat kan worden
toegeschreven aan een willekeurige error.
Als de betrouwbaarheid van een test 0,40 is en een werkgever de test gebruikt om sollicitanten te vergelijken,
zal 40% van de variatie (verschil tussen mensen) worden verklaard door echte verschillen tussen mensen, en
60% zal worden toegeschreven aan willekeurige of toevallige factoren. Daarom moeten er hoge eisen worden
gesteld aan de betrouwbaarheid.
Bronnen van fouten:
-Waargenomen scores kunnen om verschillende redenen afwijken van echte scores:Situationele factoren
(Lawaai, kamer te warm, deelnemer voelt zich ziek, ...) Testitems zijn niet representatief voor het domein.-
Testbetrouwbaarheid wordt meestal geschat via een van de volgende drie manieren:
Test-hertestmethode: Houd rekening met de consistentie van testresultaten wanneer de test bij
verschillende gelegenheden wordt afgenomen.
Parallelle forms: het evalueren van tests in verschillende vormen van de test.
Interne consistentie: onderzoek hoe mensen presteren op vergelijkbare subsets van items die zijn
geselecteerd uit dezelfde vorm van de meting.>>Interne consistentiemethoden meten de mate waarin
testitems dezelfde eigenschap meten. Als de test meerdere eigenschappen meet, geven ze lage schattingen van
de betrouwbaarheid.
>>Factoranalyse kan worden gebruikt om af te leiden of een test meerdere eigenschappen meet.
Tijdbemonstering: De test-hertestmethode:- (enige test die temporale meet)
In de test-hertestmethode houden we rekening met de consistentie van testresultaten wanneer de test bij
verschillende gelegenheden wordt afgenomen (bijvoorbeeld twee verschillende keren). Deze analyse is alleen
waardevol wanneer we "eigenschappen" of kenmerken meten die in de loop van de tijd niet veranderen.
Om de betrouwbaarheid van de test-hertest te evalueren, berekenen we de correlatie tussen scores van de
twee administraties. Er moeten echter verschillende overwegingen worden gemaakt:
1. Carryover-effect - treedt op wanneer de eerste testsessie de scores van de tweede sessie beïnvloedt (=
overschattingen van echte betrouwbaarheid) en zijn van belang wanneer veranderingen in de loop van de
tijd willekeurig zijn in plaats van systematisch
« Systematische overdracht – ieders score verbetert met hetzelfde aantal punten
« Willekeurige overdracht - veranderingen zijn niet voorspelbaar van eerdere scores of wanneer
iets sommige maar niet alle testpersonen beïnvloedt
« Bijvoorbeeld, als sommige studenten aan het begin van het semester een lage score behalen
omdat ze de stof nog niet hebben bestudeerd, maar later beter presteren omdat ze de tijd
hebben gehad om te studeren, kan dit leiden tot een carryover-effect.
«
2. Oefeneffecten - een soort overdrachtseffect omdat sommige vaardigheden verbeteren met oefening
, « Beïnvloedt deelnemers anders, dus veranderingen zijn vaak niet constant in een groep
« Bijvoorbeeld, als studenten gedurende het semester regelmatig oefenen met
wiskundeproblemen, kunnen ze hun vaardigheden verbeteren en hogere scores behalen bij de
tweede testsessie.
Vanwege deze effecten moeten intervallen tussen testsessies zorgvuldig worden geselecteerd en geëvalueerd.
Als de twee administraties op tijd dicht bij elkaar zijn, is er een relatief groot risico op overdracht en
praktijkeffecten. Naarmate de tijd tussen testsessies toeneemt, kunnen veel andere factoren echter ingrijpen
om de scores te beïnvloeden.
Soms betekenen slechte test-hertestcorrelaties niet dat een test onbetrouwbaar is. In plaats daarvan kunnen ze
suggereren dat het kenmerk dat wordt bestudeerd, is veranderd.
Itembemonstering: parallelle formsmethode:- (interne consistentie)
Parallelle vormen betrouwbaarheid vergelijkt twee gelijkwaardige vormen van een test die hetzelfde kenmerk
meten. De twee vormen gebruiken verschillende items. De regels die worden gebruikt om items van een
bepaalde moeilijkheidsgraad te selecteren, zijn echter hetzelfde.
De Pearson-productmomentcorrelatiecoëfficiënt wordt gebruikt als schatting van de betrouwbaarheid tussen
beide vormen van de test. Wanneer beide vormen op dezelfde dag worden gegeven, zijn de enige bronnen van
variatie willekeurige erroren en het verschil tussen de vormen van de test (volgorde wordt gecompenseerd om
oefeneffecten te voorkomen). Wanneer de twee vormen van de test op verschillende tijdstippen worden
gegeven, worden erroren in verband met tijdbemonstering ook opgenomen in de schatting van de
betrouwbaarheid.
Deze methode biedt een van de meest rigoureuze beoordelingen van betrouwbaarheid.
Laten we eens kijken naar een voorbeeld om de parallelle formsmethode beter te begrijpen.
Stel je voor dat we een taalvaardigheidstest willen ontwikkelen en evalueren. We willen ervoor zorgen dat de
test betrouwbaar is en consistent de taalvaardigheid van de deelnemers meet. Om dit te bereiken, maken we
gebruik van de parallelle formsmethode.
We creëren twee gelijkwaardige vormen van de test, bijvoorbeeld Testvorm A en Testvorm B. Beide vormen
hebben dezelfde moeilijkheidsgraad en meten dezelfde aspecten van taalvaardigheid, maar ze bevatten
verschillende specifieke vragen en opgaven.
Om de betrouwbaarheid te schatten, nemen we een steekproef van deelnemers en geven we hen zowel
Testvorm A als Testvorm B. Dit kan op verschillende manieren gebeuren:
1. Dezelfde dag: Deelnemers krijgen eerst Testvorm A en direct daarna Testvorm B op dezelfde dag. Dit
minimaliseert de invloed van factoren zoals tijdsverloop en veranderingen in de taalvaardigheid van
deelnemers. De enige bronnen van variatie zijn willekeurige fouten en mogelijke verschillen tussen de
testvormen.
2. Verschillende dagen: Deelnemers krijgen Testvorm A op een bepaalde dag en vervolgens Testvorm B
op een later tijdstip, bijvoorbeeld een week later. Hiermee wordt de betrouwbaarheidsschatting
uitgebreid om ook de invloed van tijdsampling en mogelijke veranderingen in taalvaardigheid in de tijd
in overweging te nemen.
.-Con: Belastend om twee vormen van dezelfde test te ontwikkelen; Praktische beperkingen maken het moeilijk
om dezelfde groep individuen opnieuw te testen.