Samenvatting testtheorie
H2: definitie, kenmerken en toepassingen van de test
Onderdelen van een test:
- Testmateriaal (opgaven, bouwstenen, legpuzzels, foto’s)
- Testformulieren (antwoorden, reacties of gedragsgegevens waaruit
interpretaties of conclusies worden afgeleid)
- Testhandleiding. Een goede bevat:
o exacte testinstructie: procedure, condities, aanwijzingen,
uitleg, volgorde van opgaven, toegestane responstijden,
waarschuwingen en antwoordmogelijkheden.
o verwerkingsprocedures: richtlijnen voor toekenning van
numerieke scores aan de antwoorden. Hier voor dienen de
sleutels voor de opgaven bekend te zijn (wat is
goed/fout/indicatief/contra-indicatief)
o normtabellen: uitgedrukt in numerieke testscore, vergeleken
met prestaties van andere normgroepen.
o bespreking van wetenschappelijke kwaliteiten van de test:
betrouwbaarheid, herhaalbaarheid, testbetekenis (welke
eigenschap meet het) en voor welke voorspellingen de test
gebruikt kan worden.
De bedoeling van een testonderzoek is het doen van een uitspraak die een
voorspelling, classificatie of beschrijving met betrekking tot het
onderzochte individu behelst. Dit heeft alleen zin als de uitspraak wordt
vergeleken met anderen. De aard en grootte van de vergelijkingsgroep is
bepalend voor de gevolgen van de uitspraak.
Een psychologische test is systematisch onderzoek van gedrag met
behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling
inzicht te krijgen in een psychologisch kenmerk van de onderzochte in
vergelijking met anderen.
Bij de beschikbaarheid van voldoende juiste informatie is het niet altijd
nodig een test te gebruiken voor oordeelsvorming. Indien de test een
beter beeld oplevert, aanvullend is en de kosten of ethische bezwaren niet
onoverkomelijk zijn, is een test gerechtvaardigd.
6 kenmerken van voordelen van een test t.o.v. een oordeel:
- Efficiëntie. Door het gebruik van een IQ test ben je niet afhankelijk
van het meten of intelligentie zich voordoet in dagelijkse situaties.
- Standaardisatie. De prestatie moet vergelijkbaar zijn met die van
anderen. Condities en invloeden standaardiseren betekent gelijkheid
in: procedure van afneming, testmateriaal, instructie en
oefenvoorbeelden, tijdlimieten en verwerkingsregels. Handleiding
met deze punten = belangrijk!
1
, - Normering. De afstand tussen A en B moet exact geschat worden
om zo kleine verschillen vast te stellen. Genormeerde
psychologietesten hebben:
o plaatsbepaling in rangorde (zeer goed – slecht), gebonden aan
een groep proefpersonen.
o discrete verdeling omzetten in normaalverdeling. De schaal
verandert maar de rangorde blijft het zelfde. Hiermee worden
steekproeffouten gladgestreken en het is een handige schaal
met gemiddelde en spreiding. Meestal zijn normen
noodzakelijk bij een test, behalve wanneer een relatie wordt
nagegaan en een andere variabele, of in situaties waarin
binnen en groep beslissingen moeten worden genomen
a.d.h.v. een rangorde (bijv. selectie van 10 beste kandidaten).
- Betrouwbaarheid: als tussen 2 metingen weinig verschillen zijn.
Door de rangordes met elkaar te vergelijken en uit te drukken in bijv.
rangcorrelatie, beschikken we over een kwantitatieve maat voor
betrouwbaarheid. Er is altijd kans op toeval die niet door
standaardisatie kan worden vermeden. Bij psychologische metingen
zullen fluctuaties groter en complexer zijn dan bijv. 2x
lichaamslengte meten. Hoge betrouwbaarheid is belangrijk, zodat
het niet uitmaakt, wanneer iemand getest wordt.
- Validiteit: of de indicaties juist zijn om hetgeen te meten. Zijn er
alternatieve hypothesen te bedenken? Bij een goede test is de
psychologische betekenis bekend, weet men naar welke eigenschap
van de persoon de test verwijst en zijn alternatieve verklaringen
voldoende weerlegd. Er mag geen sterk verschil zijn in mening over
de interpretatie/betekenis van de testprestatie. De betekenis moet
empirisch geverifieerd zijn. Maar het biedt geen vrijbrief, het blijft
een suggestie voor mogelijke samenhang.
- Objectiviteit: onafhankelijk van storende invloeden van de
waarnemer/beoordelaar. Gevolgen:
o Het maakt de onderzochte niet uit wie beoordelaar is
o Openheid en reproduceerbaarheid van de test en
evaluatieprocedure
Intersubjectiviteitprincipe = mate van overeenstemming van
resultaten tussen meerdere beoordelaars, uit te drukken in
interbeoordelaarsbetrouwbaarheid, geeft de mate van objectiviteit
aan.
o Uitdrukken in rangcorrelatie als 2 onafhankelijke
beoordeelaars beide een rangorde produceren > Spearmans
rangcorrelatie of Kendall tau.
o Uitdrukken in Kendalls coefficient/condordance bij het
kwantificeren van overeenstemming tussen grotere aantallen
onafhankelijke beoordelaars.
o Uitdrukken in W voor de overeenstemming tussen grotere
aantallen beoordelaars die dezelfde stimuli hebben geordend
naar dezelfde eigenschap.
2
, o Uitdrukken in product-momentcorrelatie als de
beoordelaars een rangorde vormen en de afstanden tussen de
plaatsen hierin betekenis hebben.
D= dyslectisch. C=concentratiestoornis. N=normaal.
FA = frequentieverdeling van beoordelaar A (subjectief).
FB = frequentieverdeling van beoordelaar B (subjectief).
Fa en Fb zijn het over 25/40 kinderen met elkaar eens over hun
kenmerken. 25:40x100= 62,5% of Po = 0,625 proportie.
Po = kans van overeenstemming.
Statistische onafhankelijkheid = als beoordelaars altijd volgens
dezelfde verhoudingen subjectief indelen, kan worden uitgerekend hoe
groot hun overeenstemming zou zijn als er geen samenhang zou zijn
terwijl ze wel hun persoonlijke frequentieverdelingen aanhouden.
Bij onafhankelijkheid van de oordelen maar gebruikmakend van
persoonlijke frequentieverdelingen, is het aantal kinderen waarover men
het eens is dat zij dyslectisch zijn, 12x12/40 = 4.8, het aantal met een
concentratiestoornis is 16x12=4.8 en het aantal dat normaal is 12x16=4.8
3.6+4.8+ 4.8
dus: x100=33%.
40
In totaal zijn ze het dus in 33% van de gevallen met elkaar eens, wat komt
doordat de wijze waarop zij apart oordelen maakt dat zij in een aantal
gevallen sowieso tot hetzelfde oordeel moeten komen. Deze kans (Pt
waarbij t=toeval) is 0,33.
De mate van overeenstemming tussen A en B vinden we door Po en Pt te
vergelijken. 0.625-0.33=0.295.
Dit kan worden verbeterd door het verschil af te zetten tegen het
maximale verschil dat gevonden kan worden in de frequentieverdelingen:
1-0.33=0.67. Het quotient (Kappa) is dan 0.295:0.67=0.44 (middelmatige
overeenstemming).
Po−Pt
Kappa =
1−Pt
Dit neemt waarden aan die liggen tussen een negatieve ondergrens
(negatief als de waargenomen overeenstemming nog slechter is dan je
volgens statische onafhankelijk zou verwachten) en het maximum 1.
3
, Het voorbeeld laat zien dat objectiviteit in tests niet vanzelfsprekend is.
Meerkeuzetests zijn objectief, maar essays, observaties en projectieve
tests zijn vaak subjectief. Objectiviteit kan verbeterd worden door:
- Focus op observeerbaar gedrag en gestandaardiseerde procedures.
- Houden aan registratie in plaats van evaluatie
- Codering van controleerbare aspecten
- Exact voorgeschreven verwerkings- en interpretatie procedure
Volgens De Groot is objectiviteit een wetenschappelijke grondhouding: vrij
van invloeden buiten het onderzochte object.
Meten van eigenschappen door middel van tests
Stevens: er is sprake van meten, zodra getallen volgens consistente
procedure aan objecten worden toegekend. Meetniveaus (Stevens):
- Nominale schaal: categoriseren. Kappa kan. Getallen hierbij dienen
alleen om categorieën te onderscheiden (1=man).
- Ordinale schaal: Rangorde van meer/minder.
- Intervalschaal: orde waarbij de afstanden gelijk zijn en betekenis
hebben. Het heeft geen absoluut (zoals €0 = geen geld) maar
arbitrair nulpunt (willekeurig door mensen bepaald). Bijv.
temperatuur. Een kenmerk van de intervalschaal is dat
verhoudingen tussen verschillen constant blijven, ook als je een
lineaire transformatie toepast (T = a + bC > waarbij C=graden
celsius). Bij testscores wordt vaak aangenomen dat ze
intervalniveau hebben, hoewel dit zelden empirisch bewezen is. Die
aanname is praktisch, omdat het wiskundige bewerkingen zoals
gemiddelden en correlaties mogelijk maakt. Interpretaties blijven
echter vaak tussen ordinaal en intervalniveau hangen. Eenmaal
gekozen schaal (bijv. IQ met gemiddelde 100, SD 15) moet
consequent worden gebruikt om verwarring te voorkomen.
- Verhoudingsschaal: Ratio. Alle eigenschappen van intervalschaal
+ absoluut nulpunt. Daardoor zijn alle rekenkundige bewerkingen
toegestaan. Bijv. lengte, gewicht, volume.
Opvattingen over meten
Heel veel psychologische eigenschappen zijn niet direct observeerbaar en
in experimenten zijn gedragingen niet goed manipuleerbaar. Het gevolg is
dat hooguit zwakke of matig positieve/negatieve verbanden worden
gevonden.
Operationalisme = meting als uitkomst van een consistente procedure
(opvatting van Stevens) waardoor de procedure zelf bepaalt dat er sprake
is van een meting. Stevens gaat eraan voorbij dat in een meetprocedure
een theorie over relaties tussen eigenschappen als basis moet hebben.
Door dit operationalisme was er van theorievorming en kennisvorming
nauwelijks nog sprake.
Onjuist: want meetbaar maken van psychologische eigenschappen
en het onderzoek naar de betekenis van testscores leveren juist een
wetenschappelijke bijdrage.
Bijv. onderzoek van Bouwmeester: ontwikkeling van transitief
redeneren: stok A is langer dan stok B en die is langer dan stok C. Dit
4
H2: definitie, kenmerken en toepassingen van de test
Onderdelen van een test:
- Testmateriaal (opgaven, bouwstenen, legpuzzels, foto’s)
- Testformulieren (antwoorden, reacties of gedragsgegevens waaruit
interpretaties of conclusies worden afgeleid)
- Testhandleiding. Een goede bevat:
o exacte testinstructie: procedure, condities, aanwijzingen,
uitleg, volgorde van opgaven, toegestane responstijden,
waarschuwingen en antwoordmogelijkheden.
o verwerkingsprocedures: richtlijnen voor toekenning van
numerieke scores aan de antwoorden. Hier voor dienen de
sleutels voor de opgaven bekend te zijn (wat is
goed/fout/indicatief/contra-indicatief)
o normtabellen: uitgedrukt in numerieke testscore, vergeleken
met prestaties van andere normgroepen.
o bespreking van wetenschappelijke kwaliteiten van de test:
betrouwbaarheid, herhaalbaarheid, testbetekenis (welke
eigenschap meet het) en voor welke voorspellingen de test
gebruikt kan worden.
De bedoeling van een testonderzoek is het doen van een uitspraak die een
voorspelling, classificatie of beschrijving met betrekking tot het
onderzochte individu behelst. Dit heeft alleen zin als de uitspraak wordt
vergeleken met anderen. De aard en grootte van de vergelijkingsgroep is
bepalend voor de gevolgen van de uitspraak.
Een psychologische test is systematisch onderzoek van gedrag met
behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling
inzicht te krijgen in een psychologisch kenmerk van de onderzochte in
vergelijking met anderen.
Bij de beschikbaarheid van voldoende juiste informatie is het niet altijd
nodig een test te gebruiken voor oordeelsvorming. Indien de test een
beter beeld oplevert, aanvullend is en de kosten of ethische bezwaren niet
onoverkomelijk zijn, is een test gerechtvaardigd.
6 kenmerken van voordelen van een test t.o.v. een oordeel:
- Efficiëntie. Door het gebruik van een IQ test ben je niet afhankelijk
van het meten of intelligentie zich voordoet in dagelijkse situaties.
- Standaardisatie. De prestatie moet vergelijkbaar zijn met die van
anderen. Condities en invloeden standaardiseren betekent gelijkheid
in: procedure van afneming, testmateriaal, instructie en
oefenvoorbeelden, tijdlimieten en verwerkingsregels. Handleiding
met deze punten = belangrijk!
1
, - Normering. De afstand tussen A en B moet exact geschat worden
om zo kleine verschillen vast te stellen. Genormeerde
psychologietesten hebben:
o plaatsbepaling in rangorde (zeer goed – slecht), gebonden aan
een groep proefpersonen.
o discrete verdeling omzetten in normaalverdeling. De schaal
verandert maar de rangorde blijft het zelfde. Hiermee worden
steekproeffouten gladgestreken en het is een handige schaal
met gemiddelde en spreiding. Meestal zijn normen
noodzakelijk bij een test, behalve wanneer een relatie wordt
nagegaan en een andere variabele, of in situaties waarin
binnen en groep beslissingen moeten worden genomen
a.d.h.v. een rangorde (bijv. selectie van 10 beste kandidaten).
- Betrouwbaarheid: als tussen 2 metingen weinig verschillen zijn.
Door de rangordes met elkaar te vergelijken en uit te drukken in bijv.
rangcorrelatie, beschikken we over een kwantitatieve maat voor
betrouwbaarheid. Er is altijd kans op toeval die niet door
standaardisatie kan worden vermeden. Bij psychologische metingen
zullen fluctuaties groter en complexer zijn dan bijv. 2x
lichaamslengte meten. Hoge betrouwbaarheid is belangrijk, zodat
het niet uitmaakt, wanneer iemand getest wordt.
- Validiteit: of de indicaties juist zijn om hetgeen te meten. Zijn er
alternatieve hypothesen te bedenken? Bij een goede test is de
psychologische betekenis bekend, weet men naar welke eigenschap
van de persoon de test verwijst en zijn alternatieve verklaringen
voldoende weerlegd. Er mag geen sterk verschil zijn in mening over
de interpretatie/betekenis van de testprestatie. De betekenis moet
empirisch geverifieerd zijn. Maar het biedt geen vrijbrief, het blijft
een suggestie voor mogelijke samenhang.
- Objectiviteit: onafhankelijk van storende invloeden van de
waarnemer/beoordelaar. Gevolgen:
o Het maakt de onderzochte niet uit wie beoordelaar is
o Openheid en reproduceerbaarheid van de test en
evaluatieprocedure
Intersubjectiviteitprincipe = mate van overeenstemming van
resultaten tussen meerdere beoordelaars, uit te drukken in
interbeoordelaarsbetrouwbaarheid, geeft de mate van objectiviteit
aan.
o Uitdrukken in rangcorrelatie als 2 onafhankelijke
beoordeelaars beide een rangorde produceren > Spearmans
rangcorrelatie of Kendall tau.
o Uitdrukken in Kendalls coefficient/condordance bij het
kwantificeren van overeenstemming tussen grotere aantallen
onafhankelijke beoordelaars.
o Uitdrukken in W voor de overeenstemming tussen grotere
aantallen beoordelaars die dezelfde stimuli hebben geordend
naar dezelfde eigenschap.
2
, o Uitdrukken in product-momentcorrelatie als de
beoordelaars een rangorde vormen en de afstanden tussen de
plaatsen hierin betekenis hebben.
D= dyslectisch. C=concentratiestoornis. N=normaal.
FA = frequentieverdeling van beoordelaar A (subjectief).
FB = frequentieverdeling van beoordelaar B (subjectief).
Fa en Fb zijn het over 25/40 kinderen met elkaar eens over hun
kenmerken. 25:40x100= 62,5% of Po = 0,625 proportie.
Po = kans van overeenstemming.
Statistische onafhankelijkheid = als beoordelaars altijd volgens
dezelfde verhoudingen subjectief indelen, kan worden uitgerekend hoe
groot hun overeenstemming zou zijn als er geen samenhang zou zijn
terwijl ze wel hun persoonlijke frequentieverdelingen aanhouden.
Bij onafhankelijkheid van de oordelen maar gebruikmakend van
persoonlijke frequentieverdelingen, is het aantal kinderen waarover men
het eens is dat zij dyslectisch zijn, 12x12/40 = 4.8, het aantal met een
concentratiestoornis is 16x12=4.8 en het aantal dat normaal is 12x16=4.8
3.6+4.8+ 4.8
dus: x100=33%.
40
In totaal zijn ze het dus in 33% van de gevallen met elkaar eens, wat komt
doordat de wijze waarop zij apart oordelen maakt dat zij in een aantal
gevallen sowieso tot hetzelfde oordeel moeten komen. Deze kans (Pt
waarbij t=toeval) is 0,33.
De mate van overeenstemming tussen A en B vinden we door Po en Pt te
vergelijken. 0.625-0.33=0.295.
Dit kan worden verbeterd door het verschil af te zetten tegen het
maximale verschil dat gevonden kan worden in de frequentieverdelingen:
1-0.33=0.67. Het quotient (Kappa) is dan 0.295:0.67=0.44 (middelmatige
overeenstemming).
Po−Pt
Kappa =
1−Pt
Dit neemt waarden aan die liggen tussen een negatieve ondergrens
(negatief als de waargenomen overeenstemming nog slechter is dan je
volgens statische onafhankelijk zou verwachten) en het maximum 1.
3
, Het voorbeeld laat zien dat objectiviteit in tests niet vanzelfsprekend is.
Meerkeuzetests zijn objectief, maar essays, observaties en projectieve
tests zijn vaak subjectief. Objectiviteit kan verbeterd worden door:
- Focus op observeerbaar gedrag en gestandaardiseerde procedures.
- Houden aan registratie in plaats van evaluatie
- Codering van controleerbare aspecten
- Exact voorgeschreven verwerkings- en interpretatie procedure
Volgens De Groot is objectiviteit een wetenschappelijke grondhouding: vrij
van invloeden buiten het onderzochte object.
Meten van eigenschappen door middel van tests
Stevens: er is sprake van meten, zodra getallen volgens consistente
procedure aan objecten worden toegekend. Meetniveaus (Stevens):
- Nominale schaal: categoriseren. Kappa kan. Getallen hierbij dienen
alleen om categorieën te onderscheiden (1=man).
- Ordinale schaal: Rangorde van meer/minder.
- Intervalschaal: orde waarbij de afstanden gelijk zijn en betekenis
hebben. Het heeft geen absoluut (zoals €0 = geen geld) maar
arbitrair nulpunt (willekeurig door mensen bepaald). Bijv.
temperatuur. Een kenmerk van de intervalschaal is dat
verhoudingen tussen verschillen constant blijven, ook als je een
lineaire transformatie toepast (T = a + bC > waarbij C=graden
celsius). Bij testscores wordt vaak aangenomen dat ze
intervalniveau hebben, hoewel dit zelden empirisch bewezen is. Die
aanname is praktisch, omdat het wiskundige bewerkingen zoals
gemiddelden en correlaties mogelijk maakt. Interpretaties blijven
echter vaak tussen ordinaal en intervalniveau hangen. Eenmaal
gekozen schaal (bijv. IQ met gemiddelde 100, SD 15) moet
consequent worden gebruikt om verwarring te voorkomen.
- Verhoudingsschaal: Ratio. Alle eigenschappen van intervalschaal
+ absoluut nulpunt. Daardoor zijn alle rekenkundige bewerkingen
toegestaan. Bijv. lengte, gewicht, volume.
Opvattingen over meten
Heel veel psychologische eigenschappen zijn niet direct observeerbaar en
in experimenten zijn gedragingen niet goed manipuleerbaar. Het gevolg is
dat hooguit zwakke of matig positieve/negatieve verbanden worden
gevonden.
Operationalisme = meting als uitkomst van een consistente procedure
(opvatting van Stevens) waardoor de procedure zelf bepaalt dat er sprake
is van een meting. Stevens gaat eraan voorbij dat in een meetprocedure
een theorie over relaties tussen eigenschappen als basis moet hebben.
Door dit operationalisme was er van theorievorming en kennisvorming
nauwelijks nog sprake.
Onjuist: want meetbaar maken van psychologische eigenschappen
en het onderzoek naar de betekenis van testscores leveren juist een
wetenschappelijke bijdrage.
Bijv. onderzoek van Bouwmeester: ontwikkeling van transitief
redeneren: stok A is langer dan stok B en die is langer dan stok C. Dit
4