Psychodiagnostiek
Betrouwbaarheid
1. Betrouwbaarheid
Vooraf:
De nauwkeurigheid van een test.
De mate van herhaalbaarheid van de metingen.
Cf Schietschijfmetafoor:
→ De betrouwbaarheid wordt weergegeven door consistentie of groepering van herhaalde
schoten
→ De validiteit wordt weergegeven door het aantal ’rake’ schoten.
1.1. Theoretische uitgangspunten
Er bestaan verschillende theorieën over het construeren en interpreteren van testen en testscores:
Klassieke Testtheorie (KTT):
→ Meest eenvoudig te begrijpen.
→ Slechts een ruwe schatting, gebaseerd op enkele ‘aannames’.
Recentere ontwikkelingen in de testtheorie (en testconstructie): de item-responstheorieën (IRT) (cf
verder, hfst 8).
→ Correcter.
→ Veel complexer.
Uitgangspunten van de KTT:
- Herhaalbaarheid van de metingen.
- Meetfouten bij een testscore.
- Berekeningen van de standaardmeetfout.
1
, 1.1.1. Herhaalbaarheid van de meting
IDEALITER* zou een test steeds dezelfde resultaten moeten opleveren (herhaalbaarheid), wanneer:
→ Eén persoon vele malen dezelfde test onder gelijke condities zou afleggen.
→ De testprestaties onafhankelijk zouden zijn van elkaar.
→ Stel dus dat de persoon niets van de vorige tests zou leren.
→ De testsituatie onveranderd zou blijven.
→ Relevante eigenschappen steeds van invloed zouden zijn op de testprestatie.
* = IN HET ECHT KAN DIT NATUURLIJK NIET:
Bij herhaald testen van hetzelfde kenmerk – terwijl het kenmerk ongewijzigd blijft – is de kans immers
groot dat je niet dezelfde score bekomt.
Doel: schatten hoe hoog de betrouwbaarheidsgraad van de test is.
Testconstructeurs moeten dat vermelden in de testhandleiding van de test.
1.1.2. Meetfouten bij een testscore
Uitgangspunt van KTT: elke meting die gedaan wordt, gaat gepaard met fouten
Systematische fouten zijn niet zo’n probleem.
→ Cf weegschaal die altijd 10 kg bijtelt 10 kg aftrekken; persoon die altijd evenveel overdrijft
altijd dezelfde korrel zout bij nemen…
→ Kalibreren = vergelijken met instrument dat wél de juiste meting geeft.
Vooral de toevallige zijn problematisch!
Systematische meetfouten:
= fouten die aan de test zelf vast zitten en dus bij iedere meting eenzelfde vertekening veroorzaken [>
cf ook validiteitskwestie!]
Bedoeling van een test is om iemands positie binnen de groep te bepalen, en daar hebben de
systematische meetfouten geen effect op.
2
, Toevallige meetfouten:
→ Omgeving: bvb. lawaaihinder, kunnen spieken…
→ Test zelf: bvb. items dubbelzinnig zijn, te weinig items,…
→ Procedure: bvb. afwijkingen van de standaardisatie (vb instructies), gebrek aan objectiviteit
bij verwerking van de resultaten…
→ Kandidaat: bvb. stemming, concentratie,…
‘Onsystematische’ of ‘toevallige’ meetfouten: fouten die er niet altijd (= niet systematisch) zijn, en die
er tussen kunnen fietsen, kunnen fluctueren.
Te weinig items: vb enkel die vragen krijgen waar je toevallig wel (of net niet) iets van weet.
Probleem: hoe weten we wat E (fout) is?
→ In de KTT wordt de E geschat.
Hoe?
Stel: we nemen bij iemand een oneindig aantal keer dezelfde test af.
→ Het gemiddelde van alle X’en = T (altijd beetje erboven en eronder).
→ Het gemiddelde van alle E’s = 0 (middelen elkaar uit).
→ De SD van de foutencomponent (= van alles E’s) = de standaardmeetfout: S(E) (= SD(E)).
Net zoals je op basis van een steekproef van bvb 1000 proefpersonen het gemiddelde en de
standaardafwijking voor een populatie berekent, kan je hier op basis van 1000 testen bij dezelfde
persoon, het gemiddelde en de standaadafwijking voor die persoon berekenen.
Dezelfde formule wordt toegepast.
Merk op:
3
Betrouwbaarheid
1. Betrouwbaarheid
Vooraf:
De nauwkeurigheid van een test.
De mate van herhaalbaarheid van de metingen.
Cf Schietschijfmetafoor:
→ De betrouwbaarheid wordt weergegeven door consistentie of groepering van herhaalde
schoten
→ De validiteit wordt weergegeven door het aantal ’rake’ schoten.
1.1. Theoretische uitgangspunten
Er bestaan verschillende theorieën over het construeren en interpreteren van testen en testscores:
Klassieke Testtheorie (KTT):
→ Meest eenvoudig te begrijpen.
→ Slechts een ruwe schatting, gebaseerd op enkele ‘aannames’.
Recentere ontwikkelingen in de testtheorie (en testconstructie): de item-responstheorieën (IRT) (cf
verder, hfst 8).
→ Correcter.
→ Veel complexer.
Uitgangspunten van de KTT:
- Herhaalbaarheid van de metingen.
- Meetfouten bij een testscore.
- Berekeningen van de standaardmeetfout.
1
, 1.1.1. Herhaalbaarheid van de meting
IDEALITER* zou een test steeds dezelfde resultaten moeten opleveren (herhaalbaarheid), wanneer:
→ Eén persoon vele malen dezelfde test onder gelijke condities zou afleggen.
→ De testprestaties onafhankelijk zouden zijn van elkaar.
→ Stel dus dat de persoon niets van de vorige tests zou leren.
→ De testsituatie onveranderd zou blijven.
→ Relevante eigenschappen steeds van invloed zouden zijn op de testprestatie.
* = IN HET ECHT KAN DIT NATUURLIJK NIET:
Bij herhaald testen van hetzelfde kenmerk – terwijl het kenmerk ongewijzigd blijft – is de kans immers
groot dat je niet dezelfde score bekomt.
Doel: schatten hoe hoog de betrouwbaarheidsgraad van de test is.
Testconstructeurs moeten dat vermelden in de testhandleiding van de test.
1.1.2. Meetfouten bij een testscore
Uitgangspunt van KTT: elke meting die gedaan wordt, gaat gepaard met fouten
Systematische fouten zijn niet zo’n probleem.
→ Cf weegschaal die altijd 10 kg bijtelt 10 kg aftrekken; persoon die altijd evenveel overdrijft
altijd dezelfde korrel zout bij nemen…
→ Kalibreren = vergelijken met instrument dat wél de juiste meting geeft.
Vooral de toevallige zijn problematisch!
Systematische meetfouten:
= fouten die aan de test zelf vast zitten en dus bij iedere meting eenzelfde vertekening veroorzaken [>
cf ook validiteitskwestie!]
Bedoeling van een test is om iemands positie binnen de groep te bepalen, en daar hebben de
systematische meetfouten geen effect op.
2
, Toevallige meetfouten:
→ Omgeving: bvb. lawaaihinder, kunnen spieken…
→ Test zelf: bvb. items dubbelzinnig zijn, te weinig items,…
→ Procedure: bvb. afwijkingen van de standaardisatie (vb instructies), gebrek aan objectiviteit
bij verwerking van de resultaten…
→ Kandidaat: bvb. stemming, concentratie,…
‘Onsystematische’ of ‘toevallige’ meetfouten: fouten die er niet altijd (= niet systematisch) zijn, en die
er tussen kunnen fietsen, kunnen fluctueren.
Te weinig items: vb enkel die vragen krijgen waar je toevallig wel (of net niet) iets van weet.
Probleem: hoe weten we wat E (fout) is?
→ In de KTT wordt de E geschat.
Hoe?
Stel: we nemen bij iemand een oneindig aantal keer dezelfde test af.
→ Het gemiddelde van alle X’en = T (altijd beetje erboven en eronder).
→ Het gemiddelde van alle E’s = 0 (middelen elkaar uit).
→ De SD van de foutencomponent (= van alles E’s) = de standaardmeetfout: S(E) (= SD(E)).
Net zoals je op basis van een steekproef van bvb 1000 proefpersonen het gemiddelde en de
standaardafwijking voor een populatie berekent, kan je hier op basis van 1000 testen bij dezelfde
persoon, het gemiddelde en de standaadafwijking voor die persoon berekenen.
Dezelfde formule wordt toegepast.
Merk op:
3