Aantekeningen colleges Testtheorie
Opfriscolleges
1 Meten en meetniveaus
Meten: op consistente wijze getallen toekennen aan objecten/personen
- Vragenlijsten
- Interviews
- Observaties
Vier meetniveaus
1. Nominaal (waarde van het getal bevat weinig informatie)
- Classificatie/lidmaatschap: we zijn bezig van classificeren van eigenschappen van mensen
- Waarde van getallen zijn arbitrair: getal kan als naam worden opgevat
- Onderzoeker bepaalt categorieën
Geslacht
Haarkleur: onderzoeker wil bijvoorbeeld groep onderverdelen in licht en donker haar, en
bepaalt dat 0= licht haar en 1= donker haar
2. Ordinaal
- Sortering/rangordening
- Afstand tussen getallen arbitrair (er is sprake van een schaal, de afstand tussen de waardes van
de getallen heeft geen betekenis). De afstand tussen 1 en 2is niet gelijk als de afstand tussen 4 en
5
- Bijvoorbeeld
Interessant college
3. Interval (er is geen absoluut nulpunt)
- Als de categorieën even groot zijn
- Verschillen zijn betekenisvol
- Bijvoorbeeld, temperatuur
Graden Celsius: het verschil tussen de graden 2 en 3 is even groot als het verschil tussen 14
en 15 graden
Is 20 graden twee keer zo warm als 10 graden?
4. Ratio (absoluut nulpunt is aanwezig)
- Ratio (verhouding) betekenisvol
- Bijvoorbeeld, lengte
Meter
Is 2 meter twee keer zo lang als 1 meter?
,Hiërarchie meetniveaus
2 beschrijven van verdelingen
Steekproef <> populatie
- Beschrijven van verdelingen: normale verdeling bv.
- Beschrijvingen van samenhang
Doel statistiek: uitspraken over de populatie kunnen doen, niet de steekproef
- Uitzonderingen:
De steekproef = de populatie. Wanneer de steekproef zo groot is dat het de hele populatie
bevat (verkiezingsuitslagen)
Testscore (uitspraken over individu)
Verdelingen
- Wat kan je met statistiek doen, om dingen te zeggen over grote groepen mensen
Sorteren (frequentietabellen)
Verdeling (normale verdeling)
Centrummaten
o Beschrijf midden van de verdeling
o Gemiddelde, mediaan, modus (meest voorkomend)
Spreidingsmaten
o Beschrijf de spreiding rondom het centrum
o Variantie, standaarddeviatie
Standaardisatie (om vergelijkingen tussen verschillende studies of variabelen met verschillende
maten makkelijker te maken, gebruiken we vaak lineaire transformatie die standaardisatie meet)
- Z-score: hoeveel standaarddeviaties wijkt iemand af van het steekproefgemiddelde
Z=0 score is gelijk aan het gemiddelde
Z=-1 score ligt 1 SD onder gemiddeld
Standaardnormaalverdeling
= Een normale verdeling van de gestandaardiseerde scores
3 beschrijving van samenhang
Samenhang bij testen
- Samenhang van de testscore met eigenschappen van de participant (vb.: halen oudere mensen
lagere scores dan jonge mensen en is dit in lijn met onze verwachting)
- Samenhang van testitems onderling (correlatie, covariantie)
,Covariantie (de mate waarin twee variabelen met elkaar samenhangen)
- Maat van gedeelde variantie
- In hoeverre gaat een relatief hoge score op variabele X samen met een relatief hoge score op
variabele Y
Correlatie (r)
- Interpretatie grootte covariantie niet makkelijk
- Gestandaardiseerde covariantie; correlatie
- Altijd een waarde tussen -1 en 1
-1= perfect negatief lineair verband
0= geen lineair verband
1= perfect positief lineair verband
- Cohen: .10 zwakke correlatie, .30 matige correlatie, .50 sterke correlatie
4 lineaire regressie
Lineair verband
- Relatie tussen twee variabelen
- Y als lineaire transformatie van X
- Y= ax + b
- Hoe ingewikkelder het model, hoe beter de beschrijving is
- Hoe simpeler het model, hoe beter de voorspelling
We zoeken een model dat zo simpel mogelijk is, maar wel zo goed mogelijk onze data beschrijft
,
,College 1- 14 april 2025
Waarom het vak Testtheorie
- Begin bij het begin: wat zijn testen eigenlijk?
- Meetinstrumenten: het zijn meetinstrumenten voor het meten van eigenschappen of
vaardigheden van mensen zoals bv faalangst, of situaties zoals klimaat van klassen.
- Hier zijn allerlei soorten benamingen voor: zoals test, proeven, vragenlijsten,
observatieformulieren etc.
- Deze testen kunnen allemaal verschillende vormen of afnames hebben. Hier zit een
wetenschappelijke benadering achter.
Nut van testen
- Dit doen we om onderscheid tussen mensen of groepen te maken, mensen met elkaar te
vergelijken, of mensen te beschrijven (wat vooral het geval is bij sociale wetenschappen).
- Het heeft ook een maatschappelijk nut: proberen stoornissen te diagnosticeren (bijv. Freek
uit groep 3 kan niet goed lezen, wat is er aan de hand?). Hier zijn wel veel discussies over,
proberen we niet alles te testen of in hokjes te plaatsen?
- Ook wordt het gebruikt voor schoolvorderingen, voorspellen, plaatsing, toelating en selectie.
Testen worden dus op verschillende niveaus en in verschillende settingen gebruikt.
Onderzoek
Bij onderzoek gebruiken we testen voor:
- Vergelijking tussen groepen
Is er een verschil tussen jongens en meisjes wat betreft faalangst? Dan ben je opzoek naar
een meetinstrument voor faalangst.
- Relatie tussen variabelen
Is er een verband tussen de mate waarin leerkrachten zich persoonlijk verantwoordelijk
voelen voor hun onderwijs en de mate waarin ze in hun klas de focus leggen op leren of op
presteren?
- We gaan ervan uit dat de meting ook daadwerkelijk wat zegt over de persoon en dat deze
meting betrouwbaar is, maar is dat ook echt zo?
Testtheorie
- Wetenschappelijke benadering van het ontwerpen en evalueren van een test
- In hoeverre zegt de test iets over een individueel persoon
- Inhoevere zou je dezelfde uitslag krijgen onder andere of dezelfde omstandigheden?
- Meet je wat je wilt meten?
- Dragen alle vragen in de test daadwerkelijk bij aan de betrouwbaarheid en kwaliteit van de
testuitslag?
Dus waarom het vak testtheorie? Om dus juist antwoord te kunnen geven op dit soort vragen!
Fases van testconstructie
Het ontwikkelen van een test noemen we testconstructie, en dat vindt plaats in verschillende fases.
1. Wat willen we meten en waarom? Vaak wil je een onderliggend construct meten: een
compliceerde variabele, denk aan bv motivatie, intelligentie etc.
2. Hoe kunnen we dit operationaliseren in vragen, opgaven en uitspraken. Of wel hoe kun je
het meetbaar maken?
3. Wat is de relatie tussen de delen (of wel de items) en de gehele test?
4. Wat is uiteindelijk de kwaliteit van de test, zoals het doel, construct, betrouwbare meting
etc.
, Hoofdstuk 1 Historische ontwikkeling van testen
Oorsprong (oude voorbeelden van ‘testen’)
› Oude China (2000 – 1000 v Chr)
- Vorderingstoetsen voor dienaren
- Testscores voor bijvoorbeeld boogschieten of sociale etiquette. Er waren duidelijk dingen
opgeschreven waar iemand aan moest voldoen.
› Oude Testament:
- ‘Persoonlijkheidstest’: angstigen uit leger laten vertrekken
- ‘Gedragstest’: hoe drinkt iemand water uit de beek
Oorspronkelijk werd kwaliteit van een test meer op intuïtie of common sens beoordeeld. In de
twintigste eeuw meer systematisch en met empirische fundering voor de test.
Periode tot Binet-Simon-test (eind 1800)(18e eeuw, 2e helft)
Je kan dit opdelen in drie stimulansen, of wel ontwikkelingen
1. Psychiatrie; (Esquirol, Séguin)
Hierbij was behoefte om onderscheid te kunnen maken tussen geestelijke afwijkingen, bv
verschil tussen krankzinnig en zwakzinnig.
2. Experimentele setting; (Wundt)
gestandaardiseerde experimenten naar sensorische en motorische functies maar verschillen
tussen mensen juist storend vervelend. Want alle omstandigheden zijn het zelfde, waarom
verschillen mensen dan.
3. Genetica; (Cattell, Galton en Pearson, erfelijkheid psychische eigenschappen)
Gekeken naar erfelijkheid en psychische eigenschappen en verschillen waren juist wenselijk,
tevens wel het erkennen van systematisering. Systematisering van technieken, afwijking van
het gemiddelde (geïnteresseerd in individuele verschillen moet je kijken naar gemiddeldes
binnen een groep)
Aanloop tot ontwikkeling testtheorie, weinig complexe vaardigheden. Al deze ontwikkelingen
hebben dus bijgedragen aan testtheorie hoe die nu is.
Testen kwamen langzaam een beetje op. In eerste instantie werd er in de psychiatrie snel gescheiden
van de maatschappij, in een gesticht gestopt. Op een gegeven moment kwam daar maatschappelijke
weerstand tegen. Zijn dit wel mensen die krankzinnig zijn, of zijn ze zwakzinnig? Er werd
langzaamaan meer gesproken dat deze mensen toch wel in de maatschappij kunnen. Er was hierdoor
aandacht voor testen bij mensen, kunnen we ze misschien ook iets leren? Dit moet je dus toetsen.
Dit is de eerste groep mensen die werd getoetst.
Later kwam de experimentele psychologie op. Dat is inmiddels de grootste wetenschap. Er werd voor
het eerst systematisch mensen getoetst. Hier merkten ze dat niet iedereen hetzelfde scoorde op
deze testen, wat ze op dat moment storend vonden. Het ging minder om individuele verschillen,
maar meer om ‘hoe goed’ mensen waren.
Later kwam er onder invloed van genetica wel degelijk interesse in individuele verschillen. Het was
oppervlakkig wat er gebeurde, maar er werd wel meer geloofd in individuele verschillen. Er werden
wel weinig complexe begrippen onderzocht, het is enkel een begin/aanloop.
Binet-Simon-test – WO 1
Binet simon test (1904)
- Doel: onderscheid tussen luie en incapabele kinderen, of wel kinderen binnen scholen die
niet mee kwamen, en de vraag was of ze lui waren of dat ze het niet kunnen.
- Complexe opgaven opgesteld, eerste intelligentietest
- Via empirisch onderzoek -> moeilijkheidsgraad (vanaf wanneer zou een gemiddeld kind van
een bepaalde leeftijd dit moeten kunnen?)
- Werken met een totaalscore voor intelligentie
Opfriscolleges
1 Meten en meetniveaus
Meten: op consistente wijze getallen toekennen aan objecten/personen
- Vragenlijsten
- Interviews
- Observaties
Vier meetniveaus
1. Nominaal (waarde van het getal bevat weinig informatie)
- Classificatie/lidmaatschap: we zijn bezig van classificeren van eigenschappen van mensen
- Waarde van getallen zijn arbitrair: getal kan als naam worden opgevat
- Onderzoeker bepaalt categorieën
Geslacht
Haarkleur: onderzoeker wil bijvoorbeeld groep onderverdelen in licht en donker haar, en
bepaalt dat 0= licht haar en 1= donker haar
2. Ordinaal
- Sortering/rangordening
- Afstand tussen getallen arbitrair (er is sprake van een schaal, de afstand tussen de waardes van
de getallen heeft geen betekenis). De afstand tussen 1 en 2is niet gelijk als de afstand tussen 4 en
5
- Bijvoorbeeld
Interessant college
3. Interval (er is geen absoluut nulpunt)
- Als de categorieën even groot zijn
- Verschillen zijn betekenisvol
- Bijvoorbeeld, temperatuur
Graden Celsius: het verschil tussen de graden 2 en 3 is even groot als het verschil tussen 14
en 15 graden
Is 20 graden twee keer zo warm als 10 graden?
4. Ratio (absoluut nulpunt is aanwezig)
- Ratio (verhouding) betekenisvol
- Bijvoorbeeld, lengte
Meter
Is 2 meter twee keer zo lang als 1 meter?
,Hiërarchie meetniveaus
2 beschrijven van verdelingen
Steekproef <> populatie
- Beschrijven van verdelingen: normale verdeling bv.
- Beschrijvingen van samenhang
Doel statistiek: uitspraken over de populatie kunnen doen, niet de steekproef
- Uitzonderingen:
De steekproef = de populatie. Wanneer de steekproef zo groot is dat het de hele populatie
bevat (verkiezingsuitslagen)
Testscore (uitspraken over individu)
Verdelingen
- Wat kan je met statistiek doen, om dingen te zeggen over grote groepen mensen
Sorteren (frequentietabellen)
Verdeling (normale verdeling)
Centrummaten
o Beschrijf midden van de verdeling
o Gemiddelde, mediaan, modus (meest voorkomend)
Spreidingsmaten
o Beschrijf de spreiding rondom het centrum
o Variantie, standaarddeviatie
Standaardisatie (om vergelijkingen tussen verschillende studies of variabelen met verschillende
maten makkelijker te maken, gebruiken we vaak lineaire transformatie die standaardisatie meet)
- Z-score: hoeveel standaarddeviaties wijkt iemand af van het steekproefgemiddelde
Z=0 score is gelijk aan het gemiddelde
Z=-1 score ligt 1 SD onder gemiddeld
Standaardnormaalverdeling
= Een normale verdeling van de gestandaardiseerde scores
3 beschrijving van samenhang
Samenhang bij testen
- Samenhang van de testscore met eigenschappen van de participant (vb.: halen oudere mensen
lagere scores dan jonge mensen en is dit in lijn met onze verwachting)
- Samenhang van testitems onderling (correlatie, covariantie)
,Covariantie (de mate waarin twee variabelen met elkaar samenhangen)
- Maat van gedeelde variantie
- In hoeverre gaat een relatief hoge score op variabele X samen met een relatief hoge score op
variabele Y
Correlatie (r)
- Interpretatie grootte covariantie niet makkelijk
- Gestandaardiseerde covariantie; correlatie
- Altijd een waarde tussen -1 en 1
-1= perfect negatief lineair verband
0= geen lineair verband
1= perfect positief lineair verband
- Cohen: .10 zwakke correlatie, .30 matige correlatie, .50 sterke correlatie
4 lineaire regressie
Lineair verband
- Relatie tussen twee variabelen
- Y als lineaire transformatie van X
- Y= ax + b
- Hoe ingewikkelder het model, hoe beter de beschrijving is
- Hoe simpeler het model, hoe beter de voorspelling
We zoeken een model dat zo simpel mogelijk is, maar wel zo goed mogelijk onze data beschrijft
,
,College 1- 14 april 2025
Waarom het vak Testtheorie
- Begin bij het begin: wat zijn testen eigenlijk?
- Meetinstrumenten: het zijn meetinstrumenten voor het meten van eigenschappen of
vaardigheden van mensen zoals bv faalangst, of situaties zoals klimaat van klassen.
- Hier zijn allerlei soorten benamingen voor: zoals test, proeven, vragenlijsten,
observatieformulieren etc.
- Deze testen kunnen allemaal verschillende vormen of afnames hebben. Hier zit een
wetenschappelijke benadering achter.
Nut van testen
- Dit doen we om onderscheid tussen mensen of groepen te maken, mensen met elkaar te
vergelijken, of mensen te beschrijven (wat vooral het geval is bij sociale wetenschappen).
- Het heeft ook een maatschappelijk nut: proberen stoornissen te diagnosticeren (bijv. Freek
uit groep 3 kan niet goed lezen, wat is er aan de hand?). Hier zijn wel veel discussies over,
proberen we niet alles te testen of in hokjes te plaatsen?
- Ook wordt het gebruikt voor schoolvorderingen, voorspellen, plaatsing, toelating en selectie.
Testen worden dus op verschillende niveaus en in verschillende settingen gebruikt.
Onderzoek
Bij onderzoek gebruiken we testen voor:
- Vergelijking tussen groepen
Is er een verschil tussen jongens en meisjes wat betreft faalangst? Dan ben je opzoek naar
een meetinstrument voor faalangst.
- Relatie tussen variabelen
Is er een verband tussen de mate waarin leerkrachten zich persoonlijk verantwoordelijk
voelen voor hun onderwijs en de mate waarin ze in hun klas de focus leggen op leren of op
presteren?
- We gaan ervan uit dat de meting ook daadwerkelijk wat zegt over de persoon en dat deze
meting betrouwbaar is, maar is dat ook echt zo?
Testtheorie
- Wetenschappelijke benadering van het ontwerpen en evalueren van een test
- In hoeverre zegt de test iets over een individueel persoon
- Inhoevere zou je dezelfde uitslag krijgen onder andere of dezelfde omstandigheden?
- Meet je wat je wilt meten?
- Dragen alle vragen in de test daadwerkelijk bij aan de betrouwbaarheid en kwaliteit van de
testuitslag?
Dus waarom het vak testtheorie? Om dus juist antwoord te kunnen geven op dit soort vragen!
Fases van testconstructie
Het ontwikkelen van een test noemen we testconstructie, en dat vindt plaats in verschillende fases.
1. Wat willen we meten en waarom? Vaak wil je een onderliggend construct meten: een
compliceerde variabele, denk aan bv motivatie, intelligentie etc.
2. Hoe kunnen we dit operationaliseren in vragen, opgaven en uitspraken. Of wel hoe kun je
het meetbaar maken?
3. Wat is de relatie tussen de delen (of wel de items) en de gehele test?
4. Wat is uiteindelijk de kwaliteit van de test, zoals het doel, construct, betrouwbare meting
etc.
, Hoofdstuk 1 Historische ontwikkeling van testen
Oorsprong (oude voorbeelden van ‘testen’)
› Oude China (2000 – 1000 v Chr)
- Vorderingstoetsen voor dienaren
- Testscores voor bijvoorbeeld boogschieten of sociale etiquette. Er waren duidelijk dingen
opgeschreven waar iemand aan moest voldoen.
› Oude Testament:
- ‘Persoonlijkheidstest’: angstigen uit leger laten vertrekken
- ‘Gedragstest’: hoe drinkt iemand water uit de beek
Oorspronkelijk werd kwaliteit van een test meer op intuïtie of common sens beoordeeld. In de
twintigste eeuw meer systematisch en met empirische fundering voor de test.
Periode tot Binet-Simon-test (eind 1800)(18e eeuw, 2e helft)
Je kan dit opdelen in drie stimulansen, of wel ontwikkelingen
1. Psychiatrie; (Esquirol, Séguin)
Hierbij was behoefte om onderscheid te kunnen maken tussen geestelijke afwijkingen, bv
verschil tussen krankzinnig en zwakzinnig.
2. Experimentele setting; (Wundt)
gestandaardiseerde experimenten naar sensorische en motorische functies maar verschillen
tussen mensen juist storend vervelend. Want alle omstandigheden zijn het zelfde, waarom
verschillen mensen dan.
3. Genetica; (Cattell, Galton en Pearson, erfelijkheid psychische eigenschappen)
Gekeken naar erfelijkheid en psychische eigenschappen en verschillen waren juist wenselijk,
tevens wel het erkennen van systematisering. Systematisering van technieken, afwijking van
het gemiddelde (geïnteresseerd in individuele verschillen moet je kijken naar gemiddeldes
binnen een groep)
Aanloop tot ontwikkeling testtheorie, weinig complexe vaardigheden. Al deze ontwikkelingen
hebben dus bijgedragen aan testtheorie hoe die nu is.
Testen kwamen langzaam een beetje op. In eerste instantie werd er in de psychiatrie snel gescheiden
van de maatschappij, in een gesticht gestopt. Op een gegeven moment kwam daar maatschappelijke
weerstand tegen. Zijn dit wel mensen die krankzinnig zijn, of zijn ze zwakzinnig? Er werd
langzaamaan meer gesproken dat deze mensen toch wel in de maatschappij kunnen. Er was hierdoor
aandacht voor testen bij mensen, kunnen we ze misschien ook iets leren? Dit moet je dus toetsen.
Dit is de eerste groep mensen die werd getoetst.
Later kwam de experimentele psychologie op. Dat is inmiddels de grootste wetenschap. Er werd voor
het eerst systematisch mensen getoetst. Hier merkten ze dat niet iedereen hetzelfde scoorde op
deze testen, wat ze op dat moment storend vonden. Het ging minder om individuele verschillen,
maar meer om ‘hoe goed’ mensen waren.
Later kwam er onder invloed van genetica wel degelijk interesse in individuele verschillen. Het was
oppervlakkig wat er gebeurde, maar er werd wel meer geloofd in individuele verschillen. Er werden
wel weinig complexe begrippen onderzocht, het is enkel een begin/aanloop.
Binet-Simon-test – WO 1
Binet simon test (1904)
- Doel: onderscheid tussen luie en incapabele kinderen, of wel kinderen binnen scholen die
niet mee kwamen, en de vraag was of ze lui waren of dat ze het niet kunnen.
- Complexe opgaven opgesteld, eerste intelligentietest
- Via empirisch onderzoek -> moeilijkheidsgraad (vanaf wanneer zou een gemiddeld kind van
een bepaalde leeftijd dit moeten kunnen?)
- Werken met een totaalscore voor intelligentie