Verslag studiemiddag (dec.2007) Innovatieve Vraagvormen.

Afdrukken
PDF

Moderne toetssystemen en toetssytemen binnen LCMS-en, bezitten mogelijkheden om allerlei nieuwe vraagvormen aan studenten aan te bieden. Te denken valt aan multiple respons vragen, ordeningsvragen, sleepvragen, matchingvragen e.d. Vanuit een discussie die onlangs is gevoerd op de TOETS-HO lijst kwamen geluiden naar voren dat het onwenselijk zou zijn om deze vraagtypen te gebruiken. Anderen gaven juist aan dat deze vraagtypen veel kansen bieden.

Hoe kunnen deze vraagtypen zinvol in het onderwijs ingezet worden? Is het mogelijk om met deze vraagvormen anders of beter te meten dan met de ‘traditionele’ juist/onjuistvragen of multiple-choice vragen? Wat is in deze context eigenlijk ‘beter’. Gaat het om validiteit, betrouwbaarheid of bijvoorbeeld discriminerend vermogen? En hoe moeten de vragen dan gebruikt worden? Vanuit de optiek om toetsvragen te gebruiken om actief leren te bevorderen luidt de vraagstelling wellicht ook weer anders.

Om meer zicht te bieden op deze zaak en het vanuit verschillende perspectieven te benaderen, heeft het NVE, samen met leden van de Questionmark Perception Gebruikersgroep en de TestVision Gebruikers Vereniging (TGV) een studiemiddag georganiseerd.

Inleiding: Ineke Verheul (CLU)
Ineke Verheul, die de discussie op de TOETS-HO lijst indertijd aanzwengelde, hield een inleiding over het gebruik van deze vraagtypen. Hierbij gaf zij aan dat er wat haar betreft drie belangrijke discussiepunten waren voor deze middag:
- zijn er vraagtypen die je überhaupt beter niet kunt gebruiken?
- Is het verstandig om binnen een toets (veel) verschillende vraagvormen te gebruiken?
- In hoeverre wordt bij het gebruik van nieuwe toetsvormen nog wel aan de eis van helderheid voldaan?
Haar redenering bij deze punten was als volgt.

(On)deugdelijke vraagtypen?
Met name bij matchingsvragen en multiple response vragen speelt de vraag hoe betrouwbaar deze vraagtypen nu eigenlijk zijn.

Bij matchingsvragen is afhankelijkheid in de vraag ‘ingebakken’. Het kiezen van een onjuiste combinatie leidt automatisch tot een volgende fout. Een manier om dit probleem op te lossen is om meer opties aan te bieden dan er nodig zijn, maar het is de vraag of daarmee niet weer heel andere mechanismen in het leven worden geroepen. Meet een dergelijke vraag nog wel wat iemand weet, of meet zo’n vraag ook (en misschien zelfs vooral) de snelheid waarmee hij de juiste alternatieven uit een lange lijst weet te selecteren?

Multiple response vragen worden gebruikt als oplossing voor het probleem van ‘rijtjesvragen’. Met traditionele mc vragen is het niet goed mogelijk om rijtjes van meer dan drie opties te bevragen. De oplossing om daarvoor multiple response vragen te gebruiken levert echter weer een ander probleem op. Met name wanneer niet wordt aangegeven hoeveel antwoorden er gegeven moeten worden, bestaat de kans dat de vraag niet zuiver meet, omdat er ook persoonlijkheidskenmerken gemeten worden. Voor de ja/nee/? variant van de klassieke voortgangtoets  is deze ‘ruis’ al eerder aangetoond. Hoewel de vraagtekenoptie juist bedoeld is om gokken te voorkomen, blijkt gokken toch te lonen bij deze vorm van toetsen, en mensen verschillen in de mate waarin ze daartoe geneigd zijn. Eenzelfde probleem speelt bij vragen waarbij zekerheidsindexen gegeven moeten worden.

Variëren in vraagtypen?
Standpunten hierbij variëren van ‘doen, want dat werkt motiverend’ tot ‘liever niet, tenzij het niet anders kan’. Wat de motiverende werking van een toets betreft: Cronbach stelde (inderdaad, lang geleden!), dat een toets op zichzelf al motiverend genoeg werkt. Kandidaten weten dat ze beoordeeld worden, er hangen zaken van af, en alles wat er aan een toets wordt toegevoegd om kandidaten ‘leuk bezig te houden’ werkt alleen maar storend. Variëren in werkvormen binnen het onderwijs: prima, maar niet in een toets! Niet alleen omdat een toets op zichzelf al motiverend genoeg is, maar ook omdat het storend is om steeds van de ene vraagvorm naar de andere te moeten overspringen. Dat is wat over de opbouw van toetsen wordt gezegd. Is dat inmiddels een achterhaald standpunt? Aanbieders van digitale toetsen vinden van wel: zij krijgen hierover geen klachten van kandidaten. Maar gericht onderzoek op dit punt is er tot nu toe nog niet geweest.

Komt de eis van helderheid in het geding?
Validiteit en betrouwbaarheid zijn de eerste eisen waar je aan denkt als het om de kwaliteit van toetsen gaat, maar helderheid (duidelijkheid over wat er van kandidaten verwacht wordt) kan toch zeker ook een hoofdeis genoemd worden. Helderheid over leerdoelen, gecombineerd met een goede correspondentie tussen toets en doelen zorgen ervoor dat het leerproces van een kandidaat in de goede richting gestuurd kan worden. Maar ook tijdens het toetsproces zelf is helderheid van belang. Je kunt alleen optimaal presteren op een toets wanneer de scoringsregels duidelijk zijn en je je antwoordstrategie daarop kunt aanpassen. Bij MC vragen worden kandidaten (als het goed is) geïnstrueerd om altijd alle vragen te beantwoorden, omdat anders de meegewogen gokkans in hun nadeel werkt. Toch zijn er nog altijd kandidaten die vragen onbeantwoord laten. Als zo’n eenvoudige scoringsregel al zo moeilijk is uit te leggen, hoeveel lastiger wordt het dan niet met de ingewikkelde regels die nodig zijn voor een psychometrisch verantwoorde scoring van nieuwe vraagvormen! Laat staan wanneer voor elke vraag weer een nieuwe regel geldt en dus een nieuwe antwoordstrategie nodig is.

Zij gaf aan bepaald geen tegenstander te zijn van digitaal toetsen.  Integendeel, het is een vorm die een didactische meerwaarde kan hebben, maar alleen als je vraagsoorten gebruikt die op zichzelf een meerwaarde hebben, dat wil zeggen vraagvormen die niet op papier kunnen worden afgenomen. Hot spot vragen zijn daar een goed voorbeeld van, en vragen waarbij  media functioneel zijn. Zij stelde voor om op de punten die genoemd zijn gericht onderzoek te doen, zodat discussies hierover niet slechts op aannamen berusten.

Het scoren van Multiple Response Vragen.
Het scoren van M/C items, J/N of J/N/? items is duidelijk, het is goed of niet goed of anders gezegd: er wordt dichotoom gescoord.

Er ontstaat nu een range aan alternatieve vraagvormen waarbij de vraag gesteld kan worden hoe deze vraagvormen in de praktijk gescoord worden of hoe de toetsprogramma’s die deze vraagvormen ‘in de markt zetten’ met deze vragen omgaan. Dat is niet overal duidelijk en in eerste instantie zou het aan studenten een verstandig advies zijn om bij deze alternatieve vormen bij ‘niet weten’ alle antwoorden te kiezen.
Het kan zijn dat het toetsprogramma toch een onderscheid maakt in de antwoorden: een gedeeltelijk goed antwoord levert ook punten op en er wordt dan polytoom gescoord. Een andere scoringsregel is om bij foutieve antwoorden een punten af te trekken. Hiermee wordt het invullen van alle antwoorden ontmoedigd

Het is niet bekend hoe de verschillende toetssystemen met deze scoring omgaan maar van één programma is het bekend en dat is de aanleiding geweest voor een nader onderzoek.

De NBBE (Nederlands Bureau Brandweer Examens) heeft jarenlang middels schriftelijke toetsing geexamineerd. De slaagpercentages waren redelijk hoog, (waarschijnlijk niet in de laatste plaats omdat er vele items in den lande bleken rond te zweven).
Nadat overgegaan was naar een landelijke digitale toets met vele nieuw ingevoerde items ging het slagingspercentage dramatisch naar beneden. Dat kan natuurlijk liggen aan de nieuwe examenvorm en de onbekendheid van de items maar ook aan de gehanteerde scoringsregels. Op verzoek van de gebruikers was een strengere regel dan voordien voor de scoring van Meer Uit Meer vragen in het toetsprogramma (TestVision) ingebouwd.

De NBBE vroeg Hans Vos van de Universiteit Twente een vergelijkend onderzoek naar scoringsregels voor MUM vragen uit te voeren en een alternatief te ontwikkelen.
Hans Vos gaf deze middag een toelichting op de uitkomsten van dit onderzoek met een vrij technisch maar goed te volgen verhaal.

Gebruik van scoringsregels bij MUM vragen
Wanneer er meerdere juiste of beste antwoorden zijn, met name geïndiceerd bij het meten van partiële kennis, zijn er verschillende mogelijke scoringsregels:
- dichotoom: je moet alles goed hebben om een punt te krijgen;
- de Cito scoringsregel: er wordt aangegeven hoeveel alternatieven er gekozen moeten worden en er worden geen punten afgetrokken voor foute antwoorden. Er wordt dus per juist alternatief gescoord;
- er worden punten aftrokken voor onjuist gekozen alternatieven: de score is dan de proportie goed minus de proportie fout;
- de Testvision scoringsregel: er worden punten afgetrokken, met een ondergrens van 0.
Hans Vos heeft als alternatief voor de coulante Citoregel en de strenge Testvision regel een tussenvorm ontwikkeld: de quotiëntregel. Uitgangspunt hierbij was dat de nieuwe regel qua score tussen de beide andere regels uit zou moeten komen en dat de psychometrische kwaliteit van deze regel op zijn minst vergelijkbaar zou moeten zijn met de bestaande regels. De regel luidt als volgt:

  proportie goed
Squotiëntregel = -----------------------
  1+ proportie fout

In het voorbeeld hieronder zijn de verschillende scoringsregels en de uitkomsten daarvan weergegeven. Het gaat hier om een vraag met vijf alternatieven waarvan er drie juist zijn. Er zijn drie alternatieven geselecteerd. In de kolommen wordt aangegeven wat de score op de vraag is bij 1, 2 of 3 juist gekozen alternatieven.


regel G = 1 G = 2 G = 3
dichotoom 0 0 1
Citoregel 0,333 0,667 1
Met aftrek -0, 667 0,167 1
testvision 0 0,167 1
Quotiënt 0,167 0,444 1

De scoringsregel waarbij punten worden afgetrokken zonder ondergrens is de meest strenge, gevolgd door de dichotome regel en de Testvision regel. De Quotiëntregel van Hans Vos blijkt inderdaad tussen de meest coulante regel (Cito) en de vrij strenge Testvisionregel in te liggen. De psychometrische waarden van deze regel zijn bevredigend.: betrouwbaarheid en discriminerend vermogen bij gebruik van deze regel kwamen vrijwel steeds hoger uit dan de waarden van de Testvision regel.
Een probleem bij de Quotiëntregel was echter wel de volgende situatie. Als een kandidaat in principe alle alternatieven mag kiezen en dat ook daadwerkelijk doet, dan is proportie goed even groot als proportie fout, namelijk 1. De score wordt dan 0,5. Voor die situaties is een variant regel bedacht:

Score = aantal goed/(totaal aantal goed) + (aantal fout). Dit leidt in verschillende situaties tot de volgende scores:
- evenveel goede als foute alternatieven: 0,5
- alle alternatieven goed: 1
- alle alternatieven fout: 0
- het aantal goede alternatieven is meer dan de helft: > 0,5
- het aantal goede alternatieven is minder dan de helft: < 0,5

Innovatieve vraagtypen: Silvester Draaijer (VU)
Silvester Draijer gaf een toelichting op de manier waarop er binnen de VU wordt omgegaan met innovatieve (digitale) vraagvormen. Een PP presentatie van zijn verhaal is beschikbaar via  ……

Zijn verhaal begon met de – vrij pessimistische – constatering van Haladyna, dat mc vragen doorgaans op idiosyncratische wijze tot stand komen. Er is weinig onderzoek waarop constructeurs terug kunnen vallen.

Een eerste eis die aan toetsvragen gesteld kan worden is die van validiteit: meet een vraag daadwerkelijk wat je wilt meten? En gebeurt dat op een betrouwbare manier? Maakt een toetsvraag een juist onderscheid tussen kandidaten die de stof beheersen en kandidaten die dat niet doen (discriminerend vermogen)?
Daarnaast is het van belang dat de toets als meetinstrument niet van invloed is op datgene wat er gemeten wordt.

De gokkans bij mc vragen is door de jaren heen vaak als bezwaar tegen deze vraagvorm ervaren. Bovendien leent deze vraagvorm zich niet voor elk soort leerdoel. Innovatieve vraagvormen vormen een (mogelijk) antwoord op de problemen rond het gebruik van mc vragen.

Het innovatieve karakter van nieuwe vraagvormen speelt zich af rond de volgende dimensies:
- het format: het soort respons dat de kandidaat moet geven (bijvoorbeeld: kiezen of zelf formuleren)
- de wijze waarop de respons wordt gegeven (keyboard, muis)
- het gebruik van media
- het niveau van interactiviteit: de mate waarin de respons van de kandidaat weer leidt tot een ‘reactie’ van de vraag (feedback bijvoorbeeld)
- de scoringswijze.

Voor de keuze en vervolgens de constructie van vraagtypen bevelen Draaijer en Hartog (2007) het gebruik van ‘design patterns’ aan. Een design pattern geeft een overzicht van contexten (of combinaties van contexten) waarin bepaalde vraagtypen gebruikt kunnen worden, een taxonomische aanduiding van de vraagtypen, mogelijke formats of delen daarvan en uitgewerkte voorbeelden. Een goed bruikbare taxonomie voor vraagtypen is die van Scalise (2006).
Deze design patterns worden op de VU gebruikt om docenten te helpen rationele keuzes te maken bij het samenstellen van hun toetsen en de keuze voor vraagtypen. Wat er nog aan de patterns ontbreekt zijn scoringsregels en typische psychometrische waarden.

Na deze informatie behandelt Silvester Draaijer een aantal voorbeeldvragen die in tentamens op de VU zijn ingezet. Het gaat daarbij om een matching-vraag en een drag-and-drop vraag. Hij behandelt deze vragen en argumentatie waarom de vragen zijn ontwikkeld op de wijze zoals gedaan. Hij laat enige data zien rondom de scoreverdeling, de moeilijkheidsgraad en de Rit waarden. Ook laat hij daarbij de waarden zien voor de individuele drag-markers van de vragen en hun relatieve waarde mbt de moeilijkheidsgraad en Rit waarden.

De conclusie is dat er zeker redenen zijn om innovatie vragen te willen toepassen. Een belangrijke daarbij is het verminderen van de raadkans en het meten van partiële kennis. Elk specifiek item heeft weer zijn eigen specifieke inhoudelijke aspecten en psychometrische karakteristieken voortkomend uit de details van het item.


Innovatieve vraagvormen in TestVision.
Kort werd aangegeven welke nieuwe vraagvormen het programma kent en hoe te maken.

Terugkomend op de scoringsregels komt naar voren dat de ontwikkelaar zelf kan kiezen tussen polytoom of dychotoom met wel / geen aftrek voor gedeeltelijke scoring. De regel die hier wordt toegepast is gelijk aan de regel uit het Ciro onderzoek. Binnen de gekozen scoringsregel wordt alles door het programma berekend.

Om verschillende redenen heeft men gekozen om het aantal goede antwoorden niet verplicht te laten vastleggen o.a. om de kandidaat zelf te laten beslissen of om slechts een antwoord (=MC) of geen antwoord goed te laten zijn.
Wel blijkt dat het aangeven van het aantal goede antwoorden de vraag gemakkelijker maakt en dat het aantal foute antwoorden de zwaarte van de aftrek beïnvloedt.

Inmiddels hebben tienduizenden kandidaten toetsen met verschillende vraagtypen gemaakt. Voor zover bekend is er nooit een negatieve opmerking van een kandidaat gekomen over het gebruik van verschillende vraagtypen.

Het tegenovergestelde was wel het geval. Kandidaten vonden de toetsen veel praktijkgerichter, minder theoretisch en vooral leuker en prikkelender (ook al was de kandidaat gezakt). Ze vonden veel meer uitdagingen terug in een toets en gingen zelfs vragen naar meer toetsen. Natuurlijk had dat niet alleen met het gebruik van vraagtypen te maken, maar ook met de kwaliteit van de vragen op zich.
Uit statistische analyse van de vragen blijkt niet dat afwijkende vraagvormen significant moeilijker scoren. Die gegevens zijn echter slechts in beperkte mate beschikbaar. Wel is geconstateerd dat vernieuwde toetsen (soms, niet altijd) in het begin slechter worden gemaakt.

Bij TestVision heeft men sterk de indruk dat de kandidaten door het gebruik van andere vraagtypen en door het gebruik van media beter worden bevraagd en zich meer uitgedaagd voelen. De toetsen lijken dus moeilijker geworden, maar de indruk is dat ze feitelijk laten zien dat de 'oude' toetsen kwalitatief onvoldoende waren.
Ook bestaat de mogelijkheid dat het wegvallen van de eenzijdige één-uit-meer bevraging waarop kandidaten qua antwoordstrategie zelfs worden getraind hen plots opbreekt en van invloed is.


Afsluitend.

 Oefentoetsen.
Van verschillende kant is genoemd dat het noodzakelijk is om de studenten vooraf de verschillende vraagvormen te leren gebruiken. Veel oefentoetsen die veelvuldig kunnen worden gemaakt. Alleen dan kunnen nieuwe vormen worden toegepast.

 Toetsopbouw: Bloksgewijs of onderwerpsgewijs?
Er was verschil van mening over de vraag of het aan te bevelen is verschillende vraagvormen in blokken bij elkaar te plaatsen, of om vragen altijd ‘chronologisch’ (qua onderwerpen) aan te bieden, ongeacht de vorm. Aangezien geen van beide ‘kampen’ zich kan beroepen op empirische gegevens op dit punt, zou het een goed idee zijn als er systematisch onderzoek naar zou worden gedaan

 Dichotoom  contra  polytoom.
Aan de kandidaat zou bekend moeten zijn of de vragen polytoom of dichotoom worden gescoord en de scoringsregel zou consequent moeten worden toegepast, d.w.z. niet bij de ene vraag wel en andere niet. Er was enige discussie over de vraag of een kandidaat mag weten hoeveel aftrek er is bij een fout antwoord.

 Vermelden soort vraag.
Het lijkt zinvol om bij de vraag te vermelden om welk soort het gaat, zodat de kandidaat zijn antwoordstrategie daarop af kan stemmen.

 Vermelden aantal goed.
Over de vraag of het aantal juiste alternatieven moet worden aangegeven waren de meningen verdeeld.

 Verschillende soorten bij meerdere toetsen.
Men was van mening dat het zinvol lijkt om de verschillende vraagvormen ook consequent te gebruiken, d.w.z. bij elke toets op gelijke wijze. Dus niet bij de ene toets een dichotome scoringsregel, en bij de andere toets een polytome;  de ene toets wel met het noemen van het aantal goede alternatieven en de andere toets weer niet. Men verwacht dat inconsequent gebruik tot verwarring onder kandidaten zal leiden, maar daar zijn geen gegevens over beschikbaar.....


Conclusie.
Er is nog veel onbekend rond alternatieve vraagvormen. Meten ze beter of anders? Zijn er vraagvormen die je beter niet kunt gebruiken? Wat is het effect van het door elkaar versus bloksgewijs aanbieden van verschillende vraagvormen? Is het aan te raden vraagvormen in verschillende toetsen op dezelfde wijze aan te bieden? Is het nodig om per vorm aan te geven met welke vorm de kandidaat te maken heeft, en welke antwoordstrategie daarbij gebruikt zou moeten worden?

Het is duidelijk dat er nader onderzoek op deze punten nodig is. Wie hier aan mee wil werken wordt verzocht zich te melden bij..................


Ab van Beek,
Secretaris TGV
Dit e-mailadres is beschermd tegen spambots. U heeft Javascript nodig om het te kunnen zien.