Selecteer een pagina
Belang van betrouwbaar toetsen wordt overdreven!

Belang van betrouwbaar toetsen wordt overdreven!

Ik heb de afgelopen weken veel assessortrainingen gegeven en ik ben bij een paar kwaliteitsaudits geweest. Steeds valt mij weer op dat er, als het gaat om toetsing, bij assessoren of teammanagers angst is om onbetrouwbaar te zijn in de beoordeling. De angst is vooral gericht op externe verantwoording naar de inspectie of de accreditatiecommissie. Er zou toch eens een student onterecht een diploma krijgen… Ik maak me veel meer zorgen over al die studenten die onterecht GEEN diploma krijgen door toetsing die teveel focust op betrouwbaarheid.

Toetsen en examens kunnen het leven van een student maken en breken. Een avondje stappen missen omdat je een hertoets hebt doet pijn, maar al helemaal wanneer je het gevoel hebt dat je niet eerlijk beoordeeld bent.

Kwaliteitsbewaking speelt bij toetsing altijd een belangrijke rol. Het is de toetsing waar de student op afgerekend wordt en daar zal dus extra zorgvuldig mee omgegaan moeten worden. Die verplichting van zorgvuldigheid geldt niet alleen ten opzichte van de student, maar ook ten opzichte van de samenleving. Tenslotte leidt toetsing tot kwalificering voor de beroepspraktijk.

Toetsen betrouwbaarheid overdrevenIn deze blog neem ik je eerst mee in een klassieke benadering van toetskwaliteit en de beperkingen daarvan. Daarna schets ik mogelijke alternatieven zoals 1) generaliseerbaarheid in plaats van de traditionele betrouwbaarheid en 2) standaardisering van procedures in plaats van standaardisering van individuele toetsen. Deze alternatieve manieren zijn aanvullend voor de standaard kwaliteitscriteriabetrouwbaarheid, validiteit en transparantie.

Eerst de klassieke visie op toetskwaliteit:

Zoals gezegd worden op basis van toetsresultaten zwaarwegende beslissingen genomen. Het is dan ook terecht dat er traditioneel onder toetsdeskundigen veel oog is voor de kwaliteit van de wijze waarop het toetsresultaat tot stand komt. In het kader van inhoudelijk valide toetsen en beoordelen zullen we ons de vraag moeten stellen in hoeverre de ‘klassieke kwaliteitscriteria’ nog bruikbaar zijn, en of dit de enige of meest belangrijke criteria zijn. We denken bij “klassiek” dan in de eerste plaats aan validiteit en betrouwbaarheid. Daarnaast speelt de afweging tussen inhoudsvaliditeit en betrouwbaarheid een belangrijke rol bij het kiezen van instrumenten en toetsvormen. Lange tijd heeft betrouwbaarheid het primaat gehad in statistische analyses, hoewel eigenlijk iedereen het erover eens is dat de validiteit van de toetsinhoud een minstens zo belangrijk kwaliteitscriterium is.

Het begrip construct

In het klassieke denken over toetsen en kwaliteitsbewaking bij toetsing, speelt het begrip ‘construct’ een centrale rol. Deze term wordt gebruikt om onderliggende vaardigheden of aspecten van menselijk gedrag te definiëren. Een construct kan zijn ‘rekenen’, ‘boekhouden’, ‘Engels lezen’, ‘kennis van anatomie’ etc. Aanname hierbij is – en dat is met name voor de kwaliteitsbewaking van essentieel belang – dat alle items binnen een toets één onderliggend construct meten. Door uit te gaan van enkelvoudige onderliggende constructen kan, in het kader van de kwaliteitsbewaking, psychometrische analyse op de toetsing worden toegepast.

Het uitgangspunt van één onderliggend construct dat een toets beoogt te meten, speelt een centrale rol bij zowel het bepalen van de betrouwbaarheid als de construct- en criteriumvaliditeit van een toets.

Met de klassieke kwaliteitsbewaking is maar weinig oog voor de inhoudsvaliditeit (meten we wat we willen meten?). Die wordt met name geborgd door de relatie tussen onderwijsdoelstellingen en toetsinhoud te expliciteren (bijvoorbeeld door middel van een toetsmatrijs). Toch is de inhoudsvaliditeit de belangrijkste maatstaf die we zouden moeten hanteren.

Laten we eens kijken naar een alternatieve vorm van kwaliteitsbewaking, zoals generaliseerbaarheid, in plaats van klassieke betrouwbaarheid.

Binnen verschillende toetsen is het maar de vraag in hoeverre er sprake kan zijn van toetsen die één enkel onderliggend construct meten: dit kan nog als voor construct ‘competentie’ wordt gelezen, maar ook dan is wel een voorwaarde dat elke toets één geïsoleerde competentie meet. Veelal is dit niet het geval, waarmee het fundament onder de klassieke psychometrische analyse wordt weggevaagd. Er is dus een andere visie op de bewaking van de toetskwaliteit nodig die de psychometrische analyse kan vervangen.

Bovendien wordt bij de klassieke kwaliteitsbewaking van toetsing alleen naar de kwaliteit van de meting gekeken en niet naar de effecten die deze meting heeft op de student. Er is inmiddels voldoende onderzoek voorhanden waaruit blijkt dat de wijze van toetsing zeer sturend is op het leerproces van de student (“Toetsing heeft een diepgaande invloed op wat, hoe en hoe lang studenten studeren”. (Dochy et al, 2001) (Thomas & Bain 1984; Ramsen 1992; Scouller & Prosser 1994; Scouller 1995, 1996, 1998; Scouller & Chapman 1999; Biggs 1999, 2011; Dochy 2003, 2011, 2014). En de docent laat zich in zijn rol als begeleider van dat leerproces evengoed sturen door de toetsing.

Als een aanvullend kwaliteitscriterium bij toetsen wordt daarom in toenemende mate gekeken naar de mate waarin de toets stuurt op het gewenste leerproces: met name in het het verwerven van competenties en hogere vaardigheden in plaats van het reproduceren van kennis.

Bij het beoordelen van competenties gaat het veel meer om het meten van het geheel dan om het meten van de afzonderlijke delen. In de klassieke toetsing is er veelal sprake van één toets op één moment met beoordelaars die identiek beoordelen (bijvoorbeeld met landelijke examens). Bij het meten van competenties, kerntaken, werkprocessen of leeruitkomsten is er veeleer sprake van een reeks van verschillende metingen op verschillende momenten waarbij verschillende beoordelaars (in verschillende mate?) de mate van competentie vaststellen. Dit betekent dat bij het beoordelen van de betrouwbaarheid van de metingen ook naar het geheel van de metingen moet worden gekeken. Als verschillende metingen gezamenlijk tot een oordeel leiden dan is de betrouwbaarheid van dit geheel interessant en niet de betrouwbaarheid van de afzonderlijke metingen. Laat staan dat er een enkelvoudig construct kan worden gemeten.

In dit verband doet het begrip ‘generaliseerbaarheid’ in plaats van de traditionele betrouwbaarheidsopvatting het goed.

Zowel de klassieke betrouwbaarheidstheorie als de generaliseerbaarheidstheorie gaan uit van het gegeven dat de gemeten score gelijk is aan de ware score plus de meetfout. De meetfout kan verschillende oorzaken hebben, zoals beoordelaarsverschillen of verschillen die voortvloeien uit de uitgevoerde taken.

In de klassieke theorie worden deze oorzaken echter niet onderscheiden, terwijl dit in de generaliseerbaarheidstheorie juist wel gebeurt. Uit onderzoek blijkt dat de meetfout die te wijten is aan beoordelaarsverschillen relatief klein is en bovendien goed is te verkleinen met behulp van moderatie of kalibratie.

Het probleem doet zich vooral voor bij het generaliseren van taken: het blijkt dat het kunnen uitvoeren van de ene taak slechts een beperkte voorspellende waarde heeft voor de andere taak. Anders gezegd: iemand kan een bepaalde opdracht wel goed uitvoeren, maar dit wil nog niet zeggen dat hij een enigszins vergelijkbare opdracht ook goed uitvoert.

Dit betekent dat de toetskwaliteit verbeterd wordt door het vergroten van het aantal ‘assessmenttaken’, zodat de verschillende taken gezamenlijk een representatieve afspiegeling zijn van het geheel dat gemeten wordt. Het geheel van de taken is representatief voor de daadwerkelijke beroepspraktijk.

Welke benadering (klassiek of generaliseerbaar) je ook kiest, iedereen is het eens over de opvatting dat consistentie in de beoordelingen een vereiste is. Consistentie wordt bevorderd door structureel overleg tussen de beoordelaars te organiseren over de interpretatie van deze criteria aan de hand van concrete gevallen (kalibratie of moderatie), zoals eerder gesteld.

Tot slot nog een pleidooi om de kwaliteit van toetsen te verhogen door van gestandaardiseerde toetsen naar gestandaardiseerde procedures te gaan.

Standaardisatie wordt traditioneel gehanteerd als kwaliteitseis bij toetsing. Standaardisatie betekent dat de beoordelingsnormen en de beoordelingsprocedure voor alle studenten hetzelfde zijn. Standaardisatie is geen zelfstandig criterium maar een middel dat bij kan dragen aan het voldoen aan andere kwaliteitseisen: validiteit, transparantie, efficiëntie en, volgens de klassieke opvatting, betrouwbaarheid. En waar het bij één construct per toets mogelijk is om de instruménten te standaardiseren, is het bij toetsing van kerntaken, competenties en werkprocessen (en leeruitkomsten?) noodzakelijk om de procedúres te standaardiseren.

Kortom, In het evenwicht tussen inhoudsvaliditeit (meten we in een echte complexe werkelijkheid) en betrouwbaarheid (zijn onze metingen bij herhaling betrouwbaar) leggen we voortaan het accent op de validiteit. We kunnen dan weliswaar iets minder betrouwbaar een construct meten, maar door de procedure te standaardiseren komen we tot een betrouwbare en transparante manier van beoordelen. Op deze manier verkrijgen we een grote mate van validiteit binnen aanvaardbare betrouwbaarheidsnormen.

Ik denk hiermee een betere balans tussen betrouwbaarheid en validiteit geboden te hebben en een basis voor een goed gesprek met iedere kwaliteitscommissie. Temeer daar steeds meer opleidingen uitgaan van hybride vormen van leren en toetsen. De kunst is om binnen het team niet terug te vallen naar klassiek denken over betrouwbaarheid. Ik zie dat deze verleiding nadrukkelijk op de loer ligt.

Ik ben benieuwd naar jullie ervaringen met de balans tussen inhoudsvaliditeit en betrouwbaarheid. Ik reken op een stevige discussie in het reactieveld.

Peter Loonen

Peter Loonen

Auteur

peter@oabdekkers.nl

Schrijf je in voor onze wekelijkse blog

Weg met studenten en leerlingen!

  Emile introduceert een nieuw woord in het onderwijs. Een woord ter vervanging van leerling, student, deelnemer of cursist.     emile@oabdekkers.nl  ...

Lees meer

Activerende werkvormen uit de praktijk die werken (deel 1)

  Wellicht herkenbaar voor een docent: studenten die niet betrokken zijn in je les. Hét middel om betrokken studenten te krijgen is activerende werkvormen. Dat lees je overal. Maar wat verstaan we nu precies onder activerende werkvormen? En wordt leren effectiever bij...

Lees meer

Tentamens om van te leren met minder druk voor de docenten.

Tentamens om van te leren met minder druk voor de docenten.

De oplossing voor papieren tentamens

Zodra studenten klaar zijn met het maken van een tentamen moeten zij vaak lang wachten op het resultaat. Wanneer dit resultaat eenmaal bekend is, zijn er mogelijkheden voor inzage van het gemaakte werk. De studenten die hier op afkomen doen dat eerder om over een hoger cijfer te onderhandelen, dan om te leren van het gemaakte werk. Daarnaast levert dit nakijken en bespreken met studenten veel administratieve rompslomp op voor de docent.

Figuur 1. Voorblad van een tentamen via Ans.
Rechtsboven het krasveld voor de student,
onderaan de beschreven code.

Studentenvisie

Ik was ook zo’n onderhandelende student bij de opleiding Industrieel Ontwerpen aan de TU Delft. Tentamens waren een middel, studiepunten halen was het doel. Hoe zorg ik er voor dat ik dat ene tentamen toch nog net gehaald heb? Juist, door naar de inzage te gaan en daar ontzettend mijn best doen ergens nog een puntje voor te krijgen. Voor de docent vervelend, voor mij een leuke uitdaging. Na een aantal jaar studeren besloot ik een jaar plaats te nemen in de centrale studentenraad van de TU Delft. Een van mijn taken was het aanpakken van onderwijsproblemen vanuit studentenperspectief. En wellicht raad je het al, het hierboven beschreven probleem was één van die projecten. Als studentenraad vroegen we ons af hoe de feedback van gemaakte tentamens verbeterd kon worden. En of er bovendien mogelijkheden zijn om de administratie en belasting voor docenten te verminderen en tevens de feedback en tevredenheid van studenten te vergroten.

Oplossing

Al snel kwamen we in contact met Kerim Haccou en Benjamin Wols, beide student aan de TU Delft en oprichters van Ans Delft. Zij hebben een platform ontwikkeld dat een oplossing biedt voor wat wij proberen op te lossen. Ans is een platform waarin docenten gemakkelijk toetsen maken en nakijken. In het digitale platform maakt de docent gebruik van beoordelingscriteria voor het corrigeren van gemaakte toetsen. Nadat het tentamen is geprint en gemaakt door de student, wordt het gescand. Op elk tentamen plaatst Ans automatisch een unieke code (zie onderaan figuur 1). Zodra een student zijn studentnummer aankruist in het krasveld op de voorpagina, koppelt Ans die aan de code op het voorblad. Deze is vervolgens weer gekoppeld aan de codes op de andere bladzijden van dat tentamen. Wanneer de tentamens worden gescand, herkent Ans precies welk blad bij welke student hoort en dus ook welk antwoord bij welke student!

Anoniem, digitaal en versneld nakijken

Na het scannen, kan het nakijken beginnen. Het nakijken wordt horizontaal en anoniem gedaan: per vraag, in plaats van per student. In figuur 2 is links het antwoord van een willekeurige student te zien, en rechts de beoordelingscriteria die geselecteerd kunnen worden door de docent. Samen met het automatisch nakijken van multiple choice vragen, niet ingevulde vragen en het optellen van punten, ervaren docenten gemiddeld een halvering van de nakijktijd. Ook levert het platform direct statistieken op over het tentamen, die docenten kunnen gebruiken om valkuilen voor studenten op te sporen. Dit is een mooi middel om de kwaliteit van de toetsvragen te verbeteren.

Figuur 2. Links het antwoord van een willekeurige student, rechts de beoordelingscriteria.

Publicatie van nakijkwerk plus verbetering feedback

Na het nakijken kunnen de docenten de vragen en antwoorden publiceren naar de studenten. Doordat studenten de feedback op hun tentamenvragen online kunnen inzien en daar direct op kunnen reageren, wordt het inzagemoment een stuk toegankelijker. Studenten zien de criteria waar ze op beoordeeld zijn, waarmee zij meer inzicht krijgen in wat ze goed en fout hebben gedaan. Daarnaast kunnen zij ook zien op welke leerdoelen zij goed hebben gescoord. Dit resulteert in een toename van het aantal studenten dat hun tentamen inziet van 15% naar 90%!

De stappen samengevat:

  • Beoordelingscriteria opstellen
  • Online tentamen aanmaken
  • Printen
  • Studenten maken het tentamen
  • Scannen
  • Digitaal nakijken
  • Feedback naar student. 

Papieren tentamens

Ans wordt nu vooral gebruikt als oplossing voor papieren tentamens. We zien dat er een verschuiving is naar meer digitale tentamens, maar voor sommige vakken blijft papier toch de beste keuze. Wanneer er bijvoorbeeld moet worden gewerkt met veel open vragen, formules, tekeningen en figuren. Daarnaast hebben niet alle instellingen voldoende computers(zalen) beschikbaar. Toch heeft digitaal ook veel voordelen voor de administratievermindering. Met Ans worden beide werelden gecombineerd: Tentamens op papier, administratievermindering door digitaal na te kijken.

Afsluiter

Inmiddels ben ik zelf ook werkzaam bij Ans en maken er al meer dan 500 docenten, verspreid over diverse universiteiten, hogescholen en middelbare scholen, gebruik van Ans voor hun tentamens. Overigens is het sinds kort ook mogelijk om digitale toetsen en verslagen na te kijken. Met woorden is het vaak moeilijk uitleggen hoe Ans werkt, en je zou het eigenlijk zelf even moeten ervaren. Mocht je dit willen? Neem dan contact met mij op en dan organiseren wij een korte online demo!

Johan van den Heuvel
Johan@ans-delft.nl

Nawoord Peter Loonen, OAB Dekkers:

Ik heb van Johan de online demo gehad en ben onder de indruk van de mogelijkheden van Ans. Waar ik vooral erg gecharmeerd van ben is dat docenten (-teams) bij open vragen vooraf een beoordelingsmodel moeten maken. We weten allemaal dat dit belangrijk is wanneer een toets met open vragen gemaakt wordt. In mijn ervaring is de realiteit vaak anders. Er wordt een toets met open vragen gemaakt en bij het nakijken beoordeelt de docent de gegeven antwoorden. De kans op beoordelingsfouten is dan erg groot. Ik heb de stellige overtuiging dat de betrouwbaarheid en de transparantie (2 belangrijke kwaliteitscriteria van toetsen) van schriftelijke toetsen door Ans toeneemt.

Johan van den Heuvel

Johan van den Heuvel

Auteur

Johan@ans-delft.nl

Schrijf je in voor onze wekelijkse blog

Belang van betrouwbaar toetsen wordt overdreven!

  Ik heb de afgelopen weken veel assessortrainingen gegeven en ik ben bij een paar kwaliteitsaudits geweest. Steeds valt mij weer op dat er, als het gaat om toetsing, bij assessoren of teammanagers angst is om onbetrouwbaar te zijn in de beoordeling. De angst is...

Lees meer

Tests zijn stressmomenten, geen leermomenten

Toetsen en examens zijn voor de meerderheid van de lerenden vrijwel uitsluitend stressmomenten, waarin leren niet meer mogelijk is. Een belangrijk doel van evaluatie (lees: formatieve toetsing) is, dat de lerende inzicht krijgt in zijn leerproces. Onder stress werkt...

Lees meer

Tests zijn stressmomenten, geen leermomenten

Tests zijn stressmomenten, geen leermomenten

Toetsen en examens zijn voor de meerderheid van de lerenden vrijwel uitsluitend stressmomenten, waarin leren niet meer mogelijk is. Een belangrijk doel van evaluatie (lees: formatieve toetsing) is, dat de lerende inzicht krijgt in zijn leerproces. Onder stress werkt dat echter zelden. Formatieve evaluatiemethoden vervullen hierin een belangrijke functie: wanneer de lerende weet hoever hij al gevorderd is op zijn tocht, wordt het mogelijk om doelgerichte acties te ondernemen. (Dochy & Nickmans, 2005).

Uit: Bouwstenen voor High impact learning (Dochy e.a. 2016)


Voor mij staat dit als een paal boven water. Formatieve toetsing moet impact hebben op het leerproces van de student. Kan of doet de student niets met bijvoorbeeld feedback dan is het jammer van de tijd en energie die je er als docent insteekt. Maar wélke inspanning moet de docent leveren om een zinvolle invloed te hebben op het leerproces van de student?

 

Deze vraag krijgen we steeds meer uit de praktijk en daarom ben ik 14 september samen met mijn collega Jet ter Halle naar een bijeenkomst geweest over formatief toetsen: ‘Wat is formatief toetsen en hoe zorgen we ervoor dat een formatieve toets  impact heeft op het leren van de student?’

 

Door de stromende regen kwamen we aan in ‘De Ruimte’ aan de Oudegracht in Utrecht, waar Liesbeth Baartman over dit onderwerp een lezing gaf en ons kennis liet maken met de ontwikkelde ‘Formatieve Toetscyclus’. Deze toetscyclus vormde de basis voor een overzichtsstudie: “Wat doet de docent in de klas die effectieve formatieve toetspraktijken realiseert?” Én deze toetscyclus is ook in te zetten als hulpmiddel om formatieve toetsing vorm te geven.

 

Waar het bij summatief toetsen gaat om terugkijken: wat beheerst de student van de aangeboden leerstof, gaat het bij formatieve toetsing over het vaststellen hoe de student zich ontwikkelt, wat hij moet verbeteren of leren om het einddoel te halen en hoe je daar als docent op aansluit. Uit het onderzoek van Baartman en Gulikers blijkt dat we nog niet in staat zijn formatieve toetsing goed vorm te geven. En dat heeft onder anderen te maken met het niet doorlopen of gebruiken van alle fasen van de toetscyclus,. Bijvoorbeeld het expliciteren van doelstellingen en verwachtingen (fase 1).

Baartman en Gulikers willen met dit onderzoek docenten inzicht geven in en helpen om in de praktijk de formatieve toetsing goed vorm te geven. De toetscyclus met de hulpvragen moeten hierbij helpen. Het instrument is helaas nog niet klaar maar op basis van het conceptmateriaal uit de bijeenkomst heb ik hieronder bij de toetscyclus vragen geformuleerd om alvast mee aan de slag te gaan.

 

 

 toetscyclus
Aan de hand van deze Formatieve Toetscyclus kun je op zoek gaan naar wat er per fase nodig is
om de formatieve toetspraktijk in de klas te verbeteren of te realiseren.

Fase 1: Verhelderen van verwachtingen

Hoe deel ik met studenten de leerdoelen?

Hoe deel ik met de student de succescriteria?

 

Fase 2: Ontlokken en verzamelen van data van studenten

Hoe verzamel ik informatie om vast te stellen in welke mate studenten al aan de doelen en succescriteria voldoen?

In hoeverre kan ik bestaande toetsen hiervoor gebruiken?

Wat zijn zinvolle activiteiten om reacties te ontlokken bij studenten?

 

Fase 3: Analyseren en interpreteren van studentreacties

Hoe analyseer ik de toetsgegevens, antwoorden uit de klas, uitwerking van oefenopdrachten?

Weet ik welke belangrijke misconcepties in mijn vakgebied belangrijk zijn voor formatieve toetsing?

Hoeveel informatie heb ik nodig om te analyseren waar de student staat?

 

Fase 4: Communiceren over resultaten met studenten

Hoe geef ik doelgerichte en concrete feedback ?

Hoe organiseer ik self- en peer-assessment?

Hoe geef ik de student ruimte voor verbetering?

 

Fase 5: Vervolgactiviteiten ondernemen

Wat ga ik concreet doen in mijn les(sen) om aan te sluiten op wat de student nodig heeft?

Hoe kan ik beter aansluiten op wat de studenten al weten?

 

 

En dan nog even dit!

Op 23 november organiseren we als bureau Dekker het High Impact Teaching-event. Filip Dochy doet op deze dag een interactieve inleiding in High Impact Learning that lasts, waarin formatieve toetsing een belangrijk onderwerp is.

 

Wil je erbij zijn dan kun je je via deze website inschrijven www.highimpactteaching.nl . Hier lees je ook alles over de verdere inhoud van deze dag.


Bronnen

Dochy, F., Berghmans, I., Koenen, A., Segers, M. (2016) Bouwstenen voor Hogh Impact learning.

Eindrapport  Gulikers & Baartman (2017).  https://www.nro.nl/wp-content/uploads/2015/09/Inhoudelijke-eindrapport_NRO-PPO-405-15-722_DEF.pdf

 

 

Thuis toetsen

Thuis toetsen

Op dinsdag 9:00 is het zover, de take-home toets komt online. Mijn kamer is opgeruimd en de aantekeningen geordend. Met een grote pot thee naast mij, start ik met het doorlezen van de vragen. Ik bedenk mijn aanpak en ga na hoe ik ervoor zorg dat mijn verslag vrijdag goed ingeleverd wordt.

 

Bovenstaande beschrijving illustreert de werkwijze van een take-home toets. Een take-home toets is een formatieve of summatieve toets waarbij de student enkele dagen de tijd krijgt om een opdracht uit te werken. Voor het oplossen of uitwerken van de opdracht/vraag zoekt de student thuis de benodigde informatie op en kan hij te rade gaan bij collega-studenten. Een take-home toets is geschikt voor hogere orde vaardigheden. Het zijn vragen en opdrachten die zich richten op kritisch en probleemoplossend vermogen, die discussie uitlokken en die ervoor zorgen dat studenten zelfstandig op zoek gaan naar informatie. In onderstaande afbeelding is aan de hand van Bloom (Anderson et al. 2001) weergegeven wat we onder hogere orde denken verstaan.

 Bloom's Taxonomie

 

Een take home toets wordt niet gebruikt om na te gaan of de student de noodzakelijke feitenkennis kent (lagere orde vaardigheden). Als slechts één antwoord het juiste is, is door het verhoogde risico van plagiaat een take home toets niet geschikt. Open vragen waarbij persoonlijke verwerving van het materiaal centraal staan zijn meer geschikt als vraagvorm. Studenten moeten argumenteren welke keuzes zij maken op basis van de literatuur en samenbrengen tot een geheel.

 

Voor- en nadelen

Voordelen

Nadelen

  • Uit onderzoek van Rich (2011) blijkt dat een take-home toets zorgt voor het langer beklijven van de kennis/vaardigheden dan bij een regulier tentamen. Studenten die een take-home toets maken bekijken vaker hun aantekeningen, bereiden het in groepen voor en maken samenvattingen in hun eigen woorden.
  • De student heeft de tijd om de opdracht te maken, dit is positief voor studenten die last hebben van stress of faalangst (Rich, 2011).
  • Er is meer ruimte voor authentieke opdrachten/realistisch karakter.
  • De focus ligt door de persoonlijke verwerking keuzes te maken vanuit verschillende bronnen (hogere orde denkvaardigheden). Het voordeel hiervan is dat studenten de tijd hebben om goed met de theorie aan de slag te gaan. Ze leren van de toets.
  • Take home toets stimuleert collaboratief leren. Als in het onderwijs samenwerking centraal staat kan dit in de evaluatie tot uiting komen. Denk bijvoorbeeld aan de wijze waarop ze de feedback van studenten hebben verwerkt.
  • Uit onderzoek van Haynie (2003) blijkt dat studenten enkel de informatie tot zich nemen die bij de take-home vragen hoort en zich niet verdiepen in de andere stof die wordt behandeld. Door complexere vragen te stellen en studenten hier goed op voor te bereiden kan dit worden voorkomen.
  • De student kan hulp inschakelen om de informatie te verwerken. Vermeld dan ook expliciet dat samenwerking met medestudenten positief is maar dat het eindresultaat blijk moet geven van persoonlijke verwerking van het geheel. Een combinatietoets (met bijvoorbeeld een mondeling) is mogelijk om dit te ondervangen.
  • Het nakijken van een take home toets is lastiger, omdat meer variëteit mogelijk is. Het is mogelijk om dit te sturen door bij elke opdracht/vraag de elementen op een rij te zetten die in het antwoord moeten zitten. Door de hogere orde vaardigheden zal variëteit echter noodzakelijk zijn en is een meer holistische wijze van beoordeling gewenst.

Praktijkvoorbeeld

Fred Vanderbroeck heeft voor de tweede onderwijsperiode van de opleiding Verpleegkunde een take home toets ontwikkeld. “In eerste instantie werd gedacht aan een casustoets, ik wilde echter meer verbinding met de praktijk”. In de take home toets maakte Fred gebruik van een zelfgemaakte documentaire. De studenten moesten in de take home toets deze documentaire bekijken (ieder op zijn eigen tempo) en benoemen welke factoren en risico’s zij herkennen op het gebied van zelfredzaamheid en gezondheidsrisico’s. Op basis van deze analyse gaven zij een voorstel hoe zij de zelfredzaamheid wilden bevorderen. Hieronder zijn enkele reacties van studenten op deze toets te vinden:

 

De take home toets daagt mij uit om zelf een advies te geven en in de situatie te duiken

Je kennis kan je in deze toets kwijt en de koppeling met de theorie en praktijk is prettig

 Fijn dat er een toets was, waar je zelf kan laten zien wat je kan, in plaats van samenwerken

 Je kan de toets in jouw tempo maken



Nieuwsgierig naar andere blogs over toetsvormen?

Lees hier bijvoorbeeld mijn vorige blog over de ‘two-stage-toets’ of het werken met ‘cumulatieve toetsen’.

Bronnen

Anderson, L.W., Kratwohl, D.R., Airasian, P.W., Cruikshank, K.A, Mayer, R.E., Pintrich, P.R., Raths, J., & Wittrock, M.C. (2001). A taxonomy for learning, teaching and assessing: A revision of Bloom’s taxonomy of educational objectives. New York, NY: Longman
Haynie, W. (2003). Effects of take-home in technology education. Journal of technology Education, 14(2), 6-18 Rich J. (2011). An experimental study of differences in study habits and long-term retention rates between take-home and in-class examinations. Int. J. Univ. Teach. Faculty Dev. 2, 1-10.

 


 

Ik heb geen idee wat ik moet beoordelen!

Ik heb geen idee wat ik moet beoordelen!

 

Je zit met een student en een mede-assessor in een (te kleine) ruimte. De temperatuur is hoog, de student zenuwachtig en er ligt een hoop papier voor je op de tafel. De tijd van het criteriumgericht interview is weer aangebroken. Samen met je collega moeten je zorgen voor een eerlijke beoordeling van de student. De vraag die langzaam bij je opkomt is: “wat moeten we eigenlijk beoordelen?” Je collega informeert de student inmiddels over de procedure en het onderdeel dat beoordeeld wordt tijdens het gesprek: samenwerken, reflectie en transfer naar een andere context. De student knikt instemmend en doet alsof hij snapt wat er bedoeld wordt.wat moet ik beoordelen?

 

Een tweede vraag die je jezelf stelt, is: “wanneer vinden wij dat samenwerken eigenlijk voldoende?”  Niet alleen de student heeft het nu warm, jij ook. Je bent er net achter gekomen dat het voor jou eigenlijk nog helemaal niet duidelijk is wat je precies moet beoordelen en dat je niet weet of je samen met je medebeoordelaar op één lijn zit. Dit geldt zowel voor de inhoud als ook voor het niveau. De conclusie: Jullie zijn niet goed voorbereid aan het gesprek begonnen.

 

Om dit probleem op te lossen is het voor de assessoren belangrijk om zich goed te oriënteren op de inhoud van het examengesprek, het CGI of ieder ander beoordelingsmoment. Je moet precies weten wat je moet beoordelen. De criteria waaraan, bijvoorbeeld in deze situatie, samenwerken, reflectie of transfer of moeten voldoen, moeten helemaal duidelijk zijn. De methodiek die je met mede-assessoren kunt gebruiken om de criteria te verduidelijken is modereren.

 

Door middel van moderatie ontwikkelen beoordelaars intersubjectiviteit. Daarmee leren zij steeds meer op hun eigen vermogen tot oordelen te vertrouwen, waardoor zij steeds minder afhankelijk worden van een gedetailleerde uitwerking van de beoordelingscriteria. Intersubjectiviteit leidt tot het vertrouwen dat het eigen oordeel nooit veel zal afwijken van het oordeel dat een andere beoordelaar geeft.

 

Moderatie kan georganiseerd worden door beoordelaars zeer regelmatig bij elkaar te laten komen en concrete casussen te laten bespreken. Als eerste stap zou elke beoordelaar zelfstandig tot een oordeel over de casus kunnen komen om vervolgens de beoordelingen te vergelijken, waarna een gesprek kan plaatsvinden over de overeenkomsten en verschillen in beoordeling. Daarom is het voor moderatie van belang dat de beoordelaars die met elkaar in gesprek zijn, de beschikking hebben over de volledige casus, dat wil zeggen het portfolio van de student en ook bijvoorbeeld video-opnamen van een simulatie.

De WACKER-procedure (Waarnemen, Aantekenen, Classificeren, Kwantificeren, Evalueren en Rapporteren) kan hierbij een hulpmiddel zijn.

Intersubjectiviteit bevorderen we door het toepassen van de WACKER-procedure bij een assessment. Het betreft hier dan de intersubjectiviteit tussen twee assessoren.

Modereren gaat over een niveau hoger: als assessoren-groep overeenstemming bereiken over de prestatie-indicatoren/ werkprocessen/ kerntaken.

 

Tijdens een moderatie-sessie volg je de volgende werkwijze:

  • Benoem een voorzitter, notulist en tijdbewaker
  • De voorzitter stuurt de volgende zaken aan:
  1. Per bespreekpunt schrijft iedereen zijn/haar eigen interpretatie op een papiertje (elke gedachte, elk argument op een apart velletje). Wanneer is het een 0, 1 of 2?
  2. Een persoon start met een korte toelichting op zijn papiertjes
  3. Hierna vullen de overigen aan en ordenen hun papiertjes: wat overeenkomt leggen ze bij andere papiertjes, wat verschilt leggen ze apart
  4. Overeenkomsten worden geconstateerd, niet besproken
  5. Verschillen worden besproken
  6. Conclusies worden getrokken

Twee belangrijke winstpunten van moderatie zijn: a) er is geen discussie over zaken waarover we het eens zijn en b) toetsing leidt tot impact in het onderwijs.

Een veelgehoorde reactie wanneer ik een moderatie-sessie begeleid, is: “we hebben het eindelijk weer eens over de inhoud van ons onderwijs gehad!”

 

Dus, wanneer je geen idee hebt wat je eigenlijk aan het beoordelen bent, start dan met modereren!

 

 

Objectief toetsen in het beroepsonderwijs

Objectief toetsen in het beroepsonderwijs

Binnen het HBO onderwijs lijkt de aandacht voor toets kwaliteit flink te zijn toegenomen. Niks mis mee uiteraard, want waarom zou je bezwaar maken tegen inspanningen om te verbeteren? In de bijeenkomsten die handelen over toetsing, valt dan ook met regelmaat het woord ‘objectiviteit’. “We moeten objectief het leerresultaat van de student meten”, “we moeten toetsen met objectieve criteria”. Aan de hand van een tweetal claims wil ik hieronder kort ingaan op mijn ‘objectie’ tegen het gebruik van het woord ‘objectief’.

 

Objectief toetsen in het beroepsonderwijsClaim 1: objectief meten in het beroepsonderwijs is niet mogelijk

De eerste claim lijkt gestoeld op semantiek, maar kan een nadelige doorwerking hebben in hoe wij naar toetsing kijken. Een objectieve meting is per definitie een kwantificatie welke niet kan worden vertekend door menselijke interpretatie. Zodra menselijke interpretatie (geen afleesfouten) een rol speelt, bewegen we weg bij objectiviteit en betreden we het domein van subjectiviteit. Dit houdt in dat eigenlijk alleen directe getalsmatige metingen, gedaan door gevalideerd en betrouwbaar instrumentarium in aanmerking komen. Er zitten drie aspecten in een objectieve meting, die in een onderwijssetting niet haalbaar zijn:

 

  • Een examinator functioneert niet als een instrument: onze zintuigen zijn sterk adaptief en afhankelijk van interpretatie en instelling door het brein. Ze kennen daardoor een grote variantie in de wijze waarop ze functioneren. Deze grotendeels onbewuste interpretaties worden sterk beïnvloed door verleden, mening, vorm van de dag etc.
  • De metingen binnen het onderwijs zijn indirect. Zelfs een digitale kennistoets meet niet direct kennis. Het zicht op kennis komt via taal tot stand en is daarmee afhankelijk van hoe goed en eenduidig taal wordt beheerst. Het toevoegen van een tienpuntsschaal aan zoiets als ‘pijn’, maakt de meting niet objectief; het is ‘slechts’ een cijfermatige vertaling van wat iemand besluit te rapporteren over een beleving.
  • De student is net als de examinator een mens met alle variabiliteit die dat met zich meebrengt. Stress voor de toets, voorkennis over de examinator, ideeën over slagingskans zullen allen de prestatie beïnvloeden en het zicht op ‘ware’ capaciteit vertroebelen. Misschien spreken we daarom ook wel terecht van performance tests in plaats van capaciteitstests. Dan nog krijgen we met een eenmalige puntmeting geen zicht op de stabiliteit van de performance of de mogelijkheid om daarin bewust en passend te variëren.

Claim 2: “objectief meten in het beroepsonderwijs is niet nuttig”.

Het streven naar objectiviteit verlegt de beoordelingsaandacht naar hetgeen het meest tastbaar lijkt, het leerresultaat. Allereerst is een focus louter op resultaat een gemiste kans in een leeromgeving. Roepen we niet en masse dat voor toekomstbestendigheid professionals nodig zijn die primair in het bezit zijn van een onderzoekende houding en een sterk lerend vermogen? Roepen we daarbij ook niet dat voor echt leren ruimte voor het maken van ‘fouten’ noodzakelijk is? Waar wordt het maken van deze ‘fouten’ in ons systeem dan positief beloond? Deze ambities maken het nuttig en nodig dat er aandacht is voor het proces, het leren zelf. De uitkomst daarvan is niet meer (maar ook niet minder) dan een aspect. Alleen kijken naar resultaat leert je of een student één keer over de lat is gekomen. Kijken naar het proces leert je of de student capabel is om dat vaker te doen.

 

Moeten we dan maar stoppen met investeren in beoordelingslijsten en kalibreersessies? Nee, zeker niet, maar laten we wel overwegen te stoppen met spreken over ‘objectiviteit’ en deze term vervangen door ‘gedeelde subjectiviteit’. Er blijkt zelfs al een nog beter passende term voorhanden, namelijk ‘intersubjectiviteit’. Laten we dan ook meteen de term ‘kalibreren’ vergeten en reserveren voor keukenweegschalen en thermometers. Laten we in plaats daarvan ‘afstemmen’. Afstemming vergroot niet de objectiviteit van de toets, maar vergroot de intersubjectiviteit van examinatoren en draagt zo bij aan het verbeteren van de reproduceerbaarheid en de responsiviteit van beoordeling. Ook erkent zij de expertise van de examinator door deze niet vergeefs te reduceren tot instrument. Als we dan de vrijheid weer voelen om als subject iets te vinden van het optreden van een ander subject, dan hoeven we niet alleen maar te focussen op ‘het geleerde’ (resultaat), en kunnen we ook in waarderende zin aandacht besteden aan ‘het leren’ zelf, het proces dat voorafgaat aan het resultaat en wat zegt over de capaciteit om vanuit ‘fouten’ tot dat resultaat te komen.

 

Bert Mutsaers

Docent Fysiotherapie AGZ Avans