Deze maand kregen groep 8-leerlingen de uitslag van hun doorstroomtoets. Volgens staatssecretaris Mariëlle Paul maakt het niet uit welke van de acht beschikbare toetsen zij maakten. Uit een analyse van de Volkskrant blijkt het tegendeel. Ook de Onderwijsinspectie zit hiermee in haar maag.
Door Ben Meindertsma, Serena Frijters en Jurre van den Berg
Fotografie Jiri Büller
Het was vorig jaar flink slikken voor de bestuurders van Filios Scholengroep in Oss. De resultaten van de eerste editie van de doorstroomtoets vielen ronduit tegen. Scholen waarover nooit zorgen bestonden, kleurden in hun spreadsheet met de normen van de Onderwijsinspectie plotseling rood.
‘We waren echt verrast en verontrust’, blikt schoolbestuurder Jack Daalmans terug. ‘Er was sprake van een forse dip, die we niet goed konden verklaren.’ Des te meer omdat de resultaten van de reguliere toetsen gedurende het schooljaar prima waren.
Jack Daalmans
De hand ging in eigen boezem. Er volgden pittige gesprekken met directeuren van de weggezakte scholen. Daalmans: ‘We vroegen: wat hebben deze leerlingen gemist, en hoe willen jullie dit repareren? Want anders beginnen kinderen over een paar maanden met een achterstand aan het voortgezet onderwijs.’
De invoering van de doorstroomtoets vorig jaar ging gepaard met hoge verwachtingen. Scholen konden net als bij de oude eindtoets kiezen uit verschillende toetsaanbieders. Maar de uitslag van de doorstroomtoets kreeg een doorslaggevend karakter: scholen werden voortaan geacht hun middelbareschooladvies naar boven bij te stellen als het toetsresultaat daartoe aanleiding gaf. Het belangrijkste verschil: door de invoering van een en dezelfde normering, zouden de acht toetsen voor het eerst goed vergelijkbaar zijn. ‘Echt een objectief tweede gegeven’, aldus het ministerie van Onderwijs. Dat zou de kansengelijkheid vergroten.
Maar vrij snel bleek dat er enorme verschillen bestonden in de behaalde resultaten op de verschillende toetsen. Zo kregen leerlingen van scholen die de Leerling in Beeld-toets van het Cito maakten veel vaker een havo- of vwo-advies dan leerlingen die de zogeheten Iep-toets deden, terwijl de schooladviezen die hun leerkrachten gaven vergelijkbaar waren. Nog groter was het verschil met de digitale Route 8-toets, met veel lagere scores – ook dan de jaren daarvoor.
En juist die toets hadden 19 van de 20 scholen van Filios Scholengroep gemaakt (één school koos voor Iep). Toen Daalmans las over de enorme verschillen, begon het te knagen. Zou het dan toch niet aan het onderwijs op de scholen zelf liggen? Dus toen hij dit najaar zag dat zijn scholen opnieuw in meerderheid voor Route 8 kozen, stuurde hij subtiel bij. ‘Ik vroeg directeuren of ze goed over hun keuze hadden nagedacht.’
Uiteindelijk stapten elf van de twintig scholen alsnog over naar de toets met de hoogste resultaten: de papieren Cito-doorstroomtoets Leerling in Beeld. Zeven bleven bij Route 8, en twee kozen voor Iep.
Zo ontstond er bij toeval een mini-experiment in Oss. Met een opmerkelijke uitkomst, bleek toen deze maand de toetsresultaten binnenkwamen.
Op de veelal lager scorende scholen die overstapten naar Leerling in Beeld nam het percentage leerlingen dat het streefniveau haalde enorm toe van gemiddeld 45 naar 70 procent. Op scholen waar leerlingen opnieuw Route 8 maakten, bleef het niveau min of meer gelijk, met 63 procent scoorden zij iets boven het landelijk gemiddelde.
In de spreadsheet met inspectienormen kleuren alle Filios-scholen inmiddels weer groen. Volgens Daalmans heeft het niet alleen te maken met de inspanning van de scholen. ‘Het versterkt ons gevoel dat er vorig jaar echt iets is misgegaan met de doorstroomtoets’, zegt hij. ‘Ieder kind kansrijk in de wereld door goed onderwijs’, is het motto van het schoolbestuur. ‘Maar blijkbaar wordt hoe kansrijk een leerling is mede bepaald door de toets die we afnemen.’
Net als in Oss twijfelen veel mensen in onderwijsland inmiddels aan de vergelijkbaarheid van de doorstroomtoetsen. Zo niet verantwoordelijk staatssecretaris Mariëlle Paul (VVD). Na kritiek vanuit de Tweede Kamer noemde ze het ‘onwenselijk’ dat er werd getwijfeld aan de betrouwbaarheid van het systeem. Ze was stellig: het maakt niet uit welke toets een leerling of school maakt.
Maar klopt dit wel?
De staatssecretaris verwijst steevast naar het College voor Toetsen en Examens (CvTE), verantwoordelijk voor de normering van de doorstroomtoetsen. De toetsresultaten zijn volgens het CvTE op een wetenschappelijk verantwoorde manier vergelijkbaar gemaakt.
Dat de resultaten van toetsen uiteenlopen, ligt volgens de instantie niet aan verschillen tussen toetsen, maar komt mogelijk doordat verschillende toetsen door verschillende groepen leerlingen worden gemaakt. Route 8, bijvoorbeeld, zou mogelijk vaker worden gebruikt door scholen met relatief veel leerlingen met minder hoog opgeleide ouders. Dan is het begrijpelijk dat op die toets gemiddeld genomen lager gescoord wordt.
Staatssecretaris Paul ging mee met deze uitleg. ‘Wanneer scholen met een specifiek vaardighedenniveau clusteren bij een bepaalde toets, dan kan dat terug te zien zijn in de resultaten van die doorstroomtoets’, schreef ze aan de Tweede Kamer.
Uit een analyse door de Volkskrant blijkt echter dat deze verklaring geen stand houdt.
Deze grafiek toont voor de drie grote toetsaanbieders het gemiddeld percentage leerlingen dat het streefniveau voor taal en rekenen haalt.
Op de horizontale as staat de zogenoemde schoolweging. Hoe hoger de weging, hoe meer leerlingen met ouders met een lager opleidingsniveau, een lagere sociaaleconomische status en/of een migratieachtergrond.
Op scholen met lage weging is het percentage leerlingen dat op de Leerling in Beeld-toets het streefniveau haalt flink hoger dan bij scholen die voor de Route 8-toets kozen.
Vergelijkbare verschillen zijn te zien bij de scholen met een hoge weging.
Kortom: de forse verschillen tussen toetsen blijven bestaan als rekening wordt gehouden met het leerlingenbestand van scholen.
‘Ik vind de resultaten overtuigend’, reageert Herman van de Werfhorst nadat hem de Volkskrant-analyse is voorgelegd. Hij is hoogleraar sociologie aan de European University Institute in Florence met als specialisatie onderwijsongelijkheid. ‘Het blijkt dat er geen systematische samenhang is tussen de leerlingpopulatie en de verschillen in behaalde referentieniveaus van de verschillende doorstroomtoetsen’ – zoals de staatssecretaris met zoveel woorden stelde.
Monika Vaheoja, zelfstandig toetsexpert en gepromoveerd op het vergelijkbaar maken van toetsen, is dat met hem eens. ‘Deze analyse laat een duidelijk patroon zien: scholen die voor een specifieke toets kiezen, scoren over de hele linie lager of hoger.’ Dat zou betekenen dat minder sterke scholen allemaal voor dezelfde toets hebben gekozen. ‘Maar dat vind ik moeilijk te geloven. Het ligt meer voor de hand dat de oorzaak ligt in de toetsen zelf, of de manier waarop de toetsen vergelijkbaar zijn gemaakt.’
De Volkskrant heeft de analyse ook voorgelegd aan het CvTE. Het toetscollege gaat niet inhoudelijk in op de bevindingen, maar kan de verschillen tussen toetsresultaten zelf nog niet verklaren. ‘Er is nog volop onderzoek gaande. Dat kost tijd’, aldus een woordvoerder. Het CvTE heeft niettemin ‘geen reden om te twijfelen aan de deugdelijkheid’ van zijn aanpak. ‘De normeringssystematiek klopt en daar staan wij achter.’
Volgens het ministerie van Onderwijs is het ‘te kort door de bocht’ om te concluderen dat de sterk uiteenlopende toetsresultaten niet door verschillen in leerlingbestanden kunnen worden verklaard. ‘De analyse bevestigt enkel dat we niet weten wat de verschillen in de toetsprestaties veroorzaakt. Daar doen we grondig onderzoek naar’, aldus een woordvoerder van staatssecretaris Paul. De stelling dat het niet uitmaakt welke toets een school of leerling maakt, wil de staatssecretaris niet herhalen.
De onverklaarbaar grote verschillen tussen de diverse toetsen zijn niet alleen vervelend voor leerlingen en scholen. Ze zijn ook problematisch voor de Onderwijsinspectie. Sinds 2021 bezoekt de inspectie niet meer systematisch alle basisscholen in Nederland, maar ligt de focus op de risicoscholen. Daarbij gebruikt ze een algoritme om te bepalen welke scholen mogelijk gebrekkig onderwijs geven.
De scholen die het slechtste uit het risicomodel komen (gerekend over een periode van drie jaar) kunnen een bezoek krijgen van de inspectie. De belangrijkste factor in het algoritme: de resultaten van de doorstroomtoets.
En ook hierin weegt toetskeuze schijnbaar sterk door. De Onderwijsinspectie hanteert zogenoemde ‘signaleringswaarden’. Onder deze waarden voldoen scholen niet aan de minimale eisen en is hun leerresultaat in principe onvoldoende. De inspectie houdt hierbij rekening met het leerlingenbestand van een school: hoe meer kinderen met lager opgeleide ouders, hoe lager de lat.
Hier zien we de resultaten van alle basisscholen op de doorstroomtoets van vorig jaar. De zwarte lijn is de signaleringswaarde, waar een school boven zou moeten scoren.
Scholen met LIB scoren vrijwel altijd boven de signaleringswaarde. Slechts 9 procent zit onder de norm.
Bij Route 8 is dat beeld heel anders, bijna de helft van de scholen haalt de norm niet.
De kans dat scholen die voor Route 8 kiezen in beeld komen bij de inspectie is dus veel groter, terwijl niet vaststaat dat de onderwijskwaliteit op deze scholen veel lager is.
De effecten worden nu nog enigszins gedempt, omdat de inspectie kijkt naar een gewogen gemiddelde van drie jaar. Maar als deze verschillen blijven, dan zullen Route-8 scholen veel vaker bezoek krijgen van de inspectie.
De Osse schoolbestuurder Jack Daalmans schrikt van de cijfers. Het sterkt hem in de overtuiging dat het niet aan de school lag. ‘Nu lijkt het alsof de basisvaardigheden achteruithollen, terwijl een jaar later blijkt dat daar op onze scholen helemaal geen sprake van is. Als het beeld van vorig jaar had doorgezet, waren wij door de inspectie op de vingers getikt.’
Ook Melanie Ehren, hoogleraar onderwijsbeleid aan de Vrije Universiteit, is verrast door de analyse van de Volkskrant. Volgens haar komt het inspectietoezicht onder druk te staan door de onverklaarbare verschillen. ‘De kans om rood uit de risicoanalyse van de inspectie te komen, wordt dan in grote mate bepaald door toeval, in plaats van dat er echt iets aan de hand is.’
Ehren verwacht dat scholen gaan overstappen van toetsaanbieder om aan het inspectietoezicht te ontsnappen. Hoogleraar Van de Werfhorst is dat met haar eens. ‘Dit lokt strategisch gedrag van scholen uit.’
De Volkskrant heeft de analyse voorgelegd aan de Onderwijsinspectie. Die benadrukt dat het risicomodel niet alleen gebaseerd is op de signaleringswaarde, maar bijvoorbeeld ook op meldingen en plotselinge leerlingdaling. Toch erkent de toezichthouder dat er grote zorgen zijn en ‘de problemen met de vergelijkbaarheid’ moeten worden opgelost.
‘Het mag voor leerlingen niet uitmaken welke toets zij maken. Verschillen tussen doorstroomtoetsen maken ons werk gecompliceerder’, laat een woordvoerder weten. ‘Wanneer er geen verklaring voor de verschillen kan worden gegeven, wordt het moeilijker om scholen zo zuiver mogelijk te beoordelen.’
Saillant detail: in juni vorig jaar wees de Onderwijsinspectie het CvTE al op ‘gekke dingen’ in het patroon van de toetsuitslagen, blijkt uit een e-mail die de Volkskrant kreeg na een beroep op de Wet open overheid. Daarbij werd een vergelijkbare grafiek meegestuurd waaruit bleek dat de leerlingpopulatie geen afdoende verklaring bood voor de grote verschillen tussen toetsen.
Het CvTE bevestigt met de inspectie over de kwestie te hebben gesproken. Uit de reactie van de inspectie blijkt dat de zorgen bij de inspectie daarna niet zijn verdwenen. Toch noemde het college drie weken later, in een terugblik op de eerste doorstroomtoetsuitslagen, verschillen in leerlingenpopulatie alsnog als belangrijkste verklaring voor de sterk uiteenlopende toetsresultaten.
Vrijdag wordt het landelijk overzicht van de doorstroomtoetsuitslag van dit jaar bekend. Honderden scholen stapten net als die van Filios Scholengroep over van Route 8 naar Leerling in Beeld. Of zij dit jaar ook veel hoger scoren, maakt het CvTE pas later dit jaar bekend.
Maar uit eerste analyses van het Cito blijkt dat de resultaten van scholen die dit jaar zijn overgestapt naar Leerling in Beeld ‘over het algemeen vergelijkbaar zijn’ met scholen die vorig jaar ook al de toets gebruikten, laat de aanbieder weten. Een extra aanwijzing dat het overstappen naar de toets die vorig jaar de hoogste scores had, zin heeft gehad.
De Tweede Kamer en de PO-Raad, de belangenorganisatie van schoolbesturen, hebben staatssecretaris Paul verzocht om uit te zoeken of het mogelijk is om over te stappen naar een stelsel met één enkele eindtoets in groep 8. De staatssecretaris voelt hiervoor weinig, maar heeft toegezegd de mogelijkheden ‘te verkennen’. Ze informeert de Kamer hier volgende maand over, al worden de uitkomsten pas in het najaar verwacht. Of de doorstroomtoets een goed instrument is voor het inspectietoezicht, wordt ook onderzocht.
Volgens hoogleraar Van de Werfhorst zou het verstandig zijn als het ministerie zou kiezen voor het gebruik van één eindtoets. ‘Gestandaardiseerde toetsen brengen het voordeel dat de kansengelijkheid wordt bevorderd, en de bevindingen van de Volkskrant laten zien dat de standaardisatie gebreken vertoont.’
In Oss zitten de schoolbestuurders met dubbele gevoelens. Ze zijn blij dat de resultaten van hun scholen weer terug zijn op het niveau van voor 2024. Maar ze moesten tegen hun eigen directeuren met enige gêne erkennen dat ze aanvankelijk wel erg streng waren.
Bovendien, vraagt schoolbestuurder Jack Daalmans zich hardop af: ‘Hebben wij onze leerlingen vorig jaar wel goed geadviseerd? Hoe hadden zij gescoord als ze de Leerling in Beeld-toets hadden gemaakt?’
Zijn collega Archel Kerkhof kijkt ook naar het ministerie van Onderwijs. ‘Ik heb er last van hoe de staatssecretaris in de Tweede Kamer blijft verdedigen dat het niet uitmaakt welke toets een school kiest’, zegt hij. ‘De implicatie is bijna: die scholen kunnen er niks van. Het geeft onrust, dat leidt af van het geven van goed onderwijs.’
Maandag gaan basisschoolleerlingen weer zitten voor hun doorstroomtoets, die is ingesteld om kansenongelijkheid te verminderen. Na één jaar blijkt het tegenovergestelde het geval, laat onderzoek van de Volkskrant zien. Veel kinderen worden te hoog ingeschaald en kunnen niet meekomen, met grote gevolgen voor hun zelfvertrouwen.
De doorstroomtoets is ‘allesoverheersend’ geworden en dat is ‘per definitie ongewenst’, zegt Cito-bestuursvoorzitter Saskia Wools. ‘Een toets geeft nooit een totaalbeeld van de werkelijkheid.’
De vier basisscholen die niet al hun groep 8-leerlingen de verplichte doorstroomtoets hebben laten maken, gaan dat alsnog doen. De financiële sancties waarmee staatssecretaris Mariëlle Paul dreigt, zijn volgens de scholen te ingrijpend.
Source: Volkskrant