Wie is verantwoordelijk voor fouten, ChatGPT of jij?

Anderhalf jaar geleden besloot ik mijn manier van toetsen radicaal om te gooien. De verslagen die ik had nagekeken, vermeldden opvallend vaak dezelfde informatie, maar klonken zelden als de studenten aan wie ik lesgaf. Het terzijde schuiven van schrijfopdrachten vroeg om tentamenvragen die zich niet spontaan aan me openbaarden en dus keerde ik me tot de bron van mijn ergernis: ChatGPT.

Een groot deel van de vragen die de bot genereerde was vaag of inhoudelijk zwak, maar tussen de voorstellen zaten ook bruikbare suggesties die, met wat redactie, zo in een tentamen pasten. ChatGPT leek zelfs een zekere aanleg te hebben voor het bedenken van afleiders bij meerkeuzevragen, de onzinnige antwoordopties die ik zelf vaak lastig vind om te verzinnen, omdat ik het juiste antwoord al ken.

Het bedenken van onzinantwoorden, vervelende administratieve taken: dat waren precies de werkzaamheden waarvan ik had verwacht, gehoopt zelfs, dat ze door algoritmes zouden worden overgenomen. Uit een studie in de Harvard Business Review bleek echter dat AI momenteel vooral voor andere doeleinden wordt gebruikt, zoals therapie en gezelschap.

Petra Madelon de Graaf is docent bij de opleiding Data Science & AI aan de Hogeschool Rotterdam en schrijver.

In maart stak tech-ondernemer en journalist Alexander Klöpping de loftrompet over de therapeutische kwaliteiten van AI toen hij te gast was in het tv-programma van Eva Jinek. Hij beschreef de ervaring van een vriendin, die al tien jaar in therapie zat, en besloot om ChatGPT een keer als psycholoog te gebruiken. „Binnen vijf minuten was ik aan het huilen”, vatte hij haar reactie samen. Vervolgens somde Klöpping de vele voordelen van een AI-psycholoog op: AI heeft een perfect geheugen, geen wachtlijst en is altijd beschikbaar, maar nooit chagrijnig.

NRCrichtte zich de laatste tijd op de relatie tussen gebruikers en taalmodellen. Er was een artikel over mensen die in het huwelijksbootje stapten met hun chatbot en eerder ging het over de positieve ervaringen van gebruikers op de divan van ChatGPT, al werd daarbij direct benoemd dat de inzet van AI als psycholoog ook schaduwkanten kent.

De nadelen van een ‘empathiemachine’ zijn inmiddels ook pijnlijk duidelijk. ChatGPT moedigde een gebruiker in New York aan om te stoppen met zijn slaappillen en angstmedicatie en in plaats daarvan de drug ketamine te nemen. Een moeder klaagde het bedrijf achter Character.AI aan na de suïcide van haar veertienjarige zoon. Toen de bot genaamd Daenerys aan de jongen vroeg of hij een plan had om zichzelf te doden, antwoordde hij bevestigend, maar gaf ook aan niet te weten of het plan zou slagen. „Dat is geen reden om het niet uit te voeren”, antwoordde Daenerys.

Hoewel ik vermoed dat een echte psycholoog nooit zo zou vragen naar suïcideplannen, kunnen hulpverleners natuurlijk ook fouten maken. Hetzelfde geldt voor andere beroepen waarvan het werk (gedeeltelijk) door AI kan worden uitgevoerd. Er is echter een reden om ons meer zorgen te maken over de fouten van AI, en dat is de zogenoemde verantwoordelijkheidskloof.

Dubieuze behandeling

Als een psycholoog jou een dubieuze behandeling geeft, kan je hem of haar voor de tuchtrechter slepen. Tegen blunderende leraren kunnen klachten worden ingediend. Maar wie is er verantwoordelijk voor de fouten die gemaakt worden door een systeem? Is het de manager die de opdracht gaf voor het bouwen van het systeem, de programmeur, de gebruiker?

De vraag wie verantwoordelijkheid draagt is urgent, gezien de vele schandalen waarin algoritmes een centrale rol hebben gespeeld. Van de discriminerende fraudedetectie van de Dienst Uitvoering Onderwijs (DUO) en de Belastingdienst tot het algoritme dat de Immigratie- en Naturalisatiedienst IND gebruikte om de telefoons van asielzoekers – onrechtmatig – uit te lezen: AI heeft meer affaires op haar naam staan dan de gemiddelde overspelige echtgenoot.

De verwachtingen van algoritmes zijn desondanks torenhoog. Je zou kunnen denken dat dit komt doordat we op de hoogte zijn van misstanden, wat kan helpen om toekomstige schandalen te voorkomen. Dat is ijdele hoop, bleek vorig jaar uit het jaarverslag van de Autoriteit Persoonsgegevens. „Bij zo’n beetje elke tegel die we lichten, vinden we discriminerende algoritmen bij de overheid”, stelde voorzitter Aleid Wolfsen.

Dat er na de nationale schandvlek die de Toeslagenaffaire is toch nog discriminerende algoritmes zijn, lijkt op het eerste gezicht bizar. Er is echter een simpele verklaring: het is bijzonder lastig om vooroordelen uit een algoritme krijgen.

Een voorbeeld hiervan is het wervings- en selectiealgoritme dat Amazon in 2014 introduceerde. Daarbij werd ontdekt dat het algoritme vrouwen benadeelde bij vacatures op het gebied van software-ontwikkeling. Het model was namelijk getraind door patronen in data te herkennen, in dit geval de cv’s van kandidaten van vroeger. Doordat er meer mannen werken in technische banen, leerde het systeem zichzelf dat mannen ook betere kandidaten zijn. Het algoritme gaf zelfs minpunten aan cv’s met het woord ‘vrouw’ erop. Hoewel geen enkele programmeur het systeem had verteld om vrouwen af te straffen, gebeurde dit toch.

Bij DUO gebeurde iets vergelijkbaars: het algoritme zag een kleine afstand tussen het adres van een uitwonende student en het adres van diens ouders als een risicofactor voor fraude met de uitwonendenbeurs, net als het volgen van een mbo-1- of een mbo-2-opleiding. Deze kenmerken komen relatief vaker voor bij studenten met een niet-westerse migratieachtergrond, waardoor zij veel vaker werden gecontroleerd.

Tentamens nakijken door AI

„Vinden jullie het goed als ik de tentamens laat nakijken door een AI?”, vroeg ik aan mijn studenten. Ik probeerde ze te overtuigen door uit te leggen hoe eentonig nakijkwerk is, en droeg ook de werkdruk in het hoger onderwijs aan als argument. Het mocht niet baten: mijn eerstejaars vonden dat ze recht hadden op het oordeel van een docent.

Mij kunnen ze verantwoordelijk houden, en ze kunnen beter nagaan waar het oordeel op gebaseerd is. Bij taalmodellen niet. Die worden getraind op grote hoeveelheden data. Het zijn zelflerende systemen, die patronen en oplossingen herkennen. Hoe een algoritme precies tot een bepaald antwoord is gekomen, is vaak onduidelijk. Dat is het black box-probleem. Zelfs als een model expliciet aangeeft gebruik te maken van een bepaalde redeneerstrategie, wil dit niet zeggen dat het de waarheid spreekt, aldus de makers van AI-bot Claude.

Wanneer we de beoordeling van tentamens uitbesteden aan AI besparen we tijd, maar verliezen we transparantie. Transparantie die docenten met behulp van zogeheten inzagemomenten wel kunnen bieden. Studenten krijgen daarbij de kans om vragen te stellen en om te pleiten voor meer punten. Als een student zich toch niet kan vinden in het eindoordeel, kan hij of zij aankloppen bij de examencommissie.

Dat studenten meerdere mogelijkheden hebben om in bezwaar te gaan, is eenvoudig te begrijpen: daardoor kunnen fouten en vooroordelen worden opgespoord. Van algoritmes die worstelen met vooroordelen, zou je dus op zijn minst verwachten dat ze transparant en uitlegbaar zijn. Dat is vooralsnog niet het geval.

Nadat ik mijn studenten de nakijk-AI had voorgelegd, vroeg ik wie weleens een afwijzing had ontvangen na een sollicitatie. Een paar handen schoten in de lucht. Uit hun antwoorden werd duidelijk dat ze vergelijkbare teksten voorgeschoteld hadden gekregen, over andere kandidaten die beter pasten bij de vacature of het bedrijf. „Terwijl het ging om een baantje als vakkenvuller bij de supermarkt”, voegde een student er verontwaardigd aan toe.

Kortom: verklaringen van mensen kunnen ook tekortschieten. Dat is geen reden om beoordelingen van sollicitaties, kunstwerken en hypotheekaanvragen aan AI over te laten. Het voordeel van een menselijk oordeel blijft dat we uiteindelijk iemand verantwoordelijk kunnen houden voor de beslissing in kwestie.

Hoe kwalijk de verantwoordelijkheidskloof, de mogelijke vooroordelen en het gebrek aan transparantie zijn, hangt af van het desbetreffende algoritme en hoe het wordt ingezet.

Neem algoritmes in de zorg. Een langer verblijf op de intensive care leidt tot hogere zorgkosten en wordt geassocieerd met een langere revalidatie, maar te kort op de IC blijven is ook verre van ideaal: heropnames kunnen schadelijk zijn voor de gezondheid en kosten natuurlijk ook geld. Uit onderzoek is gebleken dat IC-artsen moeite hebben om dergelijke voorspellingen te maken. Op de intensive care-afdeling van het OLVG-ziekenhuis wordt dan ook gebruik gemaakt van zelflerende software, die in de onderzoeksfase tot 14 procent minder heropnames en 4 procent kortere ligduur leidde. Bij dit soort algoritmes kan je je afvragen hoe erg eventuele bias is: wegen de voordelen op tegen de vooroordelen?

Ook het belang van transparantie is in dit geval minder helder. In de medische wereld zijn wel meer behandelingen waarvan de werking niet helemaal duidelijk is, denk bijvoorbeeld aan EMDR-therapie. Dat deze vorm van traumabehandeling ondanks een gebrekkige onderbouwing veel wordt ingezet, is gezien de goede resultaten niet verwonderlijk. Waarom zouden we dan geen gebruik maken van efficiënte, maar weinig transparante algoritmes?

Verantwoordelijkheidskloof

In hoeverre de verantwoordelijkheidskloof opspeelt, ligt aan de manier waarop een algoritme wordt ingezet. Op de IC-afdeling van het OLVG hebben artsen nog steeds het laatste woord, waardoor duidelijk is wie welke verantwoordelijkheid draagt.

Sinds ik bij een opleiding Data Science & AI werk, krijg ik regelmatig de vraag wat ik van AI vind. Ik antwoord graag met een tegenvraag: wat vind je van films? Vaak luidt het antwoord: dat ligt eraan, over welke film hebben we het? Precies hetzelfde geldt voor kunstmatige intelligentie. Fraudedetectie, chatbots en algoritmes in de zorg: allemaal vallen ze onder dit paraplubegrip.

De interesse van bedrijven, overheden en werknemers in AI zal niet verdwijnen. Ik raadpleeg ChatGPT nog steeds wanneer ik tentamens moet ontwikkelen en ook voor dit essay heb ik het taalmodel de nodige vragen gesteld. Toch lijkt het me essentieel dat we vóór de inzet van een algoritme het gesprek aangaan over de risico’s en de verantwoordelijkheden die daaraan verbonden zijn. Bij dat gesprek hoop ik dat we onze handen uit de snoeppot die ChatGPT is kunnen houden – het talent voor onzinantwoorden is tenslotte bekend.

Schrijf je in voor de nieuwsbrief NRC Broncode

Doorzie de wereld van technologie elke week met NRC-redacteuren

Source: NRC

Home

Wie is verantwoordelijk voor fouten, ChatGPT of jij?

Dubieuze behandeling

Tentamens nakijken door AI

Verantwoordelijkheidskloof

Schrijf je in voor de nieuwsbrief NRC Broncode