Het nieuwe AI-model van ChatGPT zou denken als een mens: ‘Vooral een staaltje briljante marketing’

OpenAI, de maker van ChatGPT, verlegt zijn koers met een nieuw AI-model. Dat moet minder fouten maken door te denken en redeneren als mensen. Hoe zit dat? ‘De onderliggende processen zijn fundamenteel anders.’

is techredacteur van de Volkskrant, gespecialiseerd in de impact van kunstmatige intelligentie op de maatschappij.

Twee koeien staan in een weiland. Vraagt de ene koe aan de andere: ‘Wat vind je van de gekkekoeienziekte die momenteel heerst?’ Zegt de andere: ‘Wat maakt het uit, ik ben een helikopter!’ Vraag aan een AI-chatbot om deze grap uit te leggen en je loopt direct tegen de beperkingen aan van de Large Language Models (LLM’s) die chatbots als ChatGPT aandrijven.

‘In plaats van een logische, serieuze reactie geeft de tweede koe een compleet onverwacht, absurd antwoord’, legt OpenAI’s meest geavanceerde model, GPT-4o, uit. ‘Het contrast tussen een verwachte, zinnige reactie en de volledig onlogische opmerking (een koe kan natuurlijk geen helikopter zijn), zorgt voor de humor.’

Nee, dat is natuurlijk niet de kern van de grap. Ook Claude 3.5 Sonnet van concurrent Anthropic heeft moeite en noemt het dialoogje grappig omdat het antwoord van de tweede koe niet bij de context past. Ook zou het antwoord suggereren dat de koe níét gek is. Ehm, sorry Claude: het antwoord suggereert juist wél dat de koe gek is, wat de kern van het grapje is. Gekkekoeienziekte, snap je wel?

Humor is lastig

Ondanks de indrukwekkende vorderingen van de laatste tijd op het vlak van AI is de combinatie met humor blijkbaar weerbarstig. Alhoewel? Vraag ChatGPT nogmaals de grap uit te leggen, maar nu op basis van het alternatieve nieuwe model o1 en je krijgt ineens wel een adequaat antwoord.

Twitter bericht wordt geladen...

Met de naam o1 wil OpenAI benadrukken dat het een geheel nieuwe weg inslaat en als het ware opnieuw begint. Betalende gebruikers van ChatGPT kunnen de modellen GPT-4o en o1 naast elkaar gebruiken. 4o is overigens nog altijd veelzijdiger. Zo is de veelbesproken menselijk klinkende spraakassistent alleen in combinatie met 4o beschikbaar en kan o1 (nog) niet met beeld omgaan.

De opwinding rondom o1 is groot. OpenAI wakkerde de hype handig aan door te beklemtonen dat o1 is ontworpen om ‘meer tijd te besteden aan het rustig nadenken over problemen voor er op te reageren, net zoals een mens dat zou doen’.

Twitter bericht wordt geladen...

De boodschap van Sam Altmans bedrijf slaat aan, getuige enthousiaste koppen in de media. ChatGPT zou ineens kunnen redeneren en denken zoals mensen dat doen, kan zichzelf factchecken, kan ‘beter redeneren dan promovendi in de wiskunde’ en is een geheel nieuw model.

Traagheid als pre

Vooral het feit dat o1 aanzienlijk trager is dan de gangbare modellen (wat normaliter geen pluspunt zou moeten zijn) spreekt tot de verbeelding. Wie o1 een vraag stelt, zal af en toe veel geduld moeten hebben. Bij ingewikkelde logische puzzels kan het AI-programma zomaar meer dan een minuut nadenken.

De chatbot houdt ondertussen de vraagsteller netjes op de hoogte van waar hij mee bezig is en welke stappen hij onderneemt: ‘bezig met nadenken’, ‘overwegen van de implicaties’, ‘logica bekijken’, ‘herzien van de logica’, ‘onderzoeken van consistentie’ of ‘identificeren van de waarheid’.

De afzonderlijke stappen en de traagheid appelleren nadrukkelijk aan het concept ‘langzaam denken’ van Nobelprijswinnaar Daniel Kahneman. In zijn bestseller Thinking, Fast and Slow, in Nederland vertaald onder de titel Ons feilbare denken, onderzoekt de psycholoog twee manieren waarop de mens denkt.

Het ene systeem is snel, automatisch en intuïtief, terwijl het tweede langzamer, bewuster en logischer is. Volgens Kahneman vertrouwt de mens in het dagelijks leven vaak op het snelle systeem, wat ons vatbaar maakt voor foute oordelen.

Bizarre fouten

De bizarre fouten die de gangbare modellen van ChatGPT kunnen maken, illustreren dit beeld onbedoeld. Wie aan GPT-4o vraagt: ‘Hoeveel r’en zitten er in deze zin?’, krijgt – razendsnel – als antwoord ‘vier’: de r in ‘r’en’, de r in ‘er’, de r in ‘zitten’ en de r in ‘deze’. Chatbots kunnen in een oogwenk een adequate samenvatting geven van een complex boek, maar hopeloos falen in simpele sommetjes.

Voor mensen wellicht lastig te begrijpen, maar heel verklaarbaar: GPT-4o is een voorspellend taalmodel, geen wiskundig model. OpenAI’s o1 brengt het er wél goed van af, volgens zijn maker omdat het redeneert zoals mensen doen.

Maar pas op met die analogie, waarschuwen critici. ‘De onderliggende processen van chatbots zijn zo fundamenteel anders dan die van het menselijk denken dat de associatie met Kahneman geen hout snijdt', zegt Mark Dingemanse, taalwetenschapper aan de Radboud Universiteit.

Briljante marketing

Het is vooral een staaltje briljante marketing, zegt ook Jelle Zuidema, hoofddocent natuurlijke taalverwerking aan de Universiteit van Amsterdam. 'Waarom zou je überhaupt willen dat chatbots denken zoals mensen? Het menselijk redeneervermogen is immers enorm feilbaar. Mensen maken fouten of zijn bevooroordeeld. Dat wil je toch niet reproduceren?’

De reden achter OpenAI’s keuze om chatbots menselijke eigenschappen toe te kennen, is volgens critici simpel: geld. Bedrijven als OpenAI hebben grote hoeveelheden kapitaal nodig om hun ambities waar te maken. Claims dat hun technologie menselijk is, doen het nu eenmaal goed bij investeerders.

Dat soort pretenties zijn niet zonder gevaar, betoogde informaticus Melanie Mitchell al eerder: ‘Als grote taalmodellen robuuste, algemene redeneervaardigheden zouden hebben, ondersteunt dit de bewering dat dergelijke systemen een belangrijke stap vormen op weg naar betrouwbare algemene intelligentie.’ Met andere woorden: het publiek krijgt onrealistische verwachtingen.

Verhit debat

De vraag of AI kan redeneren zoals mensen is al jaren onderwerp van verhit debat. Lost een taalmodel problemen op door abstract te redeneren, of zijn de vaak indrukwekkende resultaten het gevolg van het herkauwen van redeneerpatronen die ze uit hun trainingsgegevens hebben gehaald?

Een pragmatische benadering is om deze vraag links te laten liggen, het stokoude aforisme van de Nederlandse informaticus Edsger Dijkstra indachtig: ‘De vraag of machines kunnen denken is ongeveer even relevant als de vraag of onderzeeërs kunnen zwemmen.’ In plaats daarvan kun je een chatbot puur afrekenen op de kwaliteit van de antwoorden.

Op dat punt lijkt o1 het in vergelijking met 4o behoorlijk goed te doen. Maar hoe werkt dat ‘redenerende’ nieuwe model dan in de praktijk?

Centraal staat het al langer bestaande idee van de chain of thought, oftewel gedachtenketen. In deze benadering splitsen AI-modellen expliciet hun denkproces op in opeenvolgende stappen. Door complexe problemen (zoals bij logische puzzels of wiskundige berekeningen) op te hakken in kleinere, begrijpelijke delen, stijgt de kwaliteit van de antwoorden, is het idee.

Indrukwekkend

En inderdaad lijken de prestaties van OpenAI’s redenerende model o1 een stuk beter te zijn dan bij zijn andere modellen, zeker bij complexe taken. Het AI-bedrijf stelt zelf dat GPT-o1 bij een kwalificatie-examen voor de Internationale Wiskunde Olympiade 83 procent van de problemen correct oploste, terwijl 4o bleef steken op 13 procent.

Het zijn indrukwekkende cijfers, maar de bekende wiskundige Terence Tao was er als de kippen bij om de prestaties te bagatelliseren. De ‘Mozart van de wiskunde’ onderwierp het nieuwe model aan wat pittige tests en noemde de uitkomsten ‘ietwat teleurstellend’.

Zeker, o1 doet het echt wel beter dan 4o, maar het model is volgens hem nog altijd niet in staat om uit zichzelf conceptuele ideeën te ontwikkelen. Alleen als het de nodige aanwijzingen krijgt, lukt het om correcte oplossingen te geven. Tao’s conclusie: o1 is als een ‘niet volledig incompetente’, maar middelmatige, afgestudeerde wiskundestudent.

Aan het stapeltje wetenschappelijke artikelen over de redeneercapaciteiten van AI-modellen en de chain of thought-aanpak die OpenAI nu ook gebruikt, voegden onderzoekers van Apple onlangs een bijdrage toe. Door de ideale timing (kort na de lancering van OpenAI’s model) kreeg hun artikel veel aandacht.

Ook hier komt het beeld naar voren dat o1 weliswaar veel beter scoort dan de traditionele modellen, maar verre van feilloos is. Als onderzoekers bijvoorbeeld allerlei overbodige informatie toevoegen aan logische puzzels, gaan de prestaties van alle modellen ineens in rap tempo omlaag. GPT-o1 doet het nog het best met een verslechtering van ‘slechts’ 17,5 procent.

‘Uiteindelijk laat ons werk de aanzienlijke beperkingen zien in het vermogen van LLM’s (grote taalmodellen) om echt wiskundig te redeneren’, luidt een van de conclusies. Zuidema noemt het een ‘leuk en belangrijk’ onderzoek: ‘Het laat mooi zien dat taalmodellen zich eenvoudig van de wijs laten brengen.’

Geen consensus

Maar, zegt Zuidema ter nuance: ‘Ook bij mensen hangt het logisch redeneren sterk af van de context.’ De vraag of taalmodellen kunnen redeneren zoals mensen dat doen, blijft dus nog wel even in de lucht hangen. ‘Concluderend: er is geen consensus over de conclusie!’, schrijft Melanie Mitchell in een recente blogpost.

Zowel Zuidema als Dingemanse ziet ondertussen nog heel andere problemen. Een vaak genoemd voordeel van het ‘hardop denken’ van chain of thought-modellen is dat de redenering transparanter en controleerbaar is, omdat de gebruiker de deelstappen ziet.

Bij OpenAI is dat anders: de stappen die het taalmodel laat zien zijn niet de échte deelstappen. ‘OpenAI voegt weer een extra laag van onduidelijkheid toe omdat het de denkketen bewust verborgen houdt voor de gebruiker’, zegt Dingemanse.

Ook Zuidema stoort zich aan OpenAI’s gebruikelijke gebrek aan openheid. ‘OpenAI publiceert geen documentatie over de gebruikte technologie en houdt zijn prompts (de opdracht die leidt tot het uiteindelijke antwoord, red.) angstvallig geheim.’

Tot slot vereisen modellen als o1 veel meer computerkracht dan de traditionele, zowel bij het trainen als het gebruik. ‘Kortom: een model dat nog steeds confabuleert, maar wél overtuigender op mensen overkomt én nog veel meer energie verbruikt dan zijn toch al energieslurpende broertjes. What could go wrong?’, vraagt Dingemanse zich retorisch af.

Lees ook

Geselecteerd door de redactie

Source: Volkskrant

Home