Na het hele web te hebben gekopieerd, worden de AI-bedrijven nu zelf bestolen

Achter de schermen OpenAI, Anthropic en Google klagen over diefstal van hun dure AI-modellen. Als je ze de juiste vragen stelt, verklappen de chatbots hoe ze werken. Dat kan gevaarlijk uitpakken.

Ironisch is het wel. Jarenlang trainden Amerikaanse techbedrijven hun AI-modellen op alle data die ze op het web bij elkaar konden schrapen. Creatief werk van tekstschrijvers, muzikanten, schilders, tekenaars, filmmakers en softwareontwikkelaars werd opgeslurpt om AI te voeden.

Nu vrezen OpenAI, Anthropic en andere techbedrijven voor hun eigen intellectueel eigendom. De allerslimste AI-modellen zijn namelijk te klonen met een techniek die ‘distilling’ heet. Stel je een chatbot genoeg slimme vragen, dan kun je uit de antwoorden afleiden hoe het AI-model onder de motorkap werkt. Die kennis gebruik je om een ander model te trainen, dat soms krachtiger kan uitpakken dan het origineel.

Op de AI+ Expo, eerder deze maand in Washington DC, zaten medewerkers van Anthropic en OpenAI op één podium om hun gal te spuien over ‘distilling attacks’. Normaal gesproken concurreren deze AI-bedrijven elkaar de tent uit, maar in hun klachten over diefstal werken ze gebroederlijk samen via het Frontier Model Forum. Het is een clubje van de AI-elite, waar Google, Microsoft, Meta en Amazon zich ook bij aansloten.

De vingers wijzen richting China, waar AI-modellen zoals DeepSeek de kennis zouden afkijken van Amerikaanse voorbeelden. Dit gebeurt op grote schaal, vertelde Thompson Paine, die zich over Anthropics geopolitieke positie ontfermt. Eerder meldde Anthropic dat Chinese AI-bedrijven via 24.000 nepaccounts kennis hebben gestolen.

Volgens Andrew Duberstein, datawetenschapper bij OpenAI, is het „een kat-en-muisspel” om de illegale accounts te weren die hun topmodellen beroven. Hij wil niet veel kwijt over de tegenmaatregelen die hij neemt, maar de aanvallers zijn te herkennen doordat ze systematisch heel gestructureerde vragen stellen. Heel anders dan de alledaagse problemen die Jan met de pet aan ‘Chat’ voorlegt.

De leraar en de student

Distilleren is een gangbare methode om AI-modellen kleiner en efficiënter te maken, zodat ze minder rekenkracht vergen. Denk aan het distilleren van drank: je stookt een sterkere variant, met minder water en meer alcohol. Maar hoe werkt het?

Maarten Grootendorst is een Nederlandse AI-expert die bij Google Deepmind werkt. Hij is bovendien iemand die taaie materie helder kan samenvatten, zoals een leraar ingewikkelde kwesties aan een student uitlegt. En dat is precies wat er bij het distilleren gebeurt: één model dient als leraar, het andere model leert door specifieke vragen te stellen.

AI-modellen zijn voorspelmachines die bij elke opdracht berekenen wat de waarschijnlijkheid is dat delen van een woord (tokens) dicht bij andere tokens staan. Grootendorst: „Grote taalmodellen gebruiken daarvoor een vocabulaire, een woordenboek, dat uit een paar honderdduizend tokens bestaat. Bij een antwoord op een vraag krijgt elk van die tokens een waarschijnlijkheid mee. De verdeling van zulke waarschijnlijkheden is het afwegingsproces. Dat kun je klonen.”

Bij open source-modellen is dat makkelijker dan bij de commerciële, gesloten versies van bijvoorbeeld Google, Anthropic en OpenAI. Daar heb je alleen beschikking over de vraag en het antwoord, maar niet over het gedachtenproces. Toch kun je zo de intelligentie van het model nabootsen.

Grootendorst: „Als je een voorspelling maakt zoals ‘een plus een is twee’, dan heeft dat antwoord een bepaalde waarschijnlijkheid. Die vraag stel je eerst aan de leraar, daarna aan de student. En je zegt: ik wil dat het antwoord lijkt op het antwoord van de leraar. Omdat je de eigenschappen van het student-model goed kent, kun je met de feedback van de leraar de student intelligenter maken.”

Voor AI Agents werkt destilleren iets anders. Die denken in stapjes (‘Dus, je wilt weten wat een plus een is? Laat ik een rekenmachine gebruiken, dan vertel ik je de uitkomst later’). Grootendorst: „In plaats van dat je alleen maar traint op vraag-antwoord, train je op vraag-antwoord-antwoord-antwoord-antwoord-antwoord.”

Dat klinkt een beetje raar, geeft hij toe, maar het werkt.

Oneerlijk en gevaarlijk

OpenAI en Anthropic willen op korte termijn naar de beurs en mikken op een marktwaarde van bijna duizend miljard dollar. Maar hun producten zijn een stuk lastiger te verkopen als concurrenten met goedkopere vergelijkbare AI-technologie op de proppen komen. De voorsprong van de Amerikaanse topmodellen op Chinese alternatieven is geslonken tot amper een half jaar, terwijl de Chinese techsector veel minder krachtige chips tot zijn beschikking heeft. Intussen draaien techbedrijven in de VS op voor de investeringen in dure datacenters.

Jarenlang pleitten AI-bedrijven al voor deregulering, om hun innovatietempo niet te vertragen. Het schrapen van data ging links- of rechtsom: met of zonder toestemming, voor of achter de betaalmuur, al dan niet aangeklaagd door de gedupeerde makers. Allemaal onder het mom van ‘fair use’, een bepaling in het Amerikaanse auteursrecht die hergebruik van het werk van rechthebbenden kan toestaan als je er iets nieuws mee doet. Chatbots bouwen, bijvoorbeeld.

Spieken bij AI-modellen is blijkbaar geen fair use. De techbedrijven krijgen steun van de regering-Trump, die industriële distillatie „onacceptabel” noemt. De Amerikaanse overheid is gevoelig voor het argument dat Chinese concurrenten de AI-kennis kunnen klonen en ontdoen van veiligheidsrestricties die bedrijven in de VS wel inbouwen. Dan kunnen de modellen van Anthropic of OpenAI ingezet worden om cyberaanvallen uit te voeren of biologische wapens te ontwikkelen. Veel Chinese modellen worden verspreid als opensourcesoftware, en overspoelen zo de markt. Ook producten als Mythos, Anthropics AI-model dat gaten in software opspoort en kan dichten, vallen zo in handen van kwaadwillenden.

Wow-effect

Bijna vier jaar na de introductie van ChatGPT is het wow-effect van AI verdwenen. De topmodellen doen nog weinig voor elkaar onder en de onderlinge verschillen vervagen. De winnaar is het bedrijf dat de meeste gebruikers weet te bedienen en de hoogste computer- en stroomrekening kan betalen.

Volgens Mark Patel, een McKinsey-analist die afgelopen week op het Imec Technology Forum in Antwerpen sprak, zitten de taalmodellen aan hun taks. Techbedrijven schreeuwen om meer processors en geheugenchips, maar ze moeten veel efficiënter leren werken voordat robots op elke straathoek staan en AI-agents daadwerkelijk je baan kunnen overnemen.

Het samenpersen van de gigantische modellen is de enige manier om de beperkingen in rekenkracht en energie het hoofd te bieden. „We zijn nog lang niet in de buurt van massale AI-adoptie door de maatschappij”, zei Patel. De wetten van de „token-economie” zijn hard: distilleren is broodnodig om de kosten omlaag te brengen. Anders stokt de AI-race.

Kunstmatige intelligentie

Lees meer