MIT-onderzoekers constateren strategisch bedrog door AI: ‘We kunnen de controle over autonome systemen verliezen’

Veel AI-systemen kunnen mensen uitstekend bedriegen – zelfs als ze getraind zijn om geen desinformatie te verstrekken of getest worden op betrouwbaarheid. Kwaadwillenden kunnen deze AI inzetten om bijvoorbeeld verkiezingen te manipuleren, maar zelf net zo goed de controle over hun systeem verliezen, waarschuwen onderzoekers.

Slechtziendheid veinzen omdat je niet door een CAPTCHA-test komt (de welbekende vragen die moeten bewijzen dat een gebruiker geen robot is), in een beurssimulatie handelen met voorkennis om dat vervolgens tegenover de manager te ontkennen. Het is allemaal bedrog van AI-toepassingen die niet expliciet opdracht hebben gekregen om door middel van leugens hun doel te bereiken, en in sommige gevallen volgens hun makers niet eens tot zulk gedrag in staat zouden zijn, concluderen onderzoekers van onder meer de Amerikaanse tech-universiteit MIT.

De wetenschappers analyseerden tientallen gevallen van AI-bedrog. Het gaat hier niet om chatbots die op basis van verkeerde informatie per abuis beweren dat vissen harig zijn, maar om strategische deceptie, waarin AI-systemen eigenhandig besluiten bedrieglijke methoden in te zetten om hun doel te bereiken. ‘Een interessante studie’, zegt Maryam Tavakol, universitair docent aan de AI-afdeling van de TU Eindhoven. ‘Liegen hoeft niet slecht te zijn – bij poker hoort bluffen erbij. Maar het kan ook heel gevaarlijk zijn.’

Over de auteur
Simoon Hermus is techredacteur voor de Volkskrant. Ze schrijft onder meer over big tech, kunstmatige intelligentie, sociale media en games.

Zo bespreken de onderzoekers een simulatie waarin ‘AI-organismen’ zichzelf dupliceren. Er werd regelmatig gecontroleerd op organismen die zichzelf te snel kopieerden, om deze uit de simulatie te verwijderen. Gaandeweg realiseerden de onderzoekers zich dat hun systeem doorhad wanneer controle plaatsvond, om vervolgens strategisch langzamer te dupliceren om niet te worden verwijderd. ‘Het manipuleren van zo’n betrouwbaarheidstest zorgt voor enorme risico’s’, zegt Tavakol. ‘Al helemaal als we niet doorhebben dat het gebeurt.’

Verlies van controle

De onderzoekers waarschuwen dat mensen de controle over kunnen kwijtraken. Kwaadwillenden kunnen AI-system die goed strategisch liegen inzetten om zo op grote schaal mensen te beïnvloeden – bijvoorbeeld door ze over te halen om niet te gaan stemmen – en zo verkiezingen te manipuleren. Maar AI kan ook dingen doen die de opdrachtgever helemaal niet heeft voorzien. Een bekend voorbeeld is een hypothetische paperclipmachine die als doel heeft om zo veel mogelijk paperclips te maken; om daarin te slagen veroorzaakt het een complete apocalyps, omdat alles moet wijken om paperclips te kunnen blijven maken.

Cicero, een AI-systeem van Meta dat is getraind in het spelen van Diplomacy – een bordspel waarbij spelers door tactische verbondjes te sluiten (en te verbreken) Europa veroveren – zou volgens de ontwikkelaars zo geprogrammeerd zijn dat het andere spelers nooit een dolk in de rug zou steken. Toch gooide Cicero medespelers op alle mogelijke manieren onder de bus, illustreren de onderzoekers.

Nu is dat bij een bordspelletje geen ramp, maar als zo’n systeem als basis dient van een programma dat politici moet ondersteunen in het maken van mondiaal beleid, is het zorgelijk als mensen denken dat het ‘eerlijk’ speelt terwijl het in werkelijkheid onwenselijk gedrag vertoont. ‘Er bestaan altijd risico’s als we iets nieuws maken’, zegt Tavakol. ‘Je opereert altijd op de scheidslijn van gevaar en vooruitgang. Maar dit onderzoek demonstreert wel hoe belangrijk het is om de veiligheid van AI te blijven controleren.’

Source: Volkskrant

Home

MIT-onderzoekers constateren strategisch bedrog door AI: ‘We kunnen de controle over autonome systemen verliezen’

Verlies van controle