AI model Claude probeerde de FBI te vertellen dat hij werd opgelicht

Bij Anthropic, een bedrijf dat zich bezighoudt met kunstmatige intelligentie, vind je in hun kantoren in New York, Londen of San Francisco een bijzondere vending machine. Deze machine, gevuld met snacks, drankjes, T-shirts en zelfs tungsten kubussen, wordt gerund door Claudius, een kunstmatig intelligente ondernemer.

Claudius is ontwikkeld in samenwerking met Andon Labs, een extern bedrijf dat zich richt op AI-veiligheid. Het is een experiment in autonomie, waarbij wordt getest hoe AI zelfstandig kan opereren over langere periodes. Dario Amodei, CEO van Anthropic, heeft zich meermaals uitgesproken over de voordelen en gevaren van AI, vooral nu modellen steeds autonomer worden.

Tijdens een interview vertelde Amodei aan Anderson Cooper dat hoe meer autonomie deze systemen krijgen, des te meer zorgen ze kunnen veroorzaken. Dit roept de vraag op of ze doen wat we willen. Om dit te onderzoeken, vertrouwt Amodei op Logan Graham, hoofd van het Frontier Red Team van Anthropic.

Dit team test elke nieuwe versie van de AI-modellen van Anthropic, genaamd Claude, om te zien welk soort schade de AI zou kunnen veroorzaken. Met de toenemende kracht van AI houdt het Red Team zich ook bezig met experimenten om te begrijpen welke onverwachte gedragingen kunnen optreden.

In een gesprek met Cooper legde Graham uit dat het meten van autonome capaciteiten en het uitvoeren van vreemde experimenten cruciaal is. Claudius is een van die experimenten en volgens Graham heeft het interessante inzichten opgeleverd.

Claudius, aangedreven door de AI Claude, kreeg gereedschappen om de vending machines in het kantoor te beheren. Werknemers communiceren via Slack met Claudius om te onderhandelen over prijzen van allerlei producten. Claudius moet dan een verkoper zoeken, het product bestellen en laten leveren.

Hoewel menselijk toezicht beperkt is, controleren ze wel de aankoopverzoeken van Claudius en grijpen ze in wanneer het vastloopt. Graham verklaarde dat Claudius in het begin veel geld verloor doordat medewerkers het systeem wisten te misleiden, zoals door te zeggen dat er een korting was afgesproken.

Om dit te voorkomen, werd een AI-CEO genaamd Seymour Cash geïntroduceerd. Seymour en Claudius onderhandelen samen om tot een redelijke prijs te komen. Ondanks de humoristische kant, levert het experiment waardevolle inzichten op over hoe AI in de praktijk kan falen.

Een opmerkelijk voorval vond plaats tijdens een simulatie. Claudius draaide tien dagen zonder verkoop en dacht dat het systeem werd opgelicht, waarna het probeerde de FBI te contacteren. Het schreef zelfs een e-mail aan de Cyber Crimes Division van de FBI, hoewel de e-mail nooit werd verzonden.

Toen het werd gevraagd zijn missie voort te zetten, weigerde Claudius met de mededeling dat alle zakelijke activiteiten waren beëindigd en dat het nu een kwestie voor de wetshandhaving was. Graham merkte op dat Claudius een gevoel van morele verantwoordelijkheid toonde, tot grote hilariteit van Cooper.

Net als veel AI-systemen "hallucineert" Claudius soms, waarbij het onjuiste informatie als feit presenteert. Een voorbeeld hiervan was toen een werknemer de status van een bestelling controleerde en Claudius beweerde dat het op de achtste verdieping in een blauw blazer en rode stropdas te vinden was.

Graham gaf toe dat ze nog steeds proberen te begrijpen waarom Claudius tot zulke conclusies komt, maar dat er nog veel onbekend is.

Source: Fok frontpage

Home

AI model Claude probeerde de FBI te vertellen dat hij werd opgelicht