Deepfakevideo’s worden razendsnel beter. Hoe herken je met het blote oog wat nep is?

Foto’s en video’s die door kunstmatige intelligentie zijn gemaakt zien er steeds levensechter uit. Hoe zie je als mens van vlees en bloed wat door de computer is gemaakt? Tipje van de sluier: tel vingers en tenen, en volg de wetten van de natuur.

is techredacteur voor de Volkskrant. Ze schrijft onder meer over sociale media en kunstmatige intelligentie.

Een vissersbootje lijkt haast te bezwijken onder het gewicht van een gigantisch kreeftachtig monster dat naar de oppervlakte is getakeld. Terwijl het beest boven het dek hangt, krijgen we zicht op tientallen krioelende poten – hebben we al die tijd nietsvermoedend in het blauwe water liggen dobberen, terwijl er zulke buitenaardse knoeperds in de diepte verscholen lagen?

A stunning AI-generated video has emerged, showing fishermen reeling in what seems to be the world's largest fish. #AIFootage #ViralVideo #UnrealReality

Het antwoord is nee. De video is nep, of eigenlijk: het monster bestaat niet. Wie langer kijkt ziet dat er een heleboel niet klopt. Zo hangt het dier een meter boven het dek, als aan een katrol – maar er zijn nergens touwen of spanbanden in beeld. Als een van de vissers zijn handen over het ruggenschild laat gaan, deukt dat als een pudding in.

Maar deze technologie verbetert snel, en vooral stilstaand beeld kan heel levensecht zijn. Hoe herkennen we wat door AI is gemaakt?

Hoeveel vingers zitten er aan een hand?

‘Kunstmatige intelligentie snapt niet hoe het menselijk lichaam werkt’, zegt Theo Gevers, die als hoogleraar aan de Universiteit van Amsterdam onderzoek doet naar deepfakefoto’s en -video’s. ‘Het genereert ogen, neuzen, handen en haar op basis van een haast oneindige database aan gezichten. Maar omdat mensen handen schudden, of vingers in elkaar vlechten, lijkt het soms alsof één hand veel meer vingers heeft.’

Het systeem heeft geen anatomische kennis over hoeveel vingers een hand hoort te hebben, of hoeveel tenen er doorgaans aan een voet zitten – en dus ziet het niks afwijkends bij een hand met zes vingers of een voet met vier tenen (voeten komen op beeldmateriaal ook een stuk minder vaak voor, waardoor er minder referentiemateriaal is). Vingers en tenen tellen is dus een snelle methode om nepbeelden te spotten.

Dit soort unheimische, door AI gegenereerde geschiedenisvideo’s zijn plots overal op sociale media te zien. Los van de gekke verhaallijn en onnatuurlijke bewegingen (komen we zo op) tel je bij het openingsshot aan beide voeten één teen te veel.

Gezichten: vergeet ’t maar

Deze zomer stond Gevers met zijn collega’s op Lowlands, om festivalgangers het verschil tussen echte en door AI gegenereerde beelden te laten spotten. Bij gezichten zagen mensen het verschil vaak niet meer – en niet (alleen) omdat ze onder invloed waren. ‘Gezichten zijn al ontzettend realistisch, omdat hier veruit het meeste beeldmateriaal van bestaat en er specifieke 3D-modellen zijn ontwikkeld om deze bewegingen en kenmerken goed te krijgen.’

Het helpt volgens Gevers om te focussen op wat er rondom het gezicht gebeurt, ook als je daar maar een klein stukje van ziet. Een hand op een schouder die raar ligt, een hek op de achtergrond dat ineens een gekke draai maakt. ‘Of accessoires, zoals oorbellen of een brillenpootje dat niet natuurlijk op het oor rust.’ Dat komt doordat AI niet alleen een gebrek aan anatomische kennis heeft, maar ook niks van de natuurwetten begrijpt.

Zelf proberen? Doe hier de Lowlandsquiz.

De wetten van de natuur: bestaan niet

Mensen ervaren de wereld in 3D, maar voor AI is de aarde plat. Gevers: ‘Wij stoten ergens tegenaan, kunnen dingen omgooien of vastpakken. Zo leren we hoe zwaartekracht werkt, kunnen we diepte inschatten en kennen we de vermogens en beperkingen van het menselijk lichaam.’

AI heeft hiervan geen flauw benul. Het kan wel beschrijven hoe een glas wijn tot aan de rand wordt volgeschonken, waarna er een bolling ontstaat tot het langs de buitenkant omlaag stroomt – maar al die zinnen haalt het uit beschrijvingen op internet, het heeft geen intrinsiek begrip ervan.

Als je ChatGPT de opdracht geeft om een wijnglas te genereren dat tot de rand vol zit, komt het systeem (op het moment van schrijven) niet verder dan een net boven de helft gevuld glas.

Het heeft kennelijk geen afbeeldingen gezien waar een wijnglas helemaal tot aan de rand was gevuld, en kan geen natuurkundige kennis gebruiken om te beredeneren hoe zoiets eruit moet zien. Geef je de opdracht dat het glas moet overstromen, dan blijft het halfvol en spetteren de druppels er dwars doorheen.

In deze video een wat meer uitgebreide uitleg over waarom ChatGPT dit niet kan.

Een ander voorbeeld is dit filmpje van een Renaissance-schilder die gele en blauwe verf mengt. In plaats van dat er groene verf verschijnt, blijft de verf een gelige kleur houden.

Of: als die schilder even later een boterham op de markt haalt, tovert de koopman als een goochelaar een stuk brood uit het luchtledige (en, wie goed oplet spot wederom zes vingers aan de rechterhand).]

Je boerenverstand is dus een prima raadgever bij het opsporen van AI-beelden. Kloppen de schaduwen met de lichtinval? Wordt een hard materiaal niet plots vloeibaar of andersom? Hoe beweegt het water of iemands lichaam?

Aan die natuurkundige kennis van AI wordt ondertussen wel gewerkt. Gevers: ‘Er wordt nu onderzoek gedaan met robots die interactie hebben met de omgeving en daardoor AI-modellen meer 3D-begrip moeten geven.’

Bij twijfel: beredeneer en check

Beredeneer bij twijfel hoe waarschijnlijk het is dat AI een video zo levensecht had kunnen maken. In een toespraak van een bekende politicus is het relatief makkelijk om AI er geloofwaardig een paar gekke uitspraken tussen te laten plakken, omdat het dan kan voortborduren op bestaand materiaal. Het genereren van een fantasiemonster – zonder bestaand referentiemateriaal – is veel lastiger.

Ook zijn er websites waar je kunt laten checken of beelden (waarschijnlijk) door AI zijn gegenereerd, zoals Sightengine – wel betaald, helaas. Een nadeel is dat AI steeds methoden ontwikkelt om aan die detectie te ontsnappen; waarna deze systemen (ook kunstmatige intelligentie, overigens) in een onophoudelijk kat-en-muisspel hun methoden weer moeten bijschaven.

Gevers: ‘Controleer bij echt nieuwswaardige gebeurtenissen of de media erover schrijven. Die hebben meer mankracht en kunde om bronnen te controleren. Als je er bij hen niets over vindt, is het onwaarschijnlijk dat de beelden echt zijn.’ En gebruik dus vooral je gezond verstand.

Beter Leven
In de rubriek Beter Leven beantwoordt de Volkskrant, samen met experts, praktische vragen op het terrein van onder meer gezondheid, geld en duurzaamheid. Zelf een vraag voor deze rubriek? beterleven@volkskrant.nl

Lees ook

Geselecteerd door de redactie