Home

Hyperrealistische AI-video’s met één druk op de knop: kan de waarheid het nepnieuws nog bijhouden?

Met de nieuwste software van Google kun je in een handomdraai nieuwsvideo’s maken die er griezelig echt uitzien, inclusief geluid. Experts maken zich grote zorgen. ‘We stevenen hard af op een online wereld die vol met leugens zit.’

Door Laurens Verhagen

‘Shocking news’, waarschuwt de blonde nieuwspresentator de argeloze kijker, tegen de klassieke achtergrond van een journaalstudio: monitoren en een wereldkaart. Om te vervolgen: ‘J.K. Rowlings jacht is gezonken, met haar aan boord, na te zijn aangevallen door orka’s voor de kust van Turkije.’

De korte video trok op X al meer dan 5,6 miljoen views. Ter geruststelling: de beroemde schrijver van de Harry Potter-boeken mankeert niets. Ook haar 150 miljoen kostende superjacht is niet gezonken. Het hele filmpje is met kunstmatige intelligentie gemaakt, met de laatste software van Google, Veo 3 genaamd.

Op de zeer realistisch ogende beelden is nergens te zien dat deze met AI zijn gegenereerd, maar de maker heeft dat er in de begeleidende tekst wel bijgezegd. In dit geval wel, gelukkig.

Sinds de introductie van Veo 3, een paar weken geleden, worden sociale media als X, Threads en TikTok overspoeld met de voortbrengselen van dit zogenoemde text-to-videoprogramma van Google.

Het concept is vergelijkbaar met wat de wereld inmiddels van chatbots als ChatGPT kent: geef een tekstopdracht (de zogenoemde prompt) en de software doet de rest. Wat ChatGPT voor tekst, code of afbeeldingen doet, doet Veo 3 voor video.

Helemaal nieuw is dit niet. Programma’s als Sora (van ChatGPT-maker OpenAI) of Runway maken al langer korte video’s op basis van prompts. Hetzelfde geldt voor Google, met voorganger Veo 2. Waarom slaat Veo 3, dat is geïntegreerd in de betaalversie van Google’s chatbot Gemini, dan ineens in als bom? Wat maakt dit gereedschap zo anders dan de rest?

Het techbedrijf noemt zelf een hele rij verbeteringen ten opzichte van versie 2, zoals de ‘realistischere’ output, hogere kwaliteit beelden (4k), een ‘betere naleving van de prompts’ en de nieuwe mogelijkheden om consistentie te bereiken.

Allemaal leuk en aardig, maar de verwende consument is inmiddels wel gewend dat AI-gereedschap in korte tijd gigantische sprongen maakt. Nog maar twee jaar geleden maakte de AI-video ‘Will Smith eet spaghetti’ furore. Die knullige video geldt inmiddels als hét voorbeeld van de primitieve oertijd van het genre.

Nee, waarmee Google nu echt de Rubicon oversteekt, is de toevoeging van geluid aan de bewegende beelden. Wie een video maakt van een strand met beukende golven, hóórt die nu ook. Een bos met kwetterende vogels? Hetzelfde. Pas echt indrukwekkend is de mogelijkheid om personen in video’s teksten te laten uitspreken, zoals bij de video met de nieuwslezeres. De lippen bewegen keurig synchroon mee.

Google stelt Veo 3 nog niet beschikbaar in Nederland en andere landen van de EU, maar de Volkskrant kon de software toch een week proberen. Het creëren van video’s van 8 seconden (de standaardlengte) is inderdaad een fluitje van een cent.

Bewegende beelden van gefingeerde straatrellen in Amsterdam ogen realistisch, zelfs met de bewust toegevoegde zombies en middeleeuwse ridders. Bij een ‘historisch straatinterview’ in het antieke Athene (interviewer vraagt aan filosoof in toga wat zijn favoriete wijsgeer is. Antwoord: ‘Absoluut Nietzsche’) is dat wat minder het geval. Verklaarbaar: er is geen overschot aan beelden beschikbaar van het oude Athene waarop Veo zijn creaties kan baseren.

Net zoals bij tekst, foto, code of muziek werkt de video-AI op basis van gigantische hoeveelheden voorbeeldmateriaal waarmee het systeem is getraind. Bij Veo, Sora en Runway zijn dat niet alleen films, maar ook games.

Het prompten van al deze beelden is niet ingewikkeld. Ook bij een heel simpele omschrijving maakt Veo er iets moois van. Wel gelden bij video dezelfde wetten als bij andere AI-uitingen zoals foto’s: hoe specifieker de prompt, hoe beter het resultaat.

Prompt

A medium shot frames an old sailor, his knitted blue sailor hat casting a shadow over his eyes, a thick grey beard obscuring his chin. He holds his pipe in one hand, gesturing with it towards the churning, grey sea beyond the ship’s railing. ‘This ocean, it’s force, a wild, untamed might. And she commands your awe, with every breaking light.’

Het lukte de Volkskrant niet om de personen in de Veo-video’s teksten in het Nederlands te laten uitspreken. Na expliciete aansporing (‘Spreek Nederlands!’) heeft een journalist die een voorbijganger interviewt over de trainerswissel bij Ajax overigens wel een opvallend Nederlands accent.

Nederlands geluid genereren blijkt nog lastig.

Op zijn site laat Google zelf indrukwekkende, maar onschuldige voorbeelden zien van Veo-creaties. Denk aan een close-up van een papieren bootje in een stromend beekje, een oude zeeman die oreert over de kracht van het water, een violiste die in een barokke zaal speelt of het gesis van uitjes in een pan.

Het zijn echter juist de hyperrealistische creaties die de sociale media bestormen: beelden uit talkshows, straatinterviews, nieuwslezers, demonstraties, rellen of auto-ongelukken. En het zijn die beelden die argeloze kijkers in verwarring achterlaten. Google voegt weliswaar rechtsonder een piepklein Veo-logootje toe, maar dit wordt er even makkelijk weer afgesneden of valt op een klein telefoonscherm überhaupt niet op.

In de toekomst moeten consumenten zelf eenvoudig kunnen controleren of een video met AI is gemaakt of niet, belooft Google. Dit gebeurt met een onzichtbaar digitaal watermerk.

Time Magazine maakte diverse verontrustende video’s met Veo 3. Onder meer van een Pakistaanse menigte die een hindoetempel in brand steekt en van een automobilist die op een feestende menigte in Liverpool inrijdt. Inderdaad: een gebeurtenis die onlangs daadwerkelijk plaatsvond. Maar in plaats van een witte bestuurder, gaf Time opdracht een donkere man in de auto te zetten.

Een door Time geraadpleegde expert spreekt van ‘flagrant onverantwoordelijk gedrag’ van Google, dat ‘verschrikkelijke gevolgen’ zal hebben voor onschuldige mensen over de hele wereld.

Het techbedrijf stelt op zijn site dat het Veo ‘verantwoord en veilig’ heeft ontwikkeld. Google benadrukt duidelijk beleid te hebben om gebruikers te beschermen tegen schadelijk gebruik. Expliciet naakt of ‘sensationeel, schokkend of zinloos geweld’ is bijvoorbeeld verboden.

Ook staat Google niet toe om video’s van bekende (levende) mensen te maken. Wie bijvoorbeeld vraagt om een video waarin Donald Trump de stelling van Pythagoras uitlegt, krijgt als antwoord: ‘Ik kan die video niet genereren. Probeer een ander idee te beschrijven.’ Een video waarin Pythagoras zelf hetzelfde doet, is overigens geen probleem.

Tot slot zegt het techbedrijf dat het ook rekening houdt met inbreuken op het auteursrecht. Dit laatste weerhoudt drommen enthousiastelingen er ondertussen niet van om AI-vlogs te maken met ‘Greg de Stormtrooper’ in de hoofdrol, gemodelleerd naar Disney’s Star Wars. Die video’s trekken miljoenen views op TikTok.

Met name hyperrealistische video’s gaan viraal op sociale media: AI-gegenereerde beelden uit talkshows, van nieuwslezers, straatinterviews of demonstraties.

Sander Duivestein is een van de experts die zich zorgen maakt. Hij schreef in 2021 het boek Echt Nep, waarin hij en zijn medeauteurs waarschuwen voor een wereld waarin realiteit en verzinsels steeds meer door elkaar gaan lopen.

Duivestein noemt Veo 3, door de toevoeging van geluid, ‘verbazingwekkend krachtig’. ‘Dit is de vleesgeworden Echt Nep. Natuurlijk zie je nog wel foutjes voorbij komen, maar in de meeste gevallen kan je nauwelijks meer onderscheiden wat echt is en wat niet.’

Nog los van mensen die direct slachtoffer kunnen worden van nepbeelden (zoals de zogenoemde deepnudes – met AI gecreëerde naaktbeelden van personen), vindt Duivestein het eroderende waarheidsbegrip problematisch: ‘Je kunt iedereen alles laten zeggen.’

Alleen al de mogelijkheid dat bewegende beelden niet echt kunnen zijn, zorgt voor veel onduidelijkheid. Een voorbeeld is de video van de lange rijen vluchtelingen die in Rafah wachten op voedsel. AI, concludeerden velen op sociale media, maar NBC News vond daar geen bewijs voor.

Een ander probleem: door achteraf met AI bewegend beeld te maken van historische gebeurtenissen, wordt de geschiedenis vervalst. Duijvestijn wijst op de populaire ‘Bible Influencer’-video’s op social media, bijvoorbeeld waarin Jezus aan het kruis hangt en zijn publiek toespreekt.

‘Bible-influencers’ laten een grijnzende Jezus preken vanaf het kruis.

Het is wat hem betreft echter niet alleen maar kommer en kwel: ‘Dit soort gereedschap werkt democratiserend. Iedereen kan zelf Hollywoodje spelen en films gaan maken.’ De eerste voorbeelden van korte films die met Veo 3 zijn gemaakt, komen al voorbij. Soms zijn dat ‘remakes’ van klassiekers als Jurassic Park, maar het kunnen ook geheel nieuwe films zijn.

Het staat allemaal nog in de kinderschoenen, maar over twee à drie jaar zijn de AI-voortbrengselen niet meer van echt te onderscheiden, voorspelt Duivestein.

Kenners verwachten dat de snelle ontwikkelingen rondom AI vooral een ontwrichtende invloed kunnen gaan hebben op de reclamewereld. Commercials kunnen immers in een handomdraai worden gemaakt met AI-tools als Veo. Vorige week zond goksite Kalshi een met Veo 3 gemaakte reclame uit die tijdens de NBA-finales werd uitgezonden en door miljoenen kijkers is gezien. De kosten? Een schamele 2.000 dollar.

Iedereen kan nu ‘Hollywoodje spelen’.

Een vergelijkbare verschuiving was eerder al waarneembaar bij AI-muziek. Software als Suno of Udio is wellicht niet geschikt om echt vernieuwende en originele muziek te maken, voor achtergrond- of reclamemuziek is dat anders.

Onder de streep ziet Duivestein de toekomst somber in. ‘We stevenen hard af op een online wereld die vol met leugens zit. En waar waarheid ook niet meer serieus wordt genomen, omdat ze ook een leugen kan zijn.’

Voor Duivestein staat het vast: dit is niet meer te stoppen. ‘Mensen zijn verhalenvertellers en met video kan ieder verhaal makkelijk een meme worden. Een beeld zegt meer dan duizend woorden, één video meer dan duizend foto’s.’

Hij wijst op de recente video’s die de radicaal-rechtse Brit Tommy Robinson onder zijn 1,3 miljoen volgers op X verspreidde. Hierop zijn bootvluchtelingen te zien die uitspreken dat ze heel rijk gaan worden. Het Veo-logo is zichtbaar, maar dat doet er voor Robinsons volgers niet toe. ‘Let op, het zijn allemaal mannen. Met wie denken jullie dat ze seks zullen hebben zodra ze in Engeland wonen?’, vraagt een van hen zich af.

Mensen worden bang gemaakt met videobeelden en uitspraken van niet-bestaande bootvluchtelingen.

‘Het maakt mensen niet uit of iets echt is of niet, als het in hun beleving maar waarheidsgetrouw is’, zegt Duivesteijn hierover. Hij vreest dat internet zijn oude belofte (kennis vrij toegankelijk maken) niet meer kan waarmaken als waardevolle informatie verzuipt in een gigantische pool van synthetische drab.

Tekst naar video, de nieuwe AI-hype, hoe werkt het?

Met een simpele tekstopdracht in een oogwenk een realistisch ogende video maken: ook dat kan tegenwoordig met AI. Hoe werken indrukwekkende programma’s als Sora (van OpenAI) eigenlijk? En: waarom maakt zo’n programma af en toe van die rare fouten?

AI-foto’s wurmen zich tussen Google-resultaten

De kans dat Google na een zoekopdracht een door AI gegenereerd plaatje toont in de resultaten is allang niet meer te verwaarlozen. Bij een onderwerp als ‘beauty’ is die mogelijkheid zelfs al vrij groot, blijkt uit onderzoek van de Volkskrant.

Na tekst en beeld spuugt de computer nu ook muziek uit met AI: griezelig, geweldig of allebei?

Een nieuwe AI-hype dient zich aan: het maken van muziek met een simpele opdracht aan de computer. Maar kan AI-muziek ook emotioneren, verbluffen, de luisteraar van de sokken blazen?

Source: Volkskrant

Previous

Next