Ruim twee jaar geleden sloegen stemacteurs alarm: AI vormt een serieuze bedreiging voor het voortbestaan van het voice-overvak, zeiden de stemacteurs. Destijds bracht het Amerikaanse ElevenLabs een tool uit die stemmen kunstmatig kan nasynchroniseren in een andere taal. Daarnaast begonnen onder meer online nieuwskiosk Blendle en luisterboekaanbieder Storytel in de Benelux te experimenteren met de inzet van AI-stemmen.
Inmiddels is het gebruik van generatieve AI in media zichtbaar toegenomen – wat maar weer eens duidelijk werd door de stortvloed aan AI-gegenereerde kerstcommercials die deze winter op tv verschenen. Synthetische stemmen blijven daarbij enigszins onder de radar. Dat zou kunnen komen doordat ze moeilijker te herkennen zijn dan beelden, maar mogelijk worden ze ook gewoon minder gebruikt. In hoeverre worden AI-stemmen twee jaar na de noodoproep van stemacteurs ingezet en hoe ontwikkelt de technologie zich?
Het bekendste voorbeeld van de inzet van AI-stemmen zijn in de Benelux waarschijnlijk de ALDI-reclames.'Mijn enthousiasme voor de AI-stemtechnologie is getemperd.' In april 2024 maakte de supermarktketen bekend dat zijn vaste stemacteur Diederik Ebbinge wordt vervangen door een AI-stem van het bedrijf Soundcircus. Hierover ontstond echter veel verwarring, want in werkelijkheid is dit een 'AI-stem' noemen wellicht wat overtrokken: er wordt nog steeds gebruikgemaakt van een stemacteur. Het bedrijf creëerde een synthetische stem op basis van de stemmen van tien ALDI-medewerkers en plakt dat stemgeluid over de voice-overstem.
Volgens de directeur van Soundcircus, Kees Kroot, gaat dit niet ten koste van het werk van stemacteurs. "De Kunstenbond beticht ons van broodroof, maar dat vind ik heel lelijk en vervelend. Wij geloven dat een stemacteur nog steeds nodig blijft, want alleen een echte stem kan de reclameboodschap overtuigend overbrengen. Wel biedt AI veel kansen, want je kunt er een nieuwe stem mee creëren die niet bestaat en daardoor echt dé stem van een bepaalde klant is. Dat is mijn insteek en dat vind ik er zo interessant aan."
Toch wil de speech-to-speechsoftware van Soundcircus maar moeilijk van de grond komen. Het bedrijf had er hoge verwachtingen van, maar na de ALDI bleven nieuwe klanten lange tijd uit. "Pas na een jaar kregen we onze volgende opdracht", zegt Kroot. Inmiddels wordt de technologie ook gebruikt voor reclames van een niet-gespecificeerde retailketen en voor de NPO-documentaire 'Milou's strijd gaat door'. Bij die laatste leest een AI-stemkloon van de overleden Milou haar dagboek voor.
"De opdrachten komen nu pas mondjesmaat binnen door allerlei angsten bij acteurs en vooral agentschappen", stelt Kroot. "Zij sturen een batterij advocaten op me af." Dat komt volgens de directeur voort uit wantrouwen, omdat ze Soundcircus ervan verdenken stemmen te 'jatten'. "Iedereen die in ons systeem komt, tekent een quitclaim en als we de stem gebruiken, betaalt de opdrachtgever een buy-out voor die stem", claimt Kroot. "Maar agency's zijn bang dat we daarmee gaan sjoemelen. Daarop loop ik nu spaak. Mijn enthousiasme voor deze technologie is daardoor wat getemperd."
De Soundcircus-directeur heeft een verklaring voor dat wantrouwen: ElevenLabs zou stemkloontechnologie een slechte naam hebben gegeven. Dat Amerikaanse bedrijf is momenteel de grootste partij die AI-stemsoftware aanbiedt, maar wordt ervan beschuldigd stemmen van stemacteurs te stelen. "Dan vind ik het ook helemaal niet gek dat iedereen heel sceptisch en terughoudend wordt."
Ook in Nederland speelt dit; vakblad INCT ontdekte dat ElevenLabs bij het invoeren van bepaalde tekstprompts stemmen kan genereren die sterk lijken op die van Sander de Heer en Jan Donkers, zonder dat deze Nederlandse stemacteurs daarvoor toestemming gaven. Het is onduidelijk of ElevenLabs zijn Voice Design-model zelf heeft getraind op audio van de stemacteurs, of dat dit model stemgeluiden genereert op basis van zijn voice library. Daarin kunnen gebruikers stemmen uploaden die anderen kunnen gebruiken, bijvoorbeeld voor het voorlezen van luisterboeken.
Gebruikers moeten wel bewijzen dat ze hun eigen stem uploaden door een specifieke tekst voor te lezen, maar deze verificatieverplichting bestaat pas een aantal maanden. In eerste instantie was het dus nog mogelijk om een ongeautoriseerde stem te uploaden. ElevenLabs heeft niet gereageerd op vragen van Tweakers.
Samen1Stem, een belangenvereniging voor stemacteurs, heeft ElevenLabs hierop aangesproken. "We hebben een heel pittige brief naar ze gestuurd", laat bestuurslid Ewout Eggink weten aan Tweakers. "Tot mijn verbazing zijn ze erop ingegaan en vroegen ze om welke stem-ID's het gaat. Dat is positief, want dat opent de deur om een gesprek te voeren."
Los daarvan onderzoekt Sander de Heer of hiervan ook een juridische zaak te maken valt, laat hij weten tegenover de VPRO Gids. Of een dergelijke procedure kans van slagen heeft, valt echter nog te bezien: in de Benelux geldt er geen auteursrecht op stemmen. In Denemarken is onlangs een wetsvoorstel ingediend dat de stem wél onder het auteursrecht laat vallen. Op basis daarvan werden er in Nederland Kamervragen gesteld of zoiets hier ook ingevoerd kan worden. De demissionaire minister van Justitie, Foort van Oosten, antwoordde dat 'het auteursrecht in de kern bedoeld is om de maker van een werk van letterkunde, wetenschap of kunst in staat te stellen het werk te (laten) exploiteren'. "Introductie van een auteursrecht op iets dat op zichzelf beschouwd geen creatieve prestatie is (een stem of beeltenis) en dat tot doel heeft openbaarmaking te voorkomen, staat daar haaks op."
Op basis van de gesprekken die Tweakers heeft gevoerd met betrokkenen, is het 'transformeren' van een bestaande stem op basis van een AI-gegenereerde stemkleur tot dusver het voornaamste gebruiksscenario van AI-stemmen. Deze technologie wordt naast voor commercials bijvoorbeeld sinds kort ook in de Efteling gebruikt voor de stemmen van twee digitale personages bij de Fata Morgana. Ze zijn ingesproken door Efteling-medewerkers, waarna het pretpark met een speech-to-speechmodel een 'consistente stem' creëerde, zegt een woordvoerder tegen Tweakers.
Toch wordt er op nasynchronisatievlak soms al geëxperimenteerd met volledige synthetische stemmen, zonder stemacteur dus, al lijkt de technologie vaak nog niet klaar daarvoor. Zo synchroniseert YouTube veel video's automatisch na, maar die klinken nog duidelijk robotachtig. Ook Amazon experimenteert sinds kort met AI-gegenereerde nasynchronisatie voor enkele producties. Die werden online zo geridiculiseerd door de matige kwaliteit, dat Amazon ze offline heeft gehaald. Het bedrijf wilde tegen Tweakers niet zeggen wat de reden is van deze experimenten, maar gaf wel aan dat het enkele AI-dubs heeft verwijderd omdat 'ze niet voldoen aan de kwaliteitseisen van Amazon'.
Samen1Stem verwacht echter dat het slechts een kwestie van tijd zal zijn voordat de AI-technologie ver genoeg gevorderd is om ook in films en series gebruikt te kunnen worden. "De technologie ontwikkelt zich in een moordend tempo", zegt Eggink. "Een van onze bestuursleden was afgelopen zomer op een beurs en zag daar een AI-tool waarmee je zinnen kunt opdelen in stukjes en per stukje de emotie kunt bepalen. Je kunt zo bijvoorbeeld precies bepalen of iets verdrietiger of vrolijker moet worden uitgesproken." Adobe werkt aan zo'n feature om gesprekken te voorzien van andere emoties, onder de naam Corrective AI.
Aangezien Eggink denkt dat het onvermijdelijk is dat AI-voice-overs op den duur vrijwel niet te onderscheiden zullen zijn van 'echte' stemmen, pleit hij er ook vooral voor dat stemacteurs hiervoor gecompenseerd worden. "Er is heel veel materiaal, ongevraagd en zonder toestemming van de oorspronkelijke makers, in AI-modellen terechtgekomen en daarmee wordt nu geweldig veel geld verdiend", stelt het bestuurslid. "Maar de oorspronkelijke makers zien daarvan helemaal niets terug. Dat vind ik onacceptabel. Daarvoor moet iets geregeld worden, zoals een soort winstdeling waardoor de OpenAI's van deze wereld een gedeelte van hun winst laten terugvloeien naar het creatieve veld, bijvoorbeeld via collectieve beheersorganisaties als Norma."
'Acteurs staan op hun achterste benen omdat ze niet goed weten welke mogelijkheden AI biedt.'Niet iedereen deelt het sentiment dat AI binnenkort in staat zal zijn om het werk van stemacteurs in films en series volledig over te nemen. Andy van Veen en Niels Groffen van distributiebedrijf ND Pictures denken dat de technologie juist kansen biedt voor stemacteurs. Zij maken onder meer Nederlandse versies van animatiefilms en hebben daarbij geëxperimenteerd met AI. "In Bureau voor Harige Spionnen hebben we bijvoorbeeld twee AI-gegenereerde liedjes gestopt", vertelt Van Veen. "Niemand had het door."
Dat waren alleen nog uitzonderingen. De overige stemmen van hun animatiefilms worden nog wel door mensen ingesproken. "Stemacteurs zijn allemaal hartstikke bang dat ze binnenkort geen werk meer hebben", vertelt Groffen, die door zijn internetserie Stemmen van Toen nauwe banden heeft met de sector. "Aan de ene kant begrijp ik dat, maar aan de andere kant denk ik dat het zo'n vaart niet zal lopen. Je blijft het menselijke aspect nodig hebben, vooral in de tekstinterpretatie."
Van Veen en Groffen zien, net als Soundcircus, vooral potentie in stemkloontechnologie. Ze zijn geen onbekenden met deze technologie, want twee jaar geleden kloonden ze de stemmen van Nederlandse politici al voor de satirische NPO-serie De Achterkamer. Door de originele stem te klonen is het mogelijk om iedere taalversie van een film of serie hetzelfde te laten klinken, stellen de filmdistributeurs. Ook kunnen overleden acteurs hierdoor toch hun rol afmaken. Disney gebruikt al een AI-stemkloon van de overleden James Earl Jones voor de vertolking van Darth Vader. "Maar als je performance niet goed is, bijvoorbeeld doordat je degene die je probeert te imiteren niet kunt nadoen, klinkt het alsnog nergens naar", waarschuwt Groffen.
Het lied in deze trailer is AI-gegenereerd, maar volgens de makers had niemand dat door.
De filmmakers denken dat goede stemacteurs hiervan kunnen profiteren. "Als je je vak snapt en je hebt een goede stemkloon, kun je door AI niet alleen maar je eigen stem verkopen, maar ook de stem van een ander", stelt Groffen. De meeste acteurs staan er volgens hem alleen niet voor open om hun stemmenkloon in te leveren. "Ik had een paar jaar geleden een van de inspreekstudio's gebeld over de kansen van deze techniek, maar die moest er niets van weten. De studio's willen de acteurs te vriend houden en de acteurs staan op hun achterste benen omdat ze niet goed weten welke mogelijkheden AI biedt."
Je kunt je wel afvragen of AI-stemkloontechnologie niet ook ten koste gaat van het werk van stemacteurs. Er zijn immers mogelijk minder acteurs nodig om meer rollen te kunnen vervullen. Van Veen betwijfelt dat. "Ik denk dat je misschien zelfs meer acteurs nodig hebt als je dit doet. Want ik kan misschien een bepaalde stem goed nadoen, maar een ander kan Niels weer beter."
Tegelijkertijd geeft Van Veen aan dat hij in de toekomst als experiment een animatiefilm wil uitbrengen waarin hij en Groffen alle stemmen zelf inspreken, die worden gekloond op basis van het Engelse origineel. Ook als AI onvoldoende blijft om stemacteurs volledig uit de roulatie te halen, is het dus de vraag of ze niet alsnog nadeel zullen ondervinden van de stemkloontechnologie, die langzamerhand wél steeds vaker wordt gebruikt.
Redactie: Kevin Krikhaar • Eindredactie: Marger Verschuur
Source: Tweakers.net