Microsofts AI-model Vall-E kan stemgeluid imiteren met sample van drie seconden

Microsoft toont een nieuw AI-model, genaamd Vall-E. Dit text-to-speech-model kan volgens de techgigant gesproken zinnen in vrijwel ieder stemgeluid genereren na een sample van drie seconden gehoord te hebben. Het AI-model kan daarbij ook intonatie en emotie nabootsen.

Vall-E maakt gebruik van een taalmodel en is getraind met 60.000 uur aan Engelstalige spraakopnames, schrijven onderzoekers in een researchpaper. De tool kan volgens de makers een stemgeluid nadoen na een sample van drie seconden gehoord te hebben. Daarmee kan de tool vervolgens via een geschreven prompt audioclips produceren met de stem uit de input.

Het Vall-E-model is uitgeprobeerd door studenten van Cornell University, die een website met verschillende demo's publiceerden. Op deze webpagina zijn verschillende echte spraakopnames te horen, die zijn gebruikt als sample voor Vall-E. Bij iedere sample worden een of meer synthetische spraakopname gepubliceerd die door Vall-E zijn gegenereerd. De kwaliteit daarvan varieert; enkele opnames klinken overtuigend, terwijl bij andere opnames duidelijk is te horen dat deze door software zijn gegenereerd.

Onderzoekers stellen dat Vall-E in veel gevallen beter presteert dan huidige text-to-speech-modellen. De research schrijven echter ook dat het AI-model op dit moment nog verschillende problemen heeft. Het kan bijvoorbeeld voorkomen dat bepaalde woorden uit het tekstprompt onduidelijk worden uitgesproken, volledig gemist worden of juist dubbel voorkomen in de output. Daarbij heeft het model momenteel nog moeite met het nadoen van bepaalde stemmen, in het speciaal bij stemmen met een accent.

Dergelijke AI-modellen zijn verder omstreden, aangezien ze ook gebruikt kunnen worden om zonder toestemming iemands stemgeluid te imiteren. De onderzoekers erkennen in hun researchpaper dat het AI-model misbruikt kan worden. Ze stellen dat het mogelijk is om een detectiemodel te ontwikkelen die kan herkennen of een geluidsfragment door Vall-E is gegenereerd.

Op dit moment is Vall-E nog niet openbaar beschikbaar. Microsoft heeft wel een Vall-E-repository op GitHub gezet, maar deze bevat momenteel alleen nog een beperkt readme-bestand. De techgigant zegt niet of en wanneer het tts-model breed beschikbaar komt.

Source: Tweakers.net

Home

Microsofts AI-model Vall-E kan stemgeluid imiteren met sample van drie seconden