Dankzij spraakwetenschapper Phat Do kan iedereen klinken als een Fries

Computers die Engels spreken zijn er volop. Maar voor ‘kleine’ talen als het Fries zijn de mogelijkheden beperkt.

Spreek eens het woord ‘opeens’ uit. Voel je wat je tong doet? Terwijl je mond de o vormt, zakt je tong, en bij de n en s beweegt hij omhoog en naar voren, tegen je gehemelte aan. Phat Do (35) ziet zulke klankdetails van een taal meteen. „Daardoor kan ik vrij goed imiteren hoe mensen praten”, zegt hij met een trotse glimlach. „Soms leidt dat tot misverstanden: ik klink in nieuwe talen beter dan ik ze begrijp, waardoor mensen denken dat ik alles versta – terwijl ik geen idee heb wat ze zeggen.”

Die fascinatie voor klanken bracht Do van zijn geboorteland Vietnam via Finland naar Leeuwarden, waar hij nu vijf jaar woont. En wat doet een spraakwetenschapper in Friesland? Werken aan het Fries, natuurlijk. Tijdens zijn promotie aan de Rijksuniversiteit Groningen bouwde hij een online programma waarmee iedereen in vloeiend Fries kan spreken. Op zijn website kun je zinnen typen, zoals Praat mar Frysk!, en de computer leest ze hardop voor − met de herkenbare klank van echte Friese stemmen, verzameld door tientallen vrijwilligers.

Friese kunstmatige stemmen bestonden al, maar die klinken nog vaak onnatuurlijk en houterig. Do legt uit dat de reden daarvoor is dat Fries lang een zogenoemde low-resource language was. Dat zijn – zoals de term al zegt – talen waarvoor weinig middelen bestaan. In dit geval zijn de middelen trainingsdata, waarmee een spraakmodel ‘leert te spreken’.

Die trainingsdata bestaat meestal uit paren van tekst en audio. „Het model bekijkt steeds die paren en ziet: bij deze tekst hoort dit soort audio, bij de volgende tekst dat soort audio”, beschrijft Do. „Zo leert het model de relatie tussen tekst en spraak.” Als het model genoeg voorbeelden heeft gezien, kan het ook onbekende teksten omzetten in spraak – op een manier die natuurlijk klinkt. Dan is het model ‘getraind’.

Tienduizend uur aan spraak

Wat hier ‘genoeg voorbeelden’ zijn verandert elk jaar. „De modellen worden steeds beter qua spraakkwaliteit, maar ze hebben daarvoor ook elk jaar meer trainingsdata nodig”, zegt hij. Een systeem dat vier jaar geleden ongeveer twintig uur aan opnames nodig had, vraagt nu makkelijk tienduizend uur.

Audio-opnames bestaan vaak wel, bijvoorbeeld in de vorm van audioboeken, maar dat type audio is niet ideaal om een model mee te trainen. „Een model dat op non-fictieaudioboeken traint, klinkt ook als een voorleesstem”, legt Do uit. Om spraak natuurlijk te laten klinken, heb je ruisvrije audio-opnames met bijbehorende tekst nodig. En die data is schaars én duur.

De reden voor het gebrek aan hoogwaardige trainingsdata voor low-resource-talen, heeft volgens Do weinig te maken met het aantal sprekers. „Spraaktechnologie wordt nog steeds gedomineerd door Big Tech”, benadrukt Do. „Het gaat dus om commerciële waarde.” Zelfs Vietnamees, de moedertaal van Do, gold lange tijd als zo’n low-resource-taal, terwijl wereldwijd ongeveer 80 miljoen mensen die taal spreken.

„Maar daarom is het juist belangrijk dat academisch onderzoek zich hierop richt”, vindt Do. „Wij hebben de ruimte om dingen te ontwikkelen die nuttig zijn voor gemeenschappen, zonder dat alles draait om commercie.” Zijn doel was een spraakmodel voor de low-resource-talen te ontwikkelen dat met minder trainingsdata toe kan en toch natuurlijk klinkt.

Fries was volgens Do een ideale testcase voor zijn onderzoek. Ironisch genoeg spreekt hij zelf nog geen Fries. „Dat schaam ik me wel voor”, geeft hij lachend toe. „Op mijn proefschrift staat ‘Praat mar Frysk’, maar ik spreek het nauwelijks.” Tijdgebrek is de reden, zegt hij.

Gelukkig waren de trainingsdata voor zijn Friese spraakmodel via Mozilla Common Voice beschikbaar. Dat is een openbare dataset met spraakopnames, waarvoor vrijwilligers thuis zinnen kunnen inspreken. „Met 32 uur aan opnames van dertig Friezen hadden we ineens genoeg data. Technisch gezien is Fries dus nu geen low-resource-taal meer”, vertelt Do.

Toch wilde hij bewijzen dat het ook met weinig data werkt. Zo kan zijn methode worden toegepast op andere low-resource-talen, zoals Bulgaars, Swahili of Oezbeeks. Hij bouwde dus een model met slechts twintig minuten aan opnames van één van de dertig Friese sprekers.

Het belang van klankovereenkomst

Daarvoor leerde hij het spraakmodel eerst een taal met veel data, en daarna een tweede taal met weinig data. Eigenlijk werkt dat net als bij mensen: het is makkelijker een nieuwe taal te leren als je al kunt spreken, dan wanneer je vanaf nul moet beginnen.

Maar welke eerste taal werkt het best als een model bijvoorbeeld Fries wil leren? Tot nu toe keken onderzoekers naar de taalfamilie. Logisch, want een Nederlander leert sneller Fries dan een Chinees. Wat Do echter ontdekte, is dat klankovereenkomst belangrijker is.

Hij ontwikkelde een test die de gelijkenis tussen talen meet. Voor het Fries testte Do vijf talen als basistaal: Nederlands, Fins, Frans, Spaans en Japans. Niet verrassend scoorde Nederlands het hoogst. Opvallender was dat Fins beter werkte dan Frans of Spaans, ondanks de andere taalfamilie. Volgens Do draait het dus minder om de taalfamilie en meer om hoe de klanken van een taal worden uitgesproken – bijvoorbeeld met de positie en beweging van de tong – en welke klanken een taal heeft en hoe vaak die voorkomen.

Waarom zou je überhaupt investeren in kleine talen? Do is daar helder over: „Taal draagt cultuur met zich mee. Je kunt een boodschap vaak vertalen, maar de nuances raak je kwijt. Iedereen verdient een digitale stem, in de taal die bij hen past.”

Zijn ambitie is om spraaktechnologie beschikbaar te maken voor iedere taal, hoe klein ook. „Het zou toch jammer zijn als mensen alleen nog grote talen spreken, omdat dat makkelijker is.” Een Friese Alexa, robots in zorginstellingen die Fries spreken, of een website die Friese teksten zo vloeiend als een mens voorleest aan slechtzienden – dankzij onderzoekers als Do is die technologie niet langer toekomstmuziek.

Wie isPhat Do?

Schrijf je in voor de nieuwsbrief NRC Broncode

Doorzie de wereld van technologie elke week met NRC-redacteuren

Source: NRC

Home

Dankzij spraakwetenschapper Phat Do kan iedereen klinken als een Fries

Tienduizend uur aan spraak

Het belang van klankovereenkomst

Wie isPhat Do?

Schrijf je in voor de nieuwsbrief NRC Broncode