Het bedrijf Amberscript tovert geluid om in geschreven tekst dankzij kunstmatige intelligentie. Daardoor kunnen dove mensen debatten volgen, en hoeven wetenschappers, secretaresses en journalisten niet meer eindeloos opnames van interviews en vergaderingen uit te tikken.
De mooiste technologieën maken het leven een beetje lichter. De wasmachine bijvoorbeeld bevrijdde huisvrouwen van het levenslust-ontnemende gezwoeg boven een zinken wasbord. De stoommachine emancipeerde de mens van de handenarbeid. En de tractor en de kunstmest verlosten miljoenen Nederlanders van een voorbeschikte toekomst als boer.
Toch stond technologie tot voor kort machteloos tegenover één hersencelvernietigend saaie kant van het menselijk bestaan: het omzetten van gesproken woord naar geschreven woord. Ze droegen hun leed in stilte, al die sociologen, secretaresses, politieagenten, griffiers en journalisten, eindeloos ploeterend om geluidsopnames van raadsdebatten, getuigenverhoren, bestuursvergaderingen en interviews uit te tikken. Maar aan hun vroeggrijze haren en doorgroefde voorhoofden was te zien hoezeer ze onder hun lot gebukt gingen.
Over de auteur
Jonathan Witteman is economieredacteur voor de Volkskrant en schrijft over de macro-economie en de bankensector.
Niet meer! Anno nu is kunstmatige intelligentie steeds beter in staat om audio om te toveren in tekst. En dat is mede te danken aan Amberscript, een AI-bedrijf dat gespecialiseerd is in automatische transcripties en ondertiteling. Zoals het uitschrijven van de veldwerkopnames van sociologen, psychologen en andere beoefenaars van kwalitatief onderzoek. Of het in meerdere talen ondertitelen van series en films, zoals de series Mocro Maffia en Máxima, of recent nog Samia, een film over het tragische leven van de Somalische sprintster Samia Yusuf Omar (1991-2012), die in juni in première ging op het Amerikaanse filmfestival Tribeca.
Maar Amberscript is ook gespecialiseerd in het rechtstreeks ondertitelen van de uitzendingen van raads- en commissievergaderingen in gemeenten van Texel tot Kerkrade. Grofweg de helft van alle Nederlandse raadsvergaderingen wordt inmiddels ondertiteld met de spraakherkenningstechnologie van Amberscript. Het doel daarvan is niet alleen om de woorden van raadsleden en wethouders te bewaren voor het nageslacht, maar ook om doven en slechthorenden in staat te stellen de politieke debatten in hun woonplaats te volgen.
‘Mijn grote drijfveer is positief bijdragen aan technologie’, vertelt oprichter Peter-Paul de Leeuw (38), een voormalige Accenture-consultant die lang als huurling werkte voor bedrijven als ASML, Shell en Philips, maar als prille dertiger voor het ondernemerschap koos. ‘Ik denk namelijk dat technologie op lange termijn de factor is die het meeste effect heeft op de mens.’
Een van de mooiste voorbeelden van die positieve bijdrage hangt als een trofee aan de muur van het Amberscript-kantoor aan de Amsterdamse Keizersgracht: een krantenknipsel uit dagblad De Stentor. Daarin stond enkele jaren geleden een artikel over een dove Staphorstenaar, die dankzij Amberscript de raadsvergaderingen in zijn gemeente kan volgen.
‘Hij is daar gigantisch gelukkig mee’, vertelt De Leeuw. ‘Dat vond ik mooi om te lezen, dat Amberscript daar een bijdrage aan heeft kunnen leveren.’
Over die naam gesproken: waarom ‘Amberscript’? Heette De Leeuws eerste liefde toevallig Amber? Of koestert hij wellicht een fascinatie voor potvissen, beroemd vanwege de amber in hun darmen, vroeger een gewild parfumingrediënt?
De reden is prozaïscher, vertelt De Leeuw. ‘Het moest simpelweg iets met script zijn, en een alfabetisch gezien gunstige persoonsnaam.’ ‘Aadscript’ of ‘Annemariescript’ hadden dus ook gekund, maar bekten wat minder goed, aldus de ondernemer.
De spraakherkenning van Amberscript steunt op een aantal pijlers. Allereerst een lexicon, een lange lijst met de woordenschat van een taal. Daarnaast een akoestisch model, dat aan de hand van spraakklanken voor elk woord de meest waarschijnlijke opties uit het lexicon oppert. En tot slot een taalmodel, dat op basis van de context de meest logische transcriptie kiest.
Amberscripts zelflerende technologie weet inmiddels raad met ruim zeventig talen, zoals Farsi, Arabisch en Japans. Hoewel de automatische transcripties van het bedrijf veel sneller zijn dan die van een mens – het uitschrijven van één uur audio kost ongeveer vijf uur, terwijl Amberscript in een mum van tijd klaar is – zijn de teksten nooit 100 procent perfect.
De Leeuw schat dat Amberscript inmiddels op 85 procent nauwkeurigheid zit. ‘Let wel: gemiddeld. Bij goede audio zitten we al op 95 procent, bij opnames van slechte kwaliteit kan het ook 60 procent zijn. Maar toen we in 2018 begonnen, hadden we nog een gemiddelde accuratesse van 75 procent.’
Wie een 100 procent nauwkeurige tekst wil, maar geen zin heeft om zelf de verbeteringen aan te brengen, kan de puntjes op de i laten zetten door een van de 150 (menselijke) transcribenten die voor Amberscript werken. Deze handmatige dienst is momenteel beschikbaar in 19 talen, van Fins en Hebreeuws tot Turks en Oekraïens.
Zal AI ooit de staat van perfectie bereiken qua transcripties? De laatste stapjes zijn het moeilijkst, weet De Leeuw. Daarvoor hebben Amberscripts taalmodellen bergen data nodig. Die data dankt het bedrijf aan zijn eigen klanten. Gebruikers kunnen op amberscript.com de transcripties van hun opnames redigeren. Met hun correcties verbeteren ze niet alleen hun eigen teksten, maar ook de taalmodellen van Amberscript.
‘Naarmate de tijd vordert, heb je almaar meer data nodig om een klein procentpuntje beter te worden. Daarom blijft de nauwkeurigheid momenteel wat hangen rond die 85 procent. Je ziet het ook bij zelfrijdende auto’s. Er wordt al heel lang gezegd: over een jaar zijn we er, dan rijden ze rond. Maar het is nog steeds niet zover, omdat die laatste procenten richting perfectie het moeilijkst zijn. Hetzelfde geldt voor spraakherkenning: 60 procent nauwkeurigheid halen is makkelijk, 70 procent is al een stuk moeilijker, en voor 85 procent heb je ongelooflijke hoeveelheden data nodig. Om nog te zwijgen van 100 procent.’
Bedrijf: Amberscript
Waar: Amsterdam
Sinds: 2018
Aantal werknemers: 200
Geselecteerd door de redactie
Source: Volkskrant