Home

ChatGPT, maar dan uit Nederland

Nog geen enkel taalmodel heeft goed geantwoord op mijn openingszin. Ik vraag altijd om de songtekst 'Frisse morgen in Parijs' correct af te maken. De taalmodellen, hoe geavanceerd ook, komen dan met bloemrijke scènes in de Franse hoofdstad met de Eiffeltoren en croissantjes, maar ze zien iets over het hoofd wat een mens, zo verwacht ik, wel snel zal zien; die woorden vormen het begin van het liedje Parijs van Kenny B. Er is een reden dat ik denk aan dat nummer, want het refrein begint met 'praat Nederlands met me', wat taalmodellen wel kunnen, maar relatief beperkt doen.

Dat is ook logisch, want veel taalmodellen zijn getraind op vooral Engelstalige teksten. Neem nu het relatief nieuwe Llama 3 van Meta, dat de basis wordt voor AI in WhatsApp en Instagram. Ongeveer 95 procent van de trainingsdata is Engelstalig. Logisch dus dat Llama 3 niet zo goed is in Nederlands als in Engels.

Taalmodellen zijn vaak goed in zaken vertalen, maar hoe zit het met het praten vanuit de cultuur? Het is voor een AI-chatbot makkelijk om Engelstalige teksten te vertalen, maar het wordt pas echt Nederlands of Vlaams als het getraind is op teksten uit de lage landen. In die trainingsdata zit immers niet alleen taal, maar is stiekem ook cultuur verscholen.

Tijd dus om aan de slag te gaan met enkele varianten van Nederlandstalige modellen. Is het beter en leuker om te kletsen met een Nederlandstalig model dan om te chatten met een Amerikaans large language model?

Afbeelding bovenaan en op frontpage: Dall-E met prompt 'een Nederlandstalig taalmodel met een mix van typisch Nederlandse en Vlaamse elementen'

Source: Tweakers.net

Previous

Next