Het Nederlandse AI-taalmodel GEITje is offline gehaald op 'dringend verzoek' van Stichting Brein. GEITje zou volgens Brein deels getraind zijn op de grote Nederlandstalige dataset Gigacorpus die afgelopen zomer door de stichting offline is gehaald.
Brein zegt dat het model is getraind met tienduizenden Nederlandstalige boeken die afkomstig zijn uit een illegale bron, namelijk Library Genesis. De illegaal verkregen documenten en e-books waren terug te vinden in Gigacorpus, de dataset die aflopen zomer de rechter onrechtmatig is bevonden. Op verzoek van Brein is de dataset geblokkeerd door Nederlandse accessproviders.
"Brein is niet tegen het trainen van AI, maar vindt wel dat de auteurs van al die muziek, boeken etc. daarvoor een eerlijke vergoeding moeten krijgen. Indien de oorspronkelijke makers niet willen dat hun materiaal voor het trainen van AI wordt gebruikt, dan moet dat ook gerespecteerd worden", schrijft de stichting.
De ontwikkelaar van GEITje verweerde dat tekstdatamining is toegestaan voor wetenschappelijke doeleinden en dat het model door wetenschappers wordt gebruikt, volgens Brein. De stichting wijst er echter op dat het model ook voor commercieel gebruik openbaar werd aangeboden op Huggingface.co. "De AI Act schrijft voor dat wetenschappers rechtmatig toegang moeten hebben tot materiaal om het te mogen gebruiken voor het trainen van AI. Dat is niet het geval als bij het trainen van een model gebruik is gemaakt van evident illegale bronnen", aldus Brein.
GEITje-maker Edwin Rijgersberg, op Tweakers bekend als E_Rijgersberg, bevestigt in een eigen post dat het taalmodel eind 2023 getraind is op gedeelten van het Nederlandse Gigacorpus. Brein heeft tegen Rijgersberg gezegd dat volgens de geldende wet- en regelgeving GEITje daarom offline gehaald moet worden.
"Ik ben door auteursrechtenexperts ervan verzekerd dat dit niet zo zwart-wit is als gesteld, maar ze vertellen me ook dat er nog veel juridische vragen in Europa hierover onbeantwoord zijn. Ik kan het me niet veroorloven om een lange en vooral zeer dure rechtszaak te voeren om die vragen wel beantwoord te krijgen. GEITje is immers een niet-commercieel, wetenschappelijk hobbyproject. Daarom voldoe ik aan het verzoek van Brein.(...) Ik had gewild dat GEITje voor wetenschappers beschikbaar bleef om de wetenschappelijke reproduceerbaarheid van hun onderzoek te kunnen garanderen. Maar helaas: gesprekken daarover met Brein zijn op niets uitgelopen", verklaart Rijgersberg.
Source: Tweakers.net