Boekuitgevers zitten er niet op te wachten dat kunstmatige intelligentie getraind wordt met de teksten van hun auteurs. Met een tekstregel in boeken proberen ze taalmodellen tegen te houden. Toch gaat het alsnog regelmatig mis.
De Amerikaanse uitgever Penguin Random House drukt sinds kort een nieuwe regel tekst in haar boeken. "Geen enkel deel van dit boek mag worden gebruikt voor het trainen van kunstmatige intelligentie", luidt de tekst. De regel komt te staan in alle nieuwe boeken en heruitgaven van Penguin Random House.
In de Verenigde Staten blijkt het trainen van AI-modellen met illegaal verkregen kopieën van boeken een ware plaag. Er lopen tientallen rechtszaken van Amerikaanse uitgevers om dit soort praktijken aan te pakken.
Ook in Nederland vormt het kopieergedrag een probleem. Auteursrechtenorganisatie Stichting BREIN zegt tegen NU.nl regelmatig voorbeelden van datasets te zien met illegale kopieën van boeken die zijn bedoeld om AI mee te trainen. Enkele maanden geleden haalde BREIN nog zo'n dataset offline met onrechtmatige kopieën van tienduizenden boeken.
Datamining van materiaal is volgens het auteursrecht toegestaan, tenzij nadrukkelijk wordt aangegeven dat het niet mag, zegt IT-jurist Arnoud Engelfriet. "Als zo'n voorbehoud in een papieren boek is gedrukt, mag je het niet overtypen om een taalmodel mee te trainen", zegt hij. In e-books moet een aparte regel staan, zodat geautomatiseerde AI-trainingbots begrijpen dat ze geen toegang tot het werk hebben.
Dat lijkt op de manier waarop websites nu zoekmachines buiten de deur houden. Dat gebeurt met een klein tekstbestand genaamd robots.txt. Dat bestandje staat op websites en bevat instructies voor bots die informatie van websites doornemen en indexeren.
Inmiddels staan in deze bestandjes ook instructies voor bots van AI-bedrijven. Zo mag ChatGPT volgens het bestandje van NU.nl geen teksten van artikelen gebruiken om zijn taalmodellen te trainen.
De meeste legale bots houden zich aan deze afspraken. Al is robots.txt geen rechtsgeldige afspraak, maar een algemeen geaccepteerde gentleman's agreement op het internet. Zo'n akkoord over specifiek bots voor taalmodellen is er nog niet, zegt Engelfriet.
Voor auteurs is het daarom verstandig sowieso een auteursrechtenvoorbehoud te maken, zegt directeur Bastiaan van Ramshorst van Stichting BREIN. Dat kun je doen in uitgaven waarvan je niet wil dat ze worden gebruikt om taalmodellen te trainen. "In principe zullen legitieme partijen zich daaraan houden", zegt Van Ramshorst.
Verschillende uitgeverijen in Nederland doen dat, blijkt uit rondvraag van NU.nl. Zo voegt A.W. Bruna de zin "Tekst- en datamining niet toegestaan" toe aan boeken. Ook Atlas Contact staat niet toe dat uit haar boeken wordt geput om AI-modellen te trainen. "Dat zal voor een deel door het auteursrecht worden opgevangen", zegt een woordvoerder.
Hetzelfde geldt voor Park Uitgevers, dat de volgende regels toevoegt:
Uitgeverij Pluim laat weten melding te maken bij Stichting BREIN als ze daar zien dat AI manuscripten gebruikt. Dat heeft de uitgeverij "diverse malen" gedaan, al houdt ze de tel niet bij. Ook BREIN geeft geen cijfers vrij over het aantal meldingen.
Overigens lijkt het makkelijk een waarschuwingsregel in een boek te negeren. Maar als aanbieders van datasets dat doen, maken ze dus inbreuk op het auteursrecht.
Nieuwe Europese regels gaan aanbieders van AI-modellen verplichten transparant te zijn over de manier waarop ze zijn getraind. Als blijkt dat een taalmodel zonder toestemming op beschermd werk is getraind, is de aanbieder aansprakelijk.
"Een dataset waarin op een AI-model is getraind kan ook achteraf nog geanalyseerd worden", zegt Van Ramshorst. "Als dan blijkt dat er inbreuk is gemaakt, moet de inbreukmaker op de blaren zitten."
Source: Nu.nl economisch