'Meta gebruikte ruim 80TB aan illegaal verkregen data om AI te trainen'

Meta gebruikte naar verluidt ruim 80TB aan illegaal verkregen data om het Llama-llm te trainen. Werknemers van het bedrijf zouden onder meer ruim 35TB aan documenten uit Z-Library en LibGen hebben gedownload aan de hand van torrents.

Uit geopenbaarde interne e-mails zou blijken dat Meta voor het trainen van Llama grote datasets via torrents downloadde. LibGen, afgekort van Library Genesis, zou de voornaamste bron zijn geweest, zo schrijft Ars Technica. Deze zogenoemde shadow library bestaat uit tientallen miljoenen boeken en materiaal daarin zou door Meta-medewerkers illegaal gedownload zijn. De aanklagers beweren dat Meta eerder al eens ruim 80TB aan alleen LibGen-materiaal downloadde.

Uit de geopenbaarde mails blijkt dat medewerkers onderling en met de juridische afdeling communiceerden over deze illegale praktijk. Een medewerker zou hebben geschreven: "Torrenten vanaf een werklaptop voelt niet juist." Een andere medewerker zou hebben geredeneerd dat Meta moest stoppen met het afnemen van legitieme licenties voor boeken, omdat het bedrijf zich dan niet meer zou kunnen beroepen op 'fair use'-gebruik van het overige materiaal. Ook zou er intern gesproken zijn over het 'vermijden van het gebruik van Facebook-infrastructuur' om het 'traceren van seeds en downloads naar Facebook-servers' te vermijden.

De e-mails maken onderdeel uit van de bewijsvoering van de aanklagers, een groep Amerikaanse auteurs waarvan auteursrechtelijk beschermd materiaal gebruikt zou zijn om AI mee te trainen. Eerder beweerden de aanklagers al dat Meta-ceo Mark Zuckerberg het gebruik van illegaal gedownload materiaal goedkeurde. Het is nog niet duidelijk wanneer de rechter een uitspraak in de zaak gaat doen.

Source: Tweakers.net

Home

'Meta gebruikte ruim 80TB aan illegaal verkregen data om AI te trainen'