OpenAI gaat verbod op crawling in robots.txt respecteren

OpenAI's crawler gaat een regel in de robots.txt-file van websites respecteren als daarin staat dat de crawler niet welkom is. Dan zullen de modellen van OpenAI niet getraind worden op de teksten van die site. Data die al eerder opgehaald was, blijft in de modellen.

De crawler van OpenAI, de maker van ChatGPT, liet al webpagina's met paywalls, persoonlijke informatie en 'voorwaardenoverschrijdende content' met rust, maar het is voor het eerst dat de crawler ook weggehouden kan worden bij andere content.

Webmasters kunnen de tekst toevoegen aan robots.txt, het tekstbestand dat onderdeel is van webstandaarden en instructies geeft aan niet-menselijke bezoekers. Een gangbare toepassing voor deze file is om zoekmachines te vertellen dat ze de content van pagina's niet mogen opslaan voor previews van zoekresultaten. Nu kan de file ook gebruikt worden om de useragent GPTBot buiten de deur te houden. Het opvolgen van de instructies gebeurt vrijwillig.

OpenAI traint zijn large language model op teksten op internet. Dat model is vervolgens de basis voor de informatie die ChatGPT zelf kan begrijpen in vragen van gebruikers en die het kan vervaardigen in zijn antwoorden daarop. Reddit en Twitter hebben zich kritisch geuit over het crawlen van OpenAI; ze vinden het niet kunnen dat er geld verdiend wordt met de content op die sites terwijl OpenAI daar niets voor teruggeeft. In reactie daarop stellen ze paywalls en dergelijke in, zeggen ze. Deviantart had al zijn eigen 'noai'-flag om crawlers tegen te houden, zo somt The Verge op.

Source: Tweakers.net

Home

OpenAI gaat verbod op crawling in robots.txt respecteren