Koninklijke Bibliotheek beperkt toegang tot collecties voor trainen commerciële AI


digitization, transformation, earth
Photo by geralt on Pixabay

De KB (nationale bibliotheek) wil niet dat commerciële bedrijven zonder toestemming digitale bronnen gebruiken voor het trainen van AI en heeft daarom de toegang tot collecties beperkt. Dat las ik bij Security.nl. In een verklaring verwijst men naar de “wijze waarop veel commerciële AI-modellen nu getraind worden – door zonder toestemming websites te crawlen”, die niet in het algemeen belang zou zijn.

De KB heeft een van de grootste Nederlandstalige collecties online staan, wat haar een dankbare bron maakt voor partijen die taalmodellen willen trainen. Hoe meer data hoe beter je uitvoerkwaliteit immers. Auteursrechthebbenden hebben hier moeite mee, want waarom moet daar niet voor worden betaald?

De Europese wetgever heeft een paar jaar terug een soort-van compromis in de wet opgenomen: gebruik van werk voor “text and data mining” (TDM) is wettelijk toegestaan (dus zonder vergoeding) tenzij een site een opt-out vermeldt. Die opt-out moet machineleesbaar zijn, omdat het anders geen doen is voor TDM dataverzamelaars.

Hoewel dit principieel en technisch onjuist is, is de trend om in robots.txt die opt-out te gaan coderen. Robots.txt is bedoeld om zoekmachinecrawlers buiten plekken te houden waar ze schade kunnen berokkenen of waar liever-niet content staat zoals stylesheets of grote bestanden die toch niet relevant zijn.

Het grote probleem is dat je met robots.txt kunt kiezen om álle robots ergens weg te houden, of alleen de genoemde robots. Je zou dus die van OpenAI kunnen blokkeren, maar dan heb je die van Bing nog niet. Blokkeer je Bing erbij, dan is er kennelijk geen bezwaar tegen mijn EngelfrietGPT-bot. En álles blokkeren betekent dat ook de zoekspider van Google er niet meer bij mag.

Er zijn ook uitgevers zoals The Guardian die in het commentaar van de robots.txt gebruik voor LLM verbieden. Dat is per definitie geen machineleesbare opt-out, want commentaar behoort een spider niet te lezen. Dat is dus zo’n geval “we moeten iets doen en dit is iets, dus laten we het doen”. Maar het komt mét Engelse advocaat die je heel welbespraakt gaat uitleggen waarom je toch echt onrechtmatig en zelfs strafbaar handelt door het te negeren.

De KB volgt desondanks deze trend door in de robots.txt van digitale collecties DBNL en Delpher de OpenAI bots (GPTBot en ChatGPT-User) toegang te ontzeggen. Dit is dus het probleem: de bot van Bing is niet uitgesloten, noch die van bijvoorbeeld Common Crawl om het over EngelfrietGPT maar niet te hebben.

En ja, in de gebruiksvoorwaarden staat ook een expliciet voorbehoud:

Voor commerciële partijen is het verboden om kopieën van auteursrechtelijk beschermde werken op onze website te maken ten behoeve van tekst- en datamining (TDM) waaronder training van AI-modellen. Dit verbod vormt een voorbehoud als bedoeld in artikel 15o Auteurswet en artikel 4(3) CDSM-richtlijn.

Dit is dus alleen niet rechtsgeldig als verbod, omdat het niet machineleesbaar is.

Natuurlijk, in de praktijk zal het vooral gaan om hoe strak men de toegang afschermt voor commerciële bots. Maar ik kan me dood ergeren aan dit soort maatregelen die gewoon principieel niet kloppen.

Arnoud



https://blog.iusmentis.com/2024/01/18/koninklijke-bibliotheek-beperkt-toegang-tot-collecties-voor-trainen-commerciele-ai/