New York Times klaagt OpenAI aan om misbruik artikelen voor trainen van AI


The New York Times heeft OpenAI en Microsoft aangeklaagd voor het schenden van NYT’s auteursrecht. Dat meldde Tweakers in de kerstvakantie. De GPT taalmodellen van OpenAI zijn (mede) getraind op NYT-content, en met wat goed prompten kun je zelfs originele artikelen terugkrijgen, maar om het nou een kopieerapparaat te noemen? De vraag is dan ook fundamenteel: hóórt dit inbreuk op het auteursrecht te zijn?

De achterliggende reden is even banaal is veelvoorkomend: in april heeft de NYT onderhandeld met OpenAI en Microsoft om een betaalde licentiedeal te sluiten, maar dat is op niets uitgelopen. Er zijn meerdere van zulke gesprekken geweest, maar de details zijn schimmig. Het is goed gebruik dat als je onderhandelingen klappen, je naar de rechter stapt om ronde twee te initiëren met een miljardenclaim. (In de VS is auteursrechtelijke schade een vast bij wet vastgelegd bedrag, dus dat rekent makkelijk.)

Hoe toon je aan dat jouw content in de dataset zit waarmee GPT getraind is? Daar blogde ik in 2022 over: er zijn diverse trucs maar zekerheid heb je niet, want die diensten houden stevig de kaken op elkaar natuurlijk. Alleen bij de NYT ligt dat anders, want miljoenen van hun artikelen zijn opgenomen in de Common Crawl-dataset, de grootste dataset waarmee AI systemen worden getraind. En ook staat vast dat GPT getraind is met Common Crawl.

NYT ging nog een stapje verder: met een goed gekozen prompt krijg je gehele NYT artikelen eruit. Die “goed gekozen prompt” is dan wel de lead van het NYT artikel dat je wilde hebben, dus het voelt een tíkje sturend, en bovendien krijg je 95% van de originele tekst terug via de patroonherkenning die het LLM maakt. Het is geen kopieerapparaat maar een “raad het volgende woord” systeem, en dat wordt dan gedwongen om te raden met een zeer beperkte keuzevrijheid. LLMs slaan geen bronteksten op.

Is dat auteursrechtinbreuk? Voor mij voelt dat raar: OpenAI zoekt patronen in teksten, en gebruikt dat om nieuwe teksten te genereren. Dat is volkomen onvergelijkbaar met alle eerdere vormen van inbreuk die dankzij internet/ict mogelijk zijn gemaakt – die gingen allemaal over reproductie van de brontekst, zoals bij zoekmachines die snippets laten zien of torrentsites die helpen fragmenten te verzamelen. LLMs reproduceren de brontekst niet.

Dat roept natuurlijk het fairness argument op dat als jij miljoenen van iemands artikelen gebruikt om een systeem op te bouwen, die iemand daarvoor gecompenseerd zou moeten worden. Maar het auteursrecht is niet zo breed dat ieder gebruik of ieder voortbouwen op een werk automatisch inbreuk is, althans juridisch niet. De aanklacht van de NYT leunt zwaar op “journalistiek kost heel veel geld dus is het fair dat wij een vergoeding van OpenAI krijgen”, maar dat is geen juridisch argument.

Binnen de wet krijg je dan discussie hoe je termen als ‘openbaarmaking’ of ‘werk’ moet interpreteren in de context van dit soort verwerking van de data daaruit. Deze rechtszaak zou daar een gezaghebbend antwoord op kunnen geven – hoewel ik vrij zeker weet dat er geschikt wordt voordat het zover is, want OpenAI en Microsoft hebben al het geld (market cap 350x die van NYT) en de NYT heeft natuurlijk principes maar daar kan de kachel niet van branden.

Arnoud

 

 

 

 

 





https://blog.iusmentis.com/2024/01/08/new-york-times-klaagt-openai-aan-om-misbruik-artikelen-voor-trainen-van-ai/