‘Reddit sluit licentiedeal met AI-gigant voor trainen AI-modellen’, mag dat?


red and white 8 logo
Photo by Brett Jordan on Unsplash

Reddit heeft een licentiedeal gesloten met een ‘groot AI-bedrijf’, ten behoeve van het trainen van AI-modellen. Dat meldde Tweakers vorige week. persagentschap Bloomberg. Het zou gaan om Google, waar Reddit in 2023 nog tegen dreigde de crawlers van te blokkeren. Diverse redditors vonden dit heel vervelend nieuws. Dus vandaar de vraag: mag Reddit dat doen?

Tweakers vult aan:

De licentiedeal zou betekenen dat de inhoud van de door gebruikers gegenereerde inhoud op Reddit zal worden gebruikt om de AI-modellen van een niet nader genoemd bedrijf te trainen, meldt Bloomberg op basis van ingewijden. Het zou gaan om een overeenkomst ter waarde van omgerekend ruim 55,5 miljoen euro op jaarbasis.

De honger naar kwalitatieve content om generatieve AI mee te trainen is enorm. Reddit is een van de grootste social news aggregatoren, waar mensen commentaar geven op nieuws en andere links die men met elkaar deelt (“read it”). De discussie is vaak van goede kwaliteit, en er is ook veel context om inhoud te duiden – reacties krijgen up- en downvotes en onderwerpen worden in zogeheten subreddits op onderwerp verdeeld. Dankbaar voer om AI mee te trainen.

De Reddit Terms of Use zijn afgelopen september aangepast. De site hanteert daarbij de gebruikelijke mooi klinkende constructie van “je blijft eigenaar maar wij krijgen een beperkte licentie”. Of nou ja, ‘beperkt’:

a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit.

In gewoon Nederlands staat hier dat Reddit alles mag doen dat ze willen, inclusief als dataset verkopen aan andere bedrijven. En vanwege dat ‘irrevocable’ kun je die licentie dus ook niet meer snel intrekken. Je kunt natuurlijk je account opheffen, maar de licentie blijft gegeven.

In Europa kun je via de AVG eisen dat je persoonsgegevens niet langer verwerkt worden. Weghalen van je account of je naam bij publicaties is dus zeker mogelijk. Verdedigbaar is dat je posts ook persoonsgegevens kunnen zijn, afhankelijk van de inhoud. Over weghalen daarvan zegt de privacy policy:

Please note, however, that the posts, comments, and messages you submitted prior to deleting your account will still be visible to others unless you first delete the specific content. After you submit a request to delete your account, it may take up to 90 days for our purge script to complete deletion. We may also retain certain information about you for legitimate business purposes and/or if we believe doing so is in accordance with, or as required by, any applicable law.

Ik lees dat “we may retain certain information for legitimate purposes” dus als een recht om tóch je berichten te blijven gebruiken, zij het zonder je naam erbij. In de context van verhandelen voor het trainen van AI is dat een logische verwachting. Het lijkt me ook AVG-compliant, omdat een bericht zonder naam zeker niet perse een persoonsgegeven is.

Arnoud



https://blog.iusmentis.com/2024/02/27/reddit-sluit-licentiedeal-met-ai-gigant-voor-trainen-ai-modellen-mag-dat/