De Nederlandse sites die het vaakst gebruikt worden voor het trainen van chatbots, staan bol van auteursrechtschendingen, privégegevens en nepnieuws. Dat las ik bij Tweakers, dat zich baseert op onderzoek van De Groene Amsterdammer. En daaruit komt weer naar voren dat de illegale site docplayer.nl met een aandeel van 3,6 procent de de belangrijkste Nederlandse bron voor chatbots is. Het stuk privégegevens komt ook van scraping van genealogiesites of bijvoorbeeld Marktplaats met al haar contactgegevens (als je die in je advertentie zette). Wat de vraag oproept, mag je hiermee werken?
Chatbots en meer algemeen grote taalmodellen hebben data nodig, hoe meer hoe beter. Daarom wordt consequent heel internet gedownload. Nog even los van de auteursrechtelijke situatie (ik miste artikel 15o Auteurswet overigens in het artikel), je krijgt dan een best scheef beeld: “The Truth Is Paywalled But The Lies Are Free”, zoals ik het ooit hoorde omschrijven. Wat ze bij De Groene duiden als:
In de top-tweehonderd van meest geciteerde websites vonden we het neonazistische Stormfront (plek 165), de complotsite Vrijspreker (169) en E.J. Bron (190). E.J. Bron is er ‘voor vrijheid van meningsuiting, tegen de islamisering van Europa, tegen de EUSSR, tegen de mainstream, voor het behoud van westerse waarden en tradities en pro-Israël’.
Vervolgens citeren ze een onderzoekende student die GPT de Stemwijzer liet invullen en die dan weer bij een politieke voorkeur voor SP, Denk en D66 aantreft, wat ik niet vind volgen uit bovengenoemde bronnen, maar dat terzijde.
Je kunt het ook positief bekijken: er zitten ook bronnen zoals het Juridisch Loket, de overheid en Wikipedia in, dus je krijgt niet alléén maar onzin en scheve rommel in je dataset. Ik zie het probleem dan ook meer als eentje van gebrek aan diepgang. Neem het juridische domein, wie rechtsgeleerdheid wil studeren zonder boeken en zonder abonnement op Sdu of Kluwer die gaat niet ver komen. Maar al die content in zo’n AI krijgen, dat botst natuurlijk weer met het verdienmodel van uitgevers (wat ik niet als kritiek bedoel, overigens).
Ik zit er nogal mee hoe je dit vlot kunt trekken. Als individueel bedrijf kun je natuurlijk datasets aankopen en een eigen, betere basis bouwen, maar dat voelt niet echt een zinvolle tijdsinvestering. Maar om het nu een overheidstaak te noemen dat er een kwalitatief goede en representatieve dataset komt voor de Nederlandse taal gaat wellicht ook wat ver?
Arnoud