Een lezer vroeg me:
Ik las over de ontwikkeling van een “ChatGPT detector” bij wetenschappelijke papers. Weliswaar alleen voor scheikunde, maar ik vroeg me toch al af: als mijn paper op de universiteit door zo’n detector als plagiaat wordt aangemerkt, wat kan ik daar dan tegen doen? Dit is een behoorlijk black box verhaal.
De aangehaalde publicatie betreft een tool ontwikkeld door twee scheikundigen. Op basis van een relatief kleine dataset met abstracts kan de tool zeer accuraat een abstract als handgeschreven versus “komt uit ChatGPT” aanmerken. Het idee erachter is dat je zo’n detector domeinspecifiek moet bouwen, omdat je dan domeinspecifieke terminologie, taalgebruik, stijl en dergelijke mee kunt nemen in de afweging.
Voor plagiaatcontrole zou je dus per faculteit een aparte dataset moeten maken, dat lijkt me een te overzien probleem. Dus laten we even aannemen dat zo’n ding bestaat en ingezet wordt in de al bestaande procedure van plagiaatcontrole op papers en scripties. Wat dan?
Plagiaatscanners werken op dit moment vrij rechttoe-rechtaan: ze matchen stukken tekst met externe bronnen en produceren een rapport met highlights. Het plaatje rechtsboven (van scanner Ephorus) laat daarvan een voorbeeld zien. Een examinator gebruikt dat als input om zelf de vergelijking te controleren en daar conclusies uit te trekken. Dat gaat dan bijvoorbeeld zo:
Tijdens de controle van het werk is door de plagiaatscanner een overlap geconstateerd tussen het werk van [appellant] en een medestudent. De overlap omvatte bijna 100 procent van het werk. … De examencommissie heeft ook geconcludeerd dat [appellant] zich schuldig heeft gemaakt aan plagiaat vanwege het letterlijk overnemen van informatie van websites. Omdat [appellant] geen gebruik heeft gemaakt van aanhalingstekens of een bepaalde vormgeving, zijn de citaten niet als zodanig herkenbaar. Verder heeft [appellant] bijna letterlijk informatie overgenomen zonder bronvermelding.
De “ChatGPT detector” werkt iets anders. Uit de Nature-publicatie:
Using machine learning, the detector examines 20 features of writing style, including variation in sentence lengths, and the frequency of certain words and punctuation marks, to determine whether an academic scientist or ChatGPT wrote a piece of text. The findings show that “you could use a small set of features to get a high level of accuracy”, Desaire says.
Hier komt dus de uitspraak uit “op basis van statistische analyse lijkt het er zeer sterk op dat deze tekst uit de tool ChatGPT komt”. Dat is wel even een ander niveau dan constateren dat stukken tekst uit het paper gelijk zijn aan stukken tekst uit een specifieke, na te lezen bron.
Juridisch gezien ligt de bewijslast bij de docent dan wel examencommissie dat sprake is van fraude (waar plagiaat of het inschakelen van hulplijnen onder valt). In dit Tilburgse voorbeeld uit 2021 werd door het College van Beroep een plagiaatbeschuldiging afgewezen omdat het aangedragen bewijs niet meer was dan “vraag 2d is opmerkelijk gedetailleerd beantwoord, in tegenstelling tot de rest”. Maar in de meeste gevallen is de plagiaat wel letterlijk en duidelijk.
Ik kon één geval vinden (uit Leiden) waarin de fraude zou zijn dat de student een derde had ingeschakeld om mee te schrijven. Dat lijkt nog het meest op het inzetten van ChatGPT: als docent zie je andere stijlvormen, een hoger niveau van redeneren, een heel andere wending dan in de eerder besproken onderzoeksopzet en concepten, zulke dingen.
Het kán natuurlijk dat je tussentijds ineens diepere inzichten verwerft (en discussie met anderen is legitiem om die te verwerven), maar als je dat niet kunt toelichten of laten zien als daarom gevraagd wordt dan kan men alsnog uitkomen bij fraude:
Het College overweegt dat niet het feit dat appellante een andere, ingewikkelde methode in haar scriptie heeft gebruikt kan worden aangemerkt als fraude, maar dat de verstrekte toelichtingen van appellante over de door haar gemaakte keuzes in haar scriptie van dien aard zijn dat verweerder terecht en op goede gronden heeft geconstateerd dat het op juiste wijze vormen van een oordeel over de kennis, het inzicht en de vaardigheden van appellante geheel of gedeeltelijk onmogelijk is geworden en dus als fraude moet worden aangemerkt.
Ik vond één uitspraak uit Groningen over fraude (mede) vanwege de inzet van AI. De bewijslast werd volgens mij goed gedragen:
Appellante heeft in haar essay tenminste tien bronnen gebruikt die in het geheel niet bestaan. Daarnaast zijn er ook andere fouten gemaakt in de bronvermelding. Zo noemt appellante artikelen die niet in de door haar genoemde vakbladen zijn gepubliceerd en zijn er ook nog andersoortige fouten gemaakt.
Met dergelijke aanwijzingen onderbouw je je vermoeden van fraude prima, zeker als de studente daar weinig meer tegenover kan stellen dan dat het expliciete verbod op gebruik van AI pas van na haar afrondingsdatum was. Gebruik van tools om je werk te doen maakt dat het minder jouw werk is.
Van de zomer verscheen dit artikel waarin men een lichte toename signaleerde van fraudegevallen door GPT. Schokkend vond ik wel de daar gedane suggestie over detectie door ChatGPT zelf:
Bij vermoeden van plagiaat kan je aan het computerprogramma vragen of hij het geschreven heeft. ChatGPT geeft daar dan ‘eerlijk’ antwoord op. Die methode is niet altijd betrouwbaar, zegt Ferrantelli, dus uiteindelijk geeft het oordeel van de docent de doorslag.
Een methode die “niet altijd betrouwbaar is” lijkt me per definitie een methode die je niet moet gebruiken. Zeker als de makers van ChatGPT zelf hun eigen tool hiervoor offline halen omdat hij niet goed werkt.
(Meelezende afstudeerders-in-spe, wie hier een onderzoek van wil maken kan zich melden!)
Arnoud
https://blog.iusmentis.com/2023/11/14/hoe-verweer-je-je-tegen-de-uitspraken-van-de-chatgpt-detector/