Vanwege mijn zomervakantie is de gewone blog gepauzeerd. Vandaag wederom een voorpublicatie uit mijn boek ICT & Recht.
De term big data is begin jaren tien in zwang gekomen als aanduiding voor de ondertussen immens gegroeide dataverzamelingen. Zo groot dat ze met normale tools niet meer te beheersen was. De datahonger van bedrijven had daar wel voor gezorgd: beter iets te veel vastleggen dan te weinig, cloudopslag is immers onbeperkt, en later zien we wel wat we ermee kunnen. Het ging hand in hand met de opkomst van het profileren van bezoekers, wat met name ingegeven was door de behoefte om gepersonaliseerde advertenties te tonen. Aan de basis van dit alles lag een minieme toevoeging aan het world wide web: het cookie.
In 1994 introduceerde Netscape het zogeheten cookie: een klein stukje informatie dat websites aan browsers konden sturen, die het vervolgens bij ieder bezoek mee terug stuurde. Dit was een enorme verandering voor website-eigenaren. Het web was namelijk ontworpen om stateless te werken: iedere opvraging van een webpagina, iedere klik op een link, stond volledig los van alle andere opvragingen. Dit is de technisch eenvoudigste oplossing maar had als nadeel dat bijvoorbeeld online winkelen niet echt mogelijk is: hoe kun je een winkelmandje beheren als bij iedere klik alles tot dan toe wordt vergeten?
Cookies boden een oplossing voor dat probleem. Iedere nieuwe bezoeker kreeg een code toegewezen, en in een database op de server werd elk uitgekozen product geregistreerd in combinatie met die code. Bij de kassa kon zo direct worden gezien wat men wilde kopen, zodat de transactie kon worden afgerond. Evenzo kon men met een cookie iemand laten inloggen en afgeschermde pagina’s laten bezoeken, zonder dat deze bij elke pagina opnieuw moest inloggen. Hiermee werden op internet ineens zaken als discussieforums maar ook betaalmuren voor archieven mogelijk.
De opkomst van reclame gaf echter aanleiding tot nog een andere toepassing van cookies: tracking. Een visuele reclameboodschap – een banner in het jargon – is technisch gezien een aanklikbare afbeelding. Een website-eigenaar plaatste die afbeeldingen niet zelf, maar liet het advertentienetwerk de afbeelding dynamisch invoegen met speciale HTML-code. Bij die afbeelding kan een cookie worden meegestuurd, net zoals bij de eigenlijke webpagina. Dit noemen we een third-party cookie, een cookie van een derde. En dat heeft een uniek effect: bij een bezoek aan iedere website waar dat advertentienetwerk reclameboodschappen plaatst, stuurt de browser braaf het cookie op bij het opvragen van de reclameboodschap. Zo krijgt het netwerk dus een beeld van al die websites die de persoon achter de browser bezoekt. Het concept van tracking, van volgen op internet, was geboren.
De groei van profileren
Het analyseren van klantinformatie en -gedrag is natuurlijk niet dankzij internet geboren. Een groot deel van de gegevensverwerking bij bedrijven was altijd al gericht op het voorspellen van wat klanten (of potentiële klanten) interessant of leuk zouden vinden. Al in 1992 werd ‘personalisatie’ als vijfde toegevoegd aan de klassieke “vier P’s” van marketing (Product, Prijs, Plaats, Promotie). En veel van de discussies over handel in data uit de jaren zeventig en tachtig – zoals het kopen van videotapehuurgedrag – kwamen voort uit precies de zorg over wat er met dergelijke analyses mogelijk zou zijn.
Iemand volgen is één ding, je moet er natuurlijk wel wat mee doen. Dat heet in het jargon ‘profileren’, het opbouwen van een profiel met bijvoorbeeld interesses (voor e-commerce) of risico’s (voor oplichting of wanbetaling). Een profiel bestaat uit simpelweg een lijstje gegevens gekoppeld aan een identificatie – en cookies zijn precies dat. Maar ook met andere middelen is tracking mogelijk, denk aan RFID tags of Bluetooth serienummers. Waar het om gaat is dat een persoon te reduceren is tot een nummer, waarna gegevens over dat nummer kunnen worden opgevraagd om zo een uitspraak over de persoon te doen: interesse in nieuwe laarsjes, betaalrisico 3%, extra bagagecontrole, salarisverhoging 2%.
De voornaamste reden voor de enorme groei van tracking was de eenvoud. Waar men voorheen vragenlijsten moest uitsturen of uitgebreid onderzoek doen, liepen de gegevens hier als vanzelf de databank binnen. En betrouwbaarder was het ook: het website-klikgedrag is echt wat mensen doen, geen sociaal wenselijk antwoord of voor de grap ingevulde vragenlijst. Het werd hierdoor steeds makkelijker om op de persoon toegesneden profielen op te bouwen, waarmee bijvoorbeeld gerichte advertenties mogelijk werden. Dit waren klassieke technieken uit de informatietechnologie, maar op veel grotere gegevensverzamelingen.
Deze enorme groei in data maakte nieuwe inzichten mogelijk, en liet een scherpe groei zien in de effectiviteit van advertenties. Het aantal trackers is dan ook explosief toegenomen vanaf begin jaren nul.Tegenwoordig gebruikt vrijwel elk marketingbedrijf of -afdeling wel een vorm van gepersonaliseerd adverteren.Tegelijk heeft gepersonaliseerd adverteren ook een keerzijde: veel mensen ervaren een stuk ongemak bij al te persoonlijke advertenties. Dat ongemak zit hem in ‘gezien worden’ wanneer men denkt privé bezig te zijn, de onthulling dat een bedrijf weet wat men wil – een inbreuk op de privacy van gedachten en gevoelens. Ook zijn er meer indirecte beperkingen, zoals ‘gestuurd worden’ door aanbevelingen en een beperkt zicht op het totaalaanbod hebben.
Dit gevoel nam alleen maar toe naarmate de grote platforms van Web 2.0 in omvang groeiden. Want die wisten nog veel meer te verzamelen dan zelfs de grootste advertentienetwerken: mensen vertellen immers zelf aan Facebook wat ze leuk vinden en wie hun vrienden zijn, en die dan weer wat zij leuk vinden. Daarmee konden deze platforms nog scherpere profielen opstellen en gericht reclame maken. Of informatie extraheren voor het beïnvloeden van het Brexit-referendum, zoals in het Cambridge Analytica-schandaal. Big Data, zoals het ondertussen was gaan heten, had dan ook altijd een dubbele ondertoon.
Van big data naar AI
De omarming van het concept big data opende de deur voor een nog verder gaande ontwikkeling, namelijk de inzet van artificial intelligence. Hierbij neemt een systeem zelf besluiten, variërend van het aanpassen van getoonde advertenties tot het goed- of afkeuren van transacties of zelfs overheidsmaatregelen zoals fraude-onderzoeken of weigeren van visa. Hierover meer in hoofdstuk 8.
Vanuit privacy- en gegevensbeschermingsoogpunt zijn AI-systemen een risicovolle ontwikkeling. Machine learning systemen, en meer algemeen AI systemen, leiden redeneerregels af uit de data en passen die vervolgens toe op nieuwe situaties. Bijvoorbeeld: de data laat zien dat een gasrekening van meer dan 150 euro vaak samengaat met fraudeurschap, net als een leeftijd hebben tussen de 18 en 32 jaar. De redeneerregel wordt dan: als de gasrekening boven de 150 euro is of de leeftijd is 18-32, dan nader onderzoeken op toeslagenfraude. In dit voorbeeld is de leeftijdscategorie een toevallige samenloop met fraudeurschap, maar het systeem heeft hier wel de regel mede op gebaseerd omdat de data dit laat zien. Zo’n afgeleide regel is dus fundamenteel anders dan de deductieve regels; zij zijn niet gebaseerd op algemene regels of beginselen maar volgen zonder context uit de data.
Dit verschil raakt aan de uitlegbaarheid van uitspraken en beslissingen van AI. Redeneerregels van menselijke beslissers zijn te motiveren, omdat de algemene regels beschikbaar zijn. Uit inductie verkregen regels zijn dat niet: het algoritme weet dat de leeftijdscategorie 18-32 relevant is, maar kan daar geen waarom aan koppelen. Hoewel wetgeving (zoals de AVG, artikel 13 lid 2 sub f) eist dat uitleg over de onderliggende logica gegeven wordt bij automatische beslissingen zoals deze, is dat in de praktijk dus zo goed als onmogelijk. Dat maakt inzet van AI fundamenteel problematisch. De AVG hanteert dan ook als hoofdregel dat zulke beoordelingen eigenlijk alleen mogen met toestemming van de betrokkene (artikel 22 AVG).
Een belangrijk probleem bij analyse van datasets is vooringenomenheid oftewel bias. Dit is het verschijnsel dat een ML systeem patronen in de data heeft gevonden die negatief uitpakken voor bepaalde groepen. Een ML systeem handelt zuiver op basis van de data, en zoekt de verdeling die het beste past bij het gestelde doel. Er is voor ML geen verschil tussen “geen” uit het veld “werkervaring” of “vrouwentennis” uit het veld hobby’s correleren aan “afgewezen sollicitant” – bits hebben geen kleur. Voor mensen is het onderscheid tussen deze informatie-elementen echter enorm: het is niet de bedoeling dat we mensen afwijzen omdat ze vrouw zijn. Ook niet als het systeem daar niet expliciet op stuurt – ook indirecte discriminatie is immers verboden (art. 1 lid 1 sub c Algemene wet gelijke behandeling).
Vanwege de zorgen over de risico’s van AI-inzet werkt de Europese Unie op dit moment aan de AI Act, een Verordening die alle gebruik van AI moet gaan reguleren. De insteek is zuiver risicogebaseerd: het doet er niet toe of men werkt met ML, expertsystemen of met een filter in Excel, waar het om gaat is of er risico’s ontstaan voor mensen. AI met zeer hoge risico’s (zoals social credit scoring) wordt verboden, bij hoge risico’s (zoals screenen van sollicitanten) moet de leverancier zware maatregelen nemen om deze in te perken. Deze aanpak heeft het voordeel van daadwerkelijke technologie-neutraliteit: het maakt niet uit hoe het werkt, als het maar veilig is.
De AI Act is daarmee een stap voorwaarts ten opzichte van de AVG. Deze kent weliswaar een verbod tegen geautomatiseerde besluitvorming (art. 22 AVG), maar hier zijn uitzonderingen op mogelijk. Ook wordt de bal wel erg bij het individu gelegd: ga maar de uitleg lezen, maak maar bezwaar, toon maar aan waarom de AI niet eerlijk handelde jegens jou. Dat is zeker bij die kwetsbare groepen geen reële verwachting. De AI Act introduceert een verantwoordingsplicht voor exploitanten van AI-systemen, met actieve informatieplichten en de mogelijkheid van collectieve claims door betrokkenen of stichtingen die hen vertegenwoordigen. Dat zal veel eerder partijen bij de les houden.
https://blog.iusmentis.com/2024/07/25/vakantieblog-het-tijdperk-van-big-data-en-ai/