Zo laat je de data van miljoenen openbare profielen in jouw voordeel werken


Nee, niet mijn clickbaittitel: “A.I., losgelaten op openbare profielen, kan dan uitkomst bieden” las ik in een advertorial bij Werf&. Velen vroegen mij hoe dat kan, anoniem en AVG-compliant zoeken naar mensen die passen bij je vacature.

De kern, zo legt het bedrijf zelf uit:

Steeds meer mensen zetten hun profiel op ‘openbaar’ op platformen zoals LinkedIn, omdat zij zichtbaar willen zijn voor iemand die naar hen op zoek is. Deze informatie kun je geanonimiseerd gebruiken om algoritmes op te trainen. A.I. kan vervolgens suggesties geven voor objectieve en onbevooroordeelde matches, die talentverspilling tegengaan.

Dat is een mooie pitch, maar ik hóór collectief de wenkbrauwen omhoog gaan bij alle CAICOs en FGs. Want data echt anonimiseren in de zin van de AVG is niet triviaal. Vrijwel altijd bedoelt men “pseudonimiseren”, oftewel we hebben de direct herleidbare gegevens eruit gehaald en een volgnummertje teruggezet, maar wij kijken heus echt niet naar de bronlijst met volgnummer.

Hoe werkt het hier?

Daarom hebben wij alle identificerende data uit de trainingsdata verwijderd. We slaan dus géén persoonsgegevens en potentieel discriminerende informatie (zoals leeftijd en gender) op. Ook bezitten we geen bedrijfsnamen om te voorkomen dat iemand door de functie bij het bedrijf op te zoeken, toch herleidbaar zou zijn. We houden alleen die data over die noodzakelijk zijn om onze op A.I.-gebaseerde matchingtechnologie zo goed mogelijk te kunnen trainen.

Kennelijk is het AI systeem gericht op het extraheren van vaardigheden uit profielen, en ik zie wel hoe je persoonsgegevens daar niet bij nodig hebt. Dan zoek je naar beschrijvingen, labels, professionele lidmaatschappen en ga zo maar door. Het zoekproces is dan een stuk gerichter, omdat je dan veel meer vaardigheden (skills) hebt om mee te filteren.

Alleen: hoe krijg je vervolgens de profielen of contactgegevens van die personen te pakken? Dat gaat zo:

Vergelijkbaar met de bekende zoekmachines, maar dan gericht op openbare zakelijke profielen. … Hiervoor hebben we een gerichte search engine ontwikkeld, met zo’n 7 miljoen actueel openbaar gedeelde profielen in Nederland. Uniek is dat we daarbij matchen op de waarschijnlijk aanwezige en benodigde skills. … We slaan overigens geen contactgegevens op, zelfs niet indien deze openbaar toegankelijk zijn gemaakt op het profiel. Je kunt dus alleen contact opnemen via het platform waarop het profiel oorspronkelijk openbaar is gedeeld.

Dit klinkt als een zoekmachine gebaseerd op netwerksites zoals Linkedin, waar je op basis van skills in zoekt in plaats van trefwoorden. Vervolgens word je met een link naar de bronsite gebracht, waar je dan zelf contact opneemt met de persoon.

De AVG aspecten zitten daarmee enerzijds in het scrapen van die data om daar een AI model mee te trainen, en anderzijds in het doorzoekbaar maken van de data met een skills-zoekmachine.

Dat scrapen (even los van de Linkedin-voorwaarden) is AVG-technisch een verwerking, die je alleen kunt rechtbreien op grond van gerechtvaardigd belang. Ja, direct marketing staat in overweging 47 maar de vraag is of het proportioneel is en opweegt tegen de privacybelangen van de betrokkenen.

Ik zie ergens wel hoe “tot trainingsdata omwerken en daar een AI model van maken” hier in past. Zo’n algemeen zoals hier model raakt jouw privacy niet, en ‘doet’ verder niet direct iets met jouw persoonsgegevens. Zo’n label met een skill is op zich als persoonsgegeven te zien áls het aan een persoon zit, maar het label wordt hier niet op basis van persoonskenmerken gegeven.

Lastiger is het AVG verhaal voor de zoekmachine. Die verwerkt gewoon persoonsgegevens: je krijgt een profiel op basis van opgegeven skills, dat profiel is ook verbonden met zelf afgeleide skills én de link naar de bron (zoals het Linkedinprofiel) staat er bij. Dan voorzie je mensen dus van labels (“is harde werker”, “kennis van ISO42001”) en dát is gewoon waar de AVG voor bedoeld is.

Valt die zoekmachine dan onder een gerechtvaardigd belang? Dat zie ik niet meteen. Het hele idee van deze zoekmachine is mensen vinden op basis van skills, om ze vervolgens te benaderen voor werving en selectie. Vanuit de Telecomwet weten we dat zulke communicatie toestemming vereist, maar iedereen weet ook dat die zelden gezocht wordt. Zo’n zoekmachine zal dat dus aanjagen, en dat maakt de belangenafweging neigen naar “niet proportioneel”.

Daar staat natuurlijk tegenover dat op platforms zoals Linkedin je zelf kiest of je open staat voor communicatie van onbekenden (en/of je 06-nummer onder je naam opneemt), en dat men uiteindelijk via de Linkedin-faciliteiten contact opneemt. Dat kan leiden tot overlast, maar omdat de dienst hier achter een betaalmuur zit en vrij nieuw is, is dat een tikje speculatief.

Arnoud

 



https://blog.iusmentis.com/2024/04/02/zo-laat-je-de-data-van-miljoenen-openbare-profielen-in-jouw-voordeel-werken/