Interview: Hoe helpt het pseudonimiseren en depseudonimiseren van persoonsgegevens Gemeente Zaanstad bij data-analyse?

Gemeente Zaanstad over pseudonimiseren en depseudonimiseren

Steeds meer organisaties staan voor de uitdaging om data-analyses uit te voeren met persoonsgegevens binnen de kaders van de Algemene Verordening Gegevensbescherming (AVG). En steeds vaker wordt gekozen voor het pseudonimiseren van persoonsgegevens. We vroegen Tom Pots, programmamanager Datagestuurd Werken bij Gemeente Zaanstad naar zijn uitdagingen op dit gebied. Welke ervaringen heeft hij inmiddels met het pseudonimiseren van data en wat heeft dit concreet opgeleverd?

Welke uitdaging (business issue) had gemeente Zaanstad?

“Gemeente Zaanstad wil datagestuurd werken vanuit de gedachte dat maatschappelijke vraagstukken op basis van data beter kunnen worden aangepakt. Het lukte ons al in vroeg stadium om op allerlei manieren onze belangrijkste data te ontsluiten. De grote uitdaging daarbij is het waarborgen van privacy. Hoe doe je recht aan zowel de wettelijke plicht tot gegevensbescherming als het uitvoeren van een wettelijke taak, zoals de aanpak van ondermijnende criminaliteit of integraal werken binnen het sociaal domein? Met dit complexe vraagstuk worstelen veel overheidsorganisaties. Daarom kozen we ervoor om zelf een ‘datapakhuis’ te bouwen. We haalden data vanuit verschillende bronnen, onder andere over BAG, WOZ, BRP etc., we pseudonimiseerden deze datasets en sloegen het vervolgens zo veilig mogelijk op. De zwakste schakel in dit proces waren wijzelf, omdat we alles zelf deden. Daardoor werkte een klein groepje data-engineers nog steeds met veel persoonsgegevens.”

Hoe hebben jullie dit opgelost?

“We hebben een omgeving gecreëerd zonder zwakke schakels, met de pseudonimiseer-software van Viacryp. In het nieuwe datapakhuis wordt data gepseudonimiseerd aan de bron, waardoor in het proces van data-ontsluiting geen persoonsgegevens worden gebruikt, op het pseudoniem na natuurlijk.

In de nieuwe architectuur onderscheiden we een Analyse Data Straat (ADS) en een Operationele Data Straat (ODS). In de ADS zijn de herleidbare kenmerken geaggregeerd, geminimaliseerd of gepseudonimiseerd. De data in de ADS is geschikt voor analysedoeleinden. De ODS bevat wel bijna alle kenmerken. Veruit de meeste vragen kunnen met behulp van de ADS beantwoord worden. Je hebt voor analysedoeleinden zelden persoonsgegevens nodig. Het ontsluiten van de ADS is een geautomatiseerd proces van data ontsluiten, pseudonimiseren en uiteindelijk opslaan in een silo in het datapakhuis. Een afdelingsmanager is verantwoordelijk voor zijn proces, data en applicatie. Hij is als broneigenaar van de data verantwoordelijk voor zowel de ADS als ODS binnen zijn silo.

We zijn ook direct gestart met het maken van een datacatalogus met alle definities, waardoor we kunnen zien wat we hebben, wat gevraagd wordt en wat geleverd wordt. Alles wordt gelogd. Daarmee zijn we in staat om heel transparant te zijn.”

Waarom hebben jullie Viacryp als partner gekozen voor dit verbetertraject?

“Voordat we met dit traject begonnen, hebben we eenmalig een thematische analyse in ons Data Lab gedaan met Viacryp en een andere partij. Belangrijke criteria voor ons waren meedenken, snelheid van reactie, partnerschap, scherp op de inhoud en deskundigheid. De samenwerking met Viacryp kwam met afstand als beste uit de bus en daarom hebben we Viacryp gevraagd ook partner te worden van het structurele proces van data-ontsluiting. Ook tijdens dit traject bleek al snel dat wat op papier werd beloofd ook daadwerkelijk werd waargemaakt. Daarnaast was het goed om te zien dat onze data-architecten heel goed konden sparren met de technische mensen van Viacryp. Ze spraken dezelfde taal en zo ontstond echt een flow.”

Voor welke aanpak hebben jullie gekozen om tot de gewenste oplossing te komen?

De automatische inrichting van de pseudonimiseerstraat voor het datapakhuis was wel een technisch feestje. We werkten daarin goed samen. Er is een zogenaamde client-tool geïnstalleerd, die zorgt voor de eerste pseudonimisatiestap. Viacryp heeft er ook voor gezorgd dat de pseudonimisatiestraat is geconfigureerd. Een belangrijk aspect is dat de pseudonimisatiedienst van Viacryp onderdeel is geworden van ons proces van data-ontsluiten. De dienst past in onze werkwijze om privacy te waarborgen en geen persoonsgegevens te gebruiken in data-analyses. Belangrijke ingrediënten zijn een DPIA en het privacy statement met grondslag en doelbinding, zodat je altijd kunt uitleggen waarom je welke data hebt gebruikt. Daarna volgt het pseudonimiseren, aggregeren en minimaliseren van data, zodat geen persoonsgegevens worden gebruikt op het pseudoniem na.Viacryp heeft als uitgangspunt: geen leesbare persoonsgegevens binnen het Viacryp-domein en natuurlijk een robuuste overall oplossing. Het pseudonimisatieproces is goed uitlegbaar.“

Welke resultaten zijn behaald?

“Privacy hoeft niet beperkend te zijn en degene die om data vraagt moet wel heel zorgvuldig kunnen uitleggen welke data echt nodig is en waarom. Broneigenaren zitten er vaak terecht als haviken op; als je data wilt gebruiken moet je kunnen aantonen dat privacy goed geregeld is. Wij hebben, met behulp van de dienstverlening van Viacryp, een standaard werkwijze ontwikkeld voor de omgang met data. De inrichting van de ADS speelt daarin een belangrijke rol. We hebben elke dataset kenmerk voor kenmerk bekeken en ook bewuste keuzes gemaakt op welk niveau de data opgeslagen moest worden. Hierbij hebben we per kenmerk de herleidbaarheid geanalyseerd, denk bijvoorbeeld aan alle huizen boven een bepaald bedrag in een bepaalde wijk. Doordat je dit samen met de broneigenaar doet is deze ook sneller bereid om de dataset ter beschikking te stellen voor data-analyses. Men wist dat er goed over de dataset in de ADS nagedacht was; er was gepseudonimiseerd, geaggregeerd en geminimaliseerd, waardoor er niet of nauwelijks herleidbaarheid in de data zit.

Door gemeenschappelijk een werkwijze af te spreken wordt het gebruik van data op een verantwoorde en uitlegbare manier mogelijk gemaakt. In 99% van de gevallen heb je voor data-analyse geen persoonsgegevens nodig. Je hoeft het ‘wie’ doorgaans niet te weten, alleen het ‘wat’. Waarom vragen om alles als je dat niet nodig hebt? Onze werkwijze om privacy te waarborgen zorgt ervoor dat een broneigenaar weet hoe de ADS is opgebouwd en hoe de broneigenaar deze beschikbaar kan stellen.”

Jullie maken ook gebruik van de mogelijkheid om te depseudonimiseren. Kun je daar meer over vertellen?

“In 1% van de gevallen wil je gepseudonimiseerde data toch depseudonimiseren om inzage te krijgen in de oorspronkelijke persoonsgegevens. Als voorbeeld: in een wijk in Zaanstad kwamen veel meldingen binnen over slechte leefbaarheid, onveiligheid en ondermijning. Op dat moment hebben wij een wettelijke taak om hierop te handhaven. Om naast de signalen uit de buurt de problematiek in het onderzoeksgebied beter in beeld te brengen is er aanvullend voor gekozen een data-analyse uit te voeren. Er wordt altijd gestart met het privacy statement, zodat aan de voorkant bepaald kan worden of de data-analyses uitgevoerd mogen worden. Op basis van gepseudonimiseerde data is gekeken naar drie indicatoren:

  1. Meer dan 4 verhuisbewegingen per jaar
  2. Mensen wonen op minder dan 10m2
  3. Meer dan 4 volwassenen in één huis

Uit de analyse kwamen 80 panden die scoorden op de indicatoren in het onderzoeksgebied. Je weet dan nog steeds niet om welke panden het gaat want elk pand is een pseudoniem. Op dat moment komt een adviesraad bij elkaar. Die bestaat uit een jurist, een privacy-officer, een woordvoerder, de broneigenaar en de programmamanager en zij wegen de twee wettelijke taken: het handhaven van woonfraude en het borgen van privacy. Dit is compliance in de echte wereld. Zij beargumenteren de noodzaak en belangenafweging en stellen een gezamenlijk advies op om wel of niet te depseudonimiseren. Belangrijke criteria zijn: doelmatigheid, rechtmatigheid en (bestuurlijke) risico’s. Het besluit wordt aangevuld in het privacy-statement en voorgelegd aan de portefeuillehouder (in dit geval de burgemeester). Als Nieuwsuur of de Telegraaf op de stoep staan, dan kunnen we altijd uitleggen waarom we wat gedaan hebben. Het depseudonimiseren van data is een ambtelijk besluit dat bestuurlijk gedragen moet kunnen worden.

Het proces is transparant, uitlegbaar en wordt goed vastgelegd. Hiermee heb je de beschikking over een heldere onderbouwing als achteraf vragen worden gesteld als: hoe hebben jullie een data-analyse gebruikt om jullie wettelijke taak om woonfraude te handhaven te verminderen? Een belangrijk uitgangspunt bij het gebruiken van data-analyses is dat het handelen van de mens altijd centraal staat. Een verdacht profiel maakt nog geen crimineel en een verdacht object betekent niet dat er ook daadwerkelijk criminele activiteiten plaatsvinden. Data-analyses hebben hierbij alleen een signalerings- en adviesfunctie. Na de analyse volgt altijd een menselijke hand (zoals verdiepend onderzoek) alvorens een besluit wordt genomen. In het concrete voorbeeld zijn van de 80 panden, na verdiepend onderzoek door het team, 20 panden geselecteerd. De data met betrekking tot de overige panden zijn direct vernietigd. Bij 20 panden zijn we als gemeente gaan schouwen en bij 19 panden was er sprake van een vorm van woonfraude.”

Wat heeft de dienstverlening van Viacryp mogelijk gemaakt wat anders niet had gekund?

“Twintig jaar geleden was data nog niet zo belangrijk als nu. Ook stond privacy nog niet zo prominent op de agenda. Met het groeiende belang van data is privacy een zware component geworden, en terecht. Er kan nog steeds veel, als je het ‘wie’ maar weghaalt uit de data. Bovendien heb je in 99% van de gevallen die persoonsgegevens helemaal niet nodig en kun je data-analyses gebruiken met gepseudonimiseerde data, dus zonder gebruik van herleidbare persoonsgegevens. Deze analyses zijn niet toegestaan als we wel herleidbare persoonsgegevens gebruiken. De pseudonimisatiedienst van Viacryp is daarmee dé manier om de mogelijkheden van data-analyses te benutten én persoonsgegevens te beschermen.