• Home
  • Kenniscentrum

Ongestructureerde data beveiligen: onderzoek naar dit hoofdpijndossier voor menig CISO

Door Artikel IB3-2022 - Sandra Kagie, Chris de Vries 13 sep 2022

Auteurs: Sandra Kagie is freelance tekstschrijver (Sanscript Tekstproducties). Sandra is bereikbaar via info@sanscriptproducties.nl. Chris de Vries is redactielid
van iB-Magazine. Hij werkt als zelfstandig professional onder de naam: De Vries Impuls Management. Chris is bereikbaar via impuls@euronet.nl.


Binnen grote (financiële) organisaties circuleert een enorme hoeveelheid data, waarvan een groot deel ongestructureerd. Denk aan e-mails, audio- en videobestanden, maar ook allerhande tekstdocumenten. Deze bestanden en documenten zijn vaak niet geclassificeerd, maar kunnen vertrouwelijke informatie bevatten. Medische gegevens, fraude gerelateerde data of personal identifiable information (PII) bijvoorbeeld. Een hoofdpijndossier voor menig CISO. “Hier ligt een CISO wakker van”, concludeerde het Partnership for Cyber Security Innovation (PCSI) [1] waarbinnen TNO en een aantal grote financiële instellingen als Achmea, ABN AMRO, ING en de Volksbank samenwerken om cybersecurity op een hoger plan te brengen.

Uit een ideation-sessie kwam het idee naar voren om machine learning (ML) toe te passen met betrekking tot de dreigingen van ongestructureerde data. De uitkomsten waren voor PCSI reden om eind 2020 een project te starten met als doel het zoeken naar de mogelijkheid om middels geautomatiseerde labelling als organisatie grip te krijgen op ongestructureerde data. Daarbij kwamen PII-, medische- en fraude gerelateerde data als eerste in beeld.

Waarom geautomatiseerde labelling?
Geautomatiseerde labelling omdat het handmatig etiketteren van ongestructureerde data zeer complex en tijdrovend is, waardoor het bijna onmogelijk is om de grote hoeveelheden ongestructureerde gegevens goed te labelen, vervolgens te classificeren en uiteindelijk te beschermen. Het proces dat binnen het project doorlopen wordt, kent vier stadia. Allereerst de explore-fase waarin geconstateerd werd dat de berg aan ongestructureerde data veelal niet op het gewenste niveau beveiligd was. Vervolgens de Proof of Concept-fase, gerelateerd aan Open Source data. Als derde de pilot-fase die al een werkend prototype opleverde, kort cyclisch qua opzet en gebaseerd op een agile werkwijze. En tot slot de exploit-fase waarin het project zich nu bevindt. Deze afbeelding [Figuur 1 - Van data-etikettering tot databescherming en -indeling [2].] geeft een impressie van de gewenste werking van het prototype. 

Begin dit jaar presenteerde PCSI zijn eerste conclusies in een whitepaper.Reden voor een gesprek met dr. Rick van der Kleij, senior research psychologist cybersecurity en projectleider namens TNO, en dr. Maaike de Boer, data-scientist bij TNO.

De centrale vraag
In het nog lopende project staat volgens Rick van der Kleij de vraag centraal of met kunstmatige intelligentie (KI/AI) op basis van machine learning er een hoge mate van betrouwbaarheid kan worden gerealiseerd als het gaat om het labelen van ongestructureerde data. “Komen er op deze manier betrouwbare labels tot stand op basis waarvan data geclassificeerd en uiteindelijk ook beter beschermd kunnen worden, zodat we uiteindelijk met z’n allen beter zicht kunnen houden op deze data?”, specificeert Van der Kleij de onderzoeksvraag. Hij noemt de resultaten tot nu toe ‘veelbelovend’ met een ‘nauwkeurigheid van meer dan 80%’ ook als het gaat om meer complexe of gedetailleerde labels. Labels dus die verder gaan dan het etiket ‘CV’ of ‘contract’. “Basis van het project zijn nu vooral tekst(document)en”, legt Maaike de Boer uit. In dit soort documenten is de woordvolgorde belangrijk om tot een juiste herkenning en daarmee classificatie te komen.” Ze benadrukt verder dat er binnen het project gebruik wordt gemaakt van de bredere definitie van Artificial Intelligence. “In de nauwe definitie (strong AI) leert de ‘robot’ zoals de mens en neemt deze het proces geheel over. Terwijl de bredere definitie (weak AI) uitgaat van bijvoorbeeld het goed uitvoeren van één taak, waarbij in dit geval een systeem wordt gevoed met documenten op basis waarvan een kansberekening, geavanceerder dan statistiek, plaatsvindt om vast te stellen of een document bijvoorbeeld PII-gegevens bevat, een CV of een medisch document is. Om hier vervolgens een bijbehorende classificatie en beveiliging aan te koppelen.”

Kansen nieuwe methodiek
Het doel van het project is volgens Van der Kleij ook om met een flexibele en schaalbare aanpak te komen, zodat er in de loop der tijd labels kunnen worden toegevoegd. Daarnaast biedt de nieuwe methodiek organisaties volgens hem betere mogelijkheden om transparanter te kunnen communiceren en (vertrouwelijke) informatie te delen. De onderzoekers stellen in hun whitepaper dat er met dit doel weliswaar diverse tools en pakketten op de markt zijn, maar dat er nog vele (ontwikkel)uitdagingen bestaan die grootschalige toepassing van geautomatiseerde data labelling binnen (financiële) organisaties in de weg staan. Er zijn ten aanzien van het PCSI-prototype vijf waardeproposities te onderscheiden, te weten:

  • Nauwkeurigheid
  • Flexibiliteit
  • Complexiteit
  • Granulariteit
  • Uitlegbaarheid

Voor een uitgebreide toelichting op de vijf punten zie de whitepaper [3].

Juist financials hebben in de woorden van de TNO-onderzoekers vaak ‘net wat meer nodig’ op de genoemde vijf waarden. Dit omdat de financiële sector rekening heeft te houden met de eisen van toezichthouders zoals De Nederlandsche Bank en de Autoriteit Financiële Markten. “We vertrouwen erop met ons onderzoek marktpartijen te
stimuleren dat stapje extra te zetten”, stelt Van der Kleij. Organisaties zitten vaak niet te wachten op nóg een tool zo blijkt volgens hem uit diverse gesprekken met zowel organisaties binnen PCSI als daarbuiten. “Ze zijn veel meer geïnteresseerd in een verbetering op de voor hen cruciale punten van de tools van bijvoorbeeld Microsoft en Proofpoint die ze nu gebruiken.”

De Boer geeft aan dat het probleem dat automatische labelling oplost, ook nadrukkelijk een menselijk aspect omvat. Namelijk de belasting van de mens. Handmatig labelen is namelijk een tijdrovende en intensieve taak. De Boer: “Geautomatiseerde labelling voorkomt fouten die ondanks goede bedoelingen van medewerkers ontstaan. Het ontlast medewerkers en het voorkomt de inwerkingtreding van het bekende adagium: ‘Garbage in, garbage out!’”

“Onze methodiek van geautomatiseerde labelling is een semi-supervised methode”, gaat ze verder. “Door menselijke terugkoppeling leert het systeem en zorgt het voor
vastlegging en vorming van noodzakelijke trainingen binnen een organisatie. Aan de werking hiervan gaat een discussie met materiedeskundigen vooraf. Waarin ze kunnen aangeven wat voor hen belangrijk is en wat zij als essentiële definities zien. Dat betekent dat per sector verschillen kunnen en mogen bestaan, ook in geval van gelijknamige begrippen.”

Uitnodiging aan marktpartijen
De TNO-onderzoekers zien hun eerste conclusies nadrukkelijk als een uitnodiging naar marktpartijen, sectorpartijen en vendors, om met elkaar in gesprek te gaan. “We nodigen leveranciers en andere geïnteresseerden uit om samen te bekijken hoe we onze bevindingen in de (inter)nationale praktijk kunnen brengen. Dit niet alleen binnen de financiële sector, maar juist ook in de bredere security community. Zodat we samen antwoorden kunnen vinden op dit vraagstuk waarvan een CISO wakker ligt”, besluit Van der Kleij.

Referenties
[1] https://pcsi.nl/
[2] Whitepaper PCSI, ‘Protecting unstructured data – challenges and
opportunities of automated labelling
[3] https://pcsi.nl/news/protecting-unstructured-data-challenges-andopportunities-
of-automated-labelling/

In de interviews op pagina 5-9 van deze pdf geven ABNAMRO en Achmea weer hoe zij omgaan met de classificering van ongestructureerde data binnen hun organisaties. Deze interviews maken deel uit van bovenstaand artikel en staan in de pdf met een kader omlijst. Vanwege de lengte is ervoor gekozen deze interviews niet toe te voegen aan dit artikel op de website.

Dit artikel verscheen in iB3-2022. 
Voor het opgemaakte, complete artikel, klik hier onder op 'Document downloaden'.

Document downloaden