Natural Language Processing im Gleichgewicht zwischen Datenschutz und qualitativ hochwertiger Anwendung

Prof. Dr. - Ing. Bodo <br> Kraft

Prof. Dr. - Ing. Bodo
Kraft

Prof. Dr. - Ing. Matthias Meinecke

Prof. Dr. - Ing. Matthias Meinecke

M. Sc. Ines Larissa Siebigteroth

M. Sc. Ines Larissa Siebigteroth

Wie lassen sich NLP-Systeme entwickeln ohne den Datenschutz zu gefährden?

Nur wenige Bereiche der Informatik sind momentan so populär wie das maschinelle Lernen (ML) und insbesondere der Bereich des Natural Language Processing (NLP). Wer kennt nicht die Bedienung des Smartphones oder Radios mittels Sprachassistent (Siri, Alexa etc.)? Wie angenehm ist es doch die Adresse, zu der man navigiert werden will, einfach einzusprechen? Selbst die automatische Erkennung von Kundenanliegen bei der Dunkelverarbeitung von Briefen ist möglich. 
Trotz bereits vorhandener Helfer und etablierten Prozess- und Vorgehensmodellen, wie zum Beispiel STAMP4NLP [1], ist die Erstellung einer solchen Anwendung immer noch mit hohem Aufwand verbunden. Um die notwendigen statistischen Modelle, die in der Lage sind Muster innerhalb von Daten zur Informationsextraktion abzubilden, trainieren zu können, müssen zunächst geeignete Daten identifiziert werden und aufbereitet werden. Dazu zählt sowohl die Bereinigung von Rechtschreibfehlern, als auch das manuelle Tagging, welches die Markierung von Elementen im Text ist. Auf Basis des annotierten Korpus wird in der Trainingsphase das Modell trainiert und nach abgeschlossener Optimierung in ein KI-System integriert, dass produktiv einsetzbar ist (siehe Abbildung 1).

Ein Punkt, der bei der Erstellung von KI-Systemen immer mehr in den Fokus rückt, ist der Datenschutz [2]. Auf Grund der hohen Komplexität in der Erstellung von NLP-Anwendungen sind viele Unternehmen auf die Hilfe von externen Firmen und Entwicklern angewiesen. Dabei sind allerdings Daten, die auch datenschutzkritische Informationen enthalten, herauszugeben, auf deren Basis die neuen Anwendungen trainiert werden. Dies ist der Punkt an dem bisher der Großteil dieser Unternehmen die Einführung von NLP im eigenen Betrieb zurückzieht, da eine Anonymisierung der Daten mit hohem Aufwand verbunden ist.

Insbesondere durch die EU-Datenschutz-Grundverordnung (DSGVO) hat das Thema datenschutzkonforme Anonymisierung von Daten nochmal Aufwind bekommen [3]. Durch die drohenden hohen Strafen bei Zuwiderhandlung stellt der Datenschutz aktuell ein besonders großes Hindernis zur Einführung von NLP dar.

Existierende Verfahren, die relativ einfach die datenschutzkritischen Informationen gegen künstliche austauschen, sind nicht ohne weiteres nutzbar. Dies ist einerseits durch die jeweilige Anwendungsdomäne begründet. Im Kontext von Versicherungen sind exemplarisch sicherlich die Kennungen von Policen, Namen, Ereignisdaten und Adressen als kritisch anzusehen. Hingegen ist im Kontext von medizinischen Daten ein großes Augenmerk auf Attribute wie z.B. Größe, Gewicht, Symptome und Diagnosen zu legen. Folglich sind für jede Domäne erst einmal die kritischen Attribute zu identifizieren.

Zudem ist zu berücksichtigen, dass ausreichend Informationen anonymisiert werden. Wenn mit den verbliebenen Informationen und Hinzunahme einer weiteren Datenquelle wieder Rückschlüsse auf die Ursprungsdaten möglich sind, liegt keine rückschlussfreie Anonymisierung vor. Ein Beispiel hierfür ist die Entfernung des Namens und der Adresse, aber zugleich Erhalt des Geburtsdatums und des Geschlechts in einem medizinischen Bericht. Nimmt man nun das Melderegister hinzu und grenzt es auf den Einzugsbereich des Krankenhauses ein, ist eine Identifikation der betroffenen Person mit geringem Aufwand möglich [4].

Andererseits ist außerdem auch die Auswahlmöglichkeit an Verfahren zu beachten. Hierbei stehen exemplarisch Varianten zur Verfügung, die Namen zufällig gegen die 100 häufigsten Namen innerhalb Deutschlands tauschen. Es ist aber auch ein schematischer 1:1 Austausch denkbar oder komplexere Verfahren möglich. Dabei darf der Einfluss der Anonymisierung auf das zu trainierende Modell nicht unberücksichtigt bleiben. Wenn im produktiven Betrieb der NLP-Anwendung ein Dokument mit einem Namen auftaucht, der nicht zu den 100 häufigsten zählt, kann dieser unter Umständen nicht erkannt werden. Folglich ist der Erhalt der Daten-Varianz innerhalb der anonymisierten Attribute zu berücksichtigen.

Hinzukommt, dass auch die Erhaltung von Zusammenhängen innerhalb der Daten bei der Anonymisierung wichtig ist. Andernfalls wird über Sätze hinweg nicht erkannt, dass auf dieselbe Person Bezug genommen wird oder beschriebene Abläufe miteinander zusammenhängen. Insgesamt schränken bisherige Verfahren durch Informationsverlust das Training von Modellen auf anonymisieren Daten zu sehr ein.

Ziel ist es, das Gleichgewicht zwischen Einhaltung der Datenschutzvorschriften und dem Training einer qualitativ hochwertigen Anwendung zu finden. Ein möglicher Ablauf, wie per Anonymisierung die Einführung von NLP machbar ist, wird in der folgenden Vorgehensskizze dargestellt.

Vorgehensskizze

Wir betrachten als Beispiel ein Unternehmen, das per Kontaktformular mit seinen Kunden kommuniziert. Um nicht jede Nachricht händisch verarbeiten zu müssen, sollen diese möglichst automatisch verarbeitet werden.
Die Entwicklung einer entsprechenden NLP-Anwendung übernimmt ein externer NLP-Dienstleister, der hierfür vom Unternehmen erhaltene Kundennachrichten anfordert. Da diese Nachrichten aber personenbezogene Daten enthalten, die unter den Datenschutz fallen, darf das Unternehmen diese nicht herausgeben.  

Entsprechend zu Abbildung 2 wird deshalb folgendes Vorgehen angewandt: Zuerst erstellt das Unternehmen einen Korpus und annotiert diesen. Er wird als Gold-Standard gesichert. Anschließend ist der Korpus zu anonymisieren. Eine gängige Lösung ist, dass Mitarbeiter des Unternehmens die kritischen Stellen innerhalb der Mitteilungen markieren und gegen entsprechende Label tauschen.

Abbildung 2 Vorgehen zur Modellerstellung

Hierfür sind zunächst alle domänenspezifischen kritischen Informationskategorien zu identifizieren. Wir befinden uns hier beispielhaft in der Versicherungsbranche. Entsprechend sind Name, Datum, Kundennummer und E-Mail-Adresse, sowie eventuell weitere Attribute, auszutauschen (siehe Abbildung 3).

Abbildung 3 Beispiel Anonymisierung einer E-Mail

Sobald die Anonymisierung durchgeführt wurde, wird der Datensatz mit den anonymisierten E-Mails an den NLP-Dienstleister verschickt. Dieser ersetzt die Label mit künstlichen Daten und generiert somit einen datenschutzkonformen Datenbestand, der weiterverwendet werden darf und einen anonymisierten Gold-Standard darstellt. Sodann trainiert der Dienstleister ein statistisches Modell zur Informations-Extraktion und entwickelt einen passenden NLP-KI-Service.

Der Service und das Modell werden anschließend an das Auftrag gebende Unternehmen übergeben und dort bezüglich der Verarbeitungsqualität von E-Mails geprüft. Hierfür kommt der zu Beginn gesicherte Gold-Standard zum Einsatz. Mit Hilfe verschiedener Metriken wird die Extraktionsgenauigkeit der Anwendung gegen die vorab spezifizierten Produktziele gemessen. Sollte die Qualität nicht ausreichend sein, erfolgt eine Evaluierung, ob das Anonymisierungsverfahren anzupassen oder der Korpus zu erweitern ist, und die Anwendung wird noch einmal überarbeitet.

Wenn die Verarbeitungsqualität alle Kriterien für den produktiven Einsatz erfüllt, wird die Anwendung in die vorhandenen Prozesse integriert. In regelmäßigen Abständen sollte kontrolliert werden, ob die Verarbeitung weiterhin problemlos funktioniert oder eine Anpassung notwendig ist.

Alternative zur Beauftragung von Dienstleistern?

Als Alternative zur Beauftragung von externen Dienstleistern, bieten sich „on Premise“ gehostete, moderne Low-Code Plattformen an. Low-Code bedeutet hier, dass auch Laien ermöglicht wird hoch performante NLP-Modelle zu entwickeln. Open-Plattform Lösungen, wie die des FH-Aachen Startups TaggingMatters (https://taggingmatters.de/), berücksichtigen den Datenschutz und verbergen gleichzeitig auch die Komplexität der eingesetzten Frameworks. Somit müssen Mitarbeiter in Unternehmen keine Experten für die umfangreichen NLP- bzw. ML-Tools, wie spaCy oder TensorFlow, und der Mathematik hinter modernen Verfahren werden, sondern können sich auf die wertschöpfenden Tätigkeiten konzentrieren.

Solche Plattformen erlauben, neben dem Vorbereiten der Daten (“Tagging”), die optimierte Erstellung der KI und Bereitstellung von KI-Services. Dadurch können die oben beschriebenen Iterationen, auch ohne NLP-Erfahrung, um ein Vielfaches schneller durchlaufen werden. Letzten Endes profitiert das Unternehmen von niedrigeren Entwicklungskosten und schnellerem Return-On-Invest, denn das eigentliche Ziel, die Verbesserung von Geschäftsprozessen, darf nicht aus den Augen verloren werden.

Zusammenfassung

Das Vorhandensein und Verschärfung von Datenschutzrechten erschwert die Einführung von NLP bei zahlreichen Unternehmen unterschiedlichster Domänen. Eine Anonymisierung vor Herausgabe von Daten an externe Software-Firmen oder der Einsatz einer Low-Code-Plattform kann hier Abhilfe schaffen. Ein kritischer Punkt ist die erreichbare Qualität der auf anonymisierten Daten trainierten Modelle und deren Messung durch das auftraggebende Unternehmen. Ein iterativer Optimierungsprozess zur Modellerstellung und -optimierung mit mehrfachem Feedback ist hierbei unumgänglich.

Mit Blick auf die Zukunft werden automatische Verarbeitungen im digitalen Kontext immer wichtiger werden. Vor allem bezüglich Onlinezugangsgesetz (OZG) werden immer mehr Unternehmen daran interessiert sein, ihre Prozesse zu optimieren. Dabei wird vermehrt externe Unterstützung notwendig sein, die mit der hier gezeigten Vorgehensskizze oder dem Einsatz von Low-Code Plattformen umsetzbar ist.

[1] P. Kohl, O. Schmidts, L. Klöser, H. Werth, B. Kraft und A. Zündorf, „STAMP 4 NLP – An Agile Framework for Rapid Quality-Driven NLP Applications Development,“ [Online]. Available: https://link.springer.com/chapter/10.1007%2F978-3-030-85347-1_12.

[2] Datenethikkommission, „Empfehlungen der Datenethikkommission für die Strategie Künstliche Intelligenz der Bundesregierung,“ [Online]. Available: https://www.bmjv.de/SharedDocs/Downloads/DE/Ministerium/ForschungUndWissenschaft/DEK_Empfehlungen.pdf?__blob=publicationFile&v=2.

[3] S. C. A. Probst Eide, „Der aktuelle Entwicklungsstand von Tools zur Daten-Anonymisierung,“ [Online]. Available: https://www.it-finanzmagazin.de/entwicklungsstand-daten-anonymisierung-73373/.

[4] D. Barth-Jones, „The ‘Re-Identification’ of Governor William Weld’s Medical Information: A Critical Re-Examination of Health Data Identification Risks and Privacy Protections, Then and Now,“ [Online]. Available: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2076397. [Zugriff am 15 12 2021].

Weitere Fachbeiträge rund ums Thema Digitale Transformation

Registrieren sie sich jetzt KOSTENLOS um von folgenden Vorteilen zu profitieren:

Newsletter

iDA Shop

Prof. Dr. Bodo Kraft ist Gründer und Leiter des Labors Business Programming. Er betreibt dort seit über zehn Jahren zusammen mit aktuell fünf Promovierenden anwendungs-orientierte Forschung im Umfeld von Computer-Linguistik. Gemeinsame Basis der unterschiedlichen Projekte ist die Problemstellung, massenhaft anfallende, natürlichsprachliche Dokumente effizient und automatisiert zu verarbeiten.

Die erfolgreiche Anpassung der Lösungen auf die jeweilige Domäne ist hierbei elementar. Ein weiterer Schwerpunkt liegt auf einer agilen, qualitätsgetriebenen Vorgehensweise zur Erstellung betrieblich verwertbarer und wartbarer Softwaresysteme.

Prof. Dr.-Ing. Matthias Meinecke

Prof. Dr.-Ing. Matthias Meinecke

Prof. Dr. Matthias Meinecke (Professor für Operations Management, Vorstand am Institut für Digitalisierung Aachen, FH Aachen) lehrt, forscht und berät zu Themen der Optimierung und Automatisierung von Geschäftsprozessen.

Zusammen mit Prof. Dr. Kraft ist er Coach des Start-Ups TaggingMatters, welches Produkte und Services für die effiziente, automatisierte Verarbeitung menschlicher Sprache zur Optimierung von Unternehmensprozessen entwickelt

M. Sc. Ines Larissa Siebigteroth

M. Sc. Ines Larissa Siebigteroth

M. Sc. Ines Larissa Siebigteroth hat an der FH Aachen und der University of Wisconsin-Milwaukee Technomathematik studiert und promoviert nun bei Prof. Dr. Bodo Kraft.
Frau Siebigteroth ist Teil des Labor Business Programming. Ihr Fokus liegt auf NLP und besonders auf der datenschutzkonformen Erstellung hochwertiger Korpora zur automatisierten Verarbeitung natürlicher Sprache.