Ein Punkt, der bei der Erstellung von KI-Systemen immer mehr in den Fokus rückt, ist der Datenschutz [2]. Auf Grund der hohen Komplexität in der Erstellung von NLP-Anwendungen sind viele Unternehmen auf die Hilfe von externen Firmen und Entwicklern angewiesen. Dabei sind allerdings Daten, die auch datenschutzkritische Informationen enthalten, herauszugeben, auf deren Basis die neuen Anwendungen trainiert werden. Dies ist der Punkt an dem bisher der Großteil dieser Unternehmen die Einführung von NLP im eigenen Betrieb zurückzieht, da eine Anonymisierung der Daten mit hohem Aufwand verbunden ist.
Insbesondere durch die EU-Datenschutz-Grundverordnung (DSGVO) hat das Thema datenschutzkonforme Anonymisierung von Daten nochmal Aufwind bekommen [3]. Durch die drohenden hohen Strafen bei Zuwiderhandlung stellt der Datenschutz aktuell ein besonders großes Hindernis zur Einführung von NLP dar.
Existierende Verfahren, die relativ einfach die datenschutzkritischen Informationen gegen künstliche austauschen, sind nicht ohne weiteres nutzbar. Dies ist einerseits durch die jeweilige Anwendungsdomäne begründet. Im Kontext von Versicherungen sind exemplarisch sicherlich die Kennungen von Policen, Namen, Ereignisdaten und Adressen als kritisch anzusehen. Hingegen ist im Kontext von medizinischen Daten ein großes Augenmerk auf Attribute wie z.B. Größe, Gewicht, Symptome und Diagnosen zu legen. Folglich sind für jede Domäne erst einmal die kritischen Attribute zu identifizieren.
Zudem ist zu berücksichtigen, dass ausreichend Informationen anonymisiert werden. Wenn mit den verbliebenen Informationen und Hinzunahme einer weiteren Datenquelle wieder Rückschlüsse auf die Ursprungsdaten möglich sind, liegt keine rückschlussfreie Anonymisierung vor. Ein Beispiel hierfür ist die Entfernung des Namens und der Adresse, aber zugleich Erhalt des Geburtsdatums und des Geschlechts in einem medizinischen Bericht. Nimmt man nun das Melderegister hinzu und grenzt es auf den Einzugsbereich des Krankenhauses ein, ist eine Identifikation der betroffenen Person mit geringem Aufwand möglich [4].
Andererseits ist außerdem auch die Auswahlmöglichkeit an Verfahren zu beachten. Hierbei stehen exemplarisch Varianten zur Verfügung, die Namen zufällig gegen die 100 häufigsten Namen innerhalb Deutschlands tauschen. Es ist aber auch ein schematischer 1:1 Austausch denkbar oder komplexere Verfahren möglich. Dabei darf der Einfluss der Anonymisierung auf das zu trainierende Modell nicht unberücksichtigt bleiben. Wenn im produktiven Betrieb der NLP-Anwendung ein Dokument mit einem Namen auftaucht, der nicht zu den 100 häufigsten zählt, kann dieser unter Umständen nicht erkannt werden. Folglich ist der Erhalt der Daten-Varianz innerhalb der anonymisierten Attribute zu berücksichtigen.
Hinzukommt, dass auch die Erhaltung von Zusammenhängen innerhalb der Daten bei der Anonymisierung wichtig ist. Andernfalls wird über Sätze hinweg nicht erkannt, dass auf dieselbe Person Bezug genommen wird oder beschriebene Abläufe miteinander zusammenhängen. Insgesamt schränken bisherige Verfahren durch Informationsverlust das Training von Modellen auf anonymisieren Daten zu sehr ein.
Ziel ist es, das Gleichgewicht zwischen Einhaltung der Datenschutzvorschriften und dem Training einer qualitativ hochwertigen Anwendung zu finden. Ein möglicher Ablauf, wie per Anonymisierung die Einführung von NLP machbar ist, wird in der folgenden Vorgehensskizze dargestellt.