Mit mehr als 100 Millionen deutschsprachigen Menschen weltweit gibt es viele Anwendungsfälle für die Entfernung personenbezogener Daten aus deutschen Texten, einschließlich der Einhaltung der Datenschutzgrundverordnung (DSGVO) in Deutschland und anderswo. Da es viele datenschutzfreundliche De-Identifizierungslösungen gibt, die für die englische Sprache optimiert sind, könnte man annehmen, dass es einfach wäre, dieselben Ansätze auf den nahen sprachlichen Verwandten, das Deutsche, zu übertragen. In Wirklichkeit bringt die Entfernung von personenbezogenen Daten im Deutschen jedoch ganz eigene Probleme mit sich, die wiederum die Einhaltung der DSGVO erschweren, wenn die betreffenden Daten auf Deutsch sind. Lesen Sie weiter, um zu erfahren, warum die De-Identifizierung personenbezogener Daten auf Deutsch schwieriger ist, als Sie vielleicht vermutet haben, und wie sich dies auf die Einhaltung der DSGVO auswirken kann.
Komposita
Eines der hervorstechendsten grammatikalischen Merkmale des Deutschen ist vielleicht das, was Linguisten als Komposita bezeichnen: Wörter, die aus mehreren kürzeren Stamm-Morphemen oder Wortteilen zusammengesetzt sind, die jeweils für sich allein eine Bedeutung haben. Zusammensetzungen gibt es auch im Englischen: Wörter wie sunflower (sun + flower) oder notebook (note + book). Im Deutschen sind Zusammensetzungen häufiger und können die Länge von etwas haben, das im Englischen einem halben Satz entspricht – zum Beispiel Datenschutzgrundverordnung, auf English General Data Protection Regulation:
Die Häufigkeit und das Ausmaß von Zusammensetzungen im Deutschen stellen ein Problem für transformatorbasierte Ansätze dar, die für die Verwendung von Leerzeichen zur Erkennung der Wortgrenzen optimiert sind. Wie kann ein AI-Modell ein Wort erkennen, das in einem anderen Wort „versteckt“ ist? Betrachten wir die folgenden deutschen Verbindungen:
– gesamtschweizerischen
– englischsprachig
– Professorengehalt
Jedes Beispiel enthält sowohl quasi-identifizierbare Informationen als auch allgemeines Material. Ein solides System zur Entfernung personenbezogener Daten muss in der Lage sein, zu unterscheiden, welche Informationen identifizierende Charakteristiken haben, und nur die identifizierenden Elemente zu entfernen, um die DSGVO und die deutschen Datenschutzbestimmungen einzuhalten und gleichzeitig eine lesbare und nützliche Entfernungsausgabe zu erzeugen.
Beugung und Ableitung
Neben der umfangreichen Verwendung komplexer Wortbildung durch Komposita verfügt die deutsche Sprache über ein reichhaltiges und komplexes morphologisches System, das seit langem als Hindernis für herkömmliche Systeme zur Erkennung benannter Entitäten (Named Entity Recognition – NER) gilt, die für den Datenschutz in Deutschland, einschließlich der Einhaltung der DSGVO, unerlässlich sind.
Es wurde zum Beispiel festgestellt, dass eine große Herausforderung für die NER-Erkennung und damit für die Bemühungen um den Datenschutz in Deutschland die Allgegenwart von morphologisch abgeleiteten Wörtern im Deutschen ist. Bei der Ableitung handelt es sich um einen Wortbildungsprozess, bei dem die Wortart eines Grundworts durch das Hinzufügen von Affixen oder Wortteilen, die an Stammmorpheme angehängt werden, verändert wird. Ein Beispiel für ein auf diese Weise abgeleitetes deutsches Wort ist lutherisch, das sich aus dem Eigennamen [Martin] Luther mit dem angefügten Suffix –ischen zusammensetzt (Klimek et al. 2017). Die Schwierigkeit bei der Entitätserkennung wird noch deutlicher im Fall der sogenannten Null-Ableitung, bei der ein und dasselbe Wort zu verschiedenen Wortarten gehören und mehrere Bedeutungen haben kann, ohne dass sich die Oberflächenform ändert. So kann beispielsweise das Wort Birnbaum entweder ein allgemeines Substantiv sein oder der Nachname einer Person. Wenn ein NER-System auf eine Zeichenkette wie Birnbaum stößt, muss es in der Lage sein, aus dem umgebenden sprachlichen Kontext zu schließen, dass es sich nur bei letzterem um personenbezogene Daten handelt, andernfalls wird es die DSGVO in Deutschland nicht einzuhalten helfen vermögen. Eine Studie stellt fest, dass drei von vier NER-Systemen nicht in der Lage waren, zwischen solchen Homonymen „mit einem ungeraden Verhältnis von bis zu 13,7“ zu unterscheiden (Helmers 2013, frei übersetzt).
Eine weitere Herausforderung für die Erkennung personenbezogener Daten auf Deutsch und damit für die Einhaltung der DSGVO, wenn es sich um deutsche Daten handelt, ist die umfangreiche Flexionsmorphologie der Sprache, durch die Wortteile einem Wort grammatische Bedeutung verleihen. Dieses System, das sich ausschließlich auf Substantive bezieht, umfasst bekanntlich vier Fälle (Nominativ, Akkusativ, Dativ, Genitiv), die die syntaktische Funktion eines Substantivs in einem Satz angeben, drei grammatische Geschlechter (Femininum, Maskulinum, Neutrum), die sich von dem unterscheiden, was man als soziales Geschlecht versteht, und eine zweiseitige Zahlenunterscheidung (Singular, Plural). Zusammengenommen bedeutet dies, dass ein bestimmtes Substantiv mehrere verschiedene Formen annehmen kann, je nach seiner syntaktischen Position im Satz und der Entität(en), auf die sich der Begriff bezieht. Diese Formenvielfalt macht eine RegEx-basierte Lösung sowohl unpraktisch als auch unzureichend, stellt aber selbst für AI-Systeme eine Herausforderung dar.
Unabhängig davon, ob ein Wort durch Ableitung, Flexion oder beides gebildet wurde, liegt die Annahme nahe, dass die NER-Erkennung umso schwieriger wird, je komplexer ein Wort ist. Diese Annahme hat empirische Unterstützung in Studien wie der von Klimek et al. (2017) gefunden, die herausfanden, dass Entitäten, die vom NER-System übersehen wurden (falsche negative), mit 8-fach höherer Wahrscheinlichkeit morphologisch komplex waren als korrekt erkannte und entfernte Entitäten (echte positive).
Erschwerend kommt hinzu, dass die Flexionsmorphologie deutscher Substantive nicht nur auf Substantive beschränkt ist, sondern natürlich auch andere Wörter innerhalb einer Substantivphrase, wie Adjektive und Artikel, betrifft. Insbesondere die geschlechtsspezifischen Merkmale dieser Wörter können Informationen über eine Person preisgeben, wenn sie nicht entfernt oder anderweitig neutralisiert werden. Dies ist im Englischen anders, wie die folgenden Beispiele zeigen. Es variieren die deutschen Artikel und Adjektive im Gegensatz zum Englischen und passen sich dem Geschlecht des folgenden Substantivs an. Unter bestimmten Umständen könnten diese Informationen gemäß der DSGVO als personenbezogene Daten betrachtet werden, wenn sie auf Deutsch geschrieben werden, während sie im Englischen geschlechtsneutral sind.
The doctor saw the young woman.
Der Doktor sah die junge Frau.
The doctor saw the young man.
Der Doktor sah den jungen Mann.
Rechtschreibung
Ein weiterer Faktor, der beim Umgang mit dem deutschen Datenschutz in Textform Probleme bereitet, ist die Orthographie, d. h. die akzeptierten Konventionen in Bezug auf Buchstaben und Rechtschreibung.
Im Englischen ist die Großschreibung, abgesehen von Satzanfängen, meist auf Eigennamen (d. h. Substantive, die spezifisch und nicht allgemein sind) beschränkt. Die Großschreibung ist daher ein nützlicher Anhaltspunkt, wenn es darum geht, benannte Entitäten im Englischen zu identifizieren. Im Gegensatz dazu werden im Deutschen bekanntermaßen alle Substantive großgeschrieben, unabhängig davon, ob es sich um Eigennamen oder Gattungsnamen handelt. Wenn beispielsweise sowohl „die Türkei“ als auch „der Löffel“ großgeschrieben werden, ist die Großschreibung kein so nützlicher Anhaltspunkt, um festzustellen, welcher Begriff sich auf eine benannte Entität bezieht.
Eine weitere deutsche Besonderheit, die englische NER-Systeme nicht kennen, ist die Verwendung der vier „Sonderzeichen“ zusätzlich zu den 26 „Grundbuchstaben“ des lateinischen Alphabets, nämlich, ä, ö, ü und das ß. Wenn man mit einem eingeschränkten Zeichensatz tippt, gibt es alternative Schreibweisen für diese Zeichen (ae, oe, ue und ss) die mitunter verwendet werden. Selbst wenn man den vollen Zeichensatz zur Verfügung hat, hängt es oft von dem Dialekt und dem individuellen Verfasser ab, ob ein Wort mit „ß“ oder „ss“ geschrieben wird, um die Sache noch ein wenig interessanter zu machen.
Auch haben sich die deutschen Rechtschreibregeln im Laufe der Zeit geändert. Die Regierungen mehrerer deutschsprachiger europäischer Länder einigten sich 1996 auf eine Reihe von Rechtschreibreformen. Man mag sich erinnern, dass das, was folgte, ein Jahrzehnt voller Kontroversen, Kompromisse und sogar rechtlicher Anfechtungen war. Auch wenn sich die Lage inzwischen weitgehend beruhigt hat, bedeutet dies immer noch, dass die Schreibweise desselben Wortes in vielen Fällen je nach Jahr (oder Ort) der Niederschrift in verschiedenen Datensätzen variieren kann. Diese orthografischen Unterschiede machen ein NER-System noch komplexer. Unterschiede in der Rechtschreibung, die einem menschlichen Leser unbedeutend erscheinen, können dazu führen, dass Wörter von einem NER-Tokenizer ganz anders aufgespalten werden. Die folgende Tabelle zeigt drei Beispiele, bei denen alternative Schreibweisen zu einer unterschiedlichen Tokenisierung der Wörter führen.
Old German spelling |
New German spelling |
Schiffahrtskapitän |
Schifffahrtskapitän |
---|---|
Ballettänzer |
Balletttänzer |
Streßtherapie |
Stresstherapie |
An dieser Stelle kann Technologie helfen. Wie wir jedoch oben erläutert haben, stellt die deutsche Sprache eine Herausforderung selbst für leistungsstarke Tools, die auf maschinellem Lernen basieren, dar. Wenn Sie den Erwerb einer Technologie zur Unterstützung der Identifizierung und Entfernung von personenbezogenen Daten in Erwägung ziehen, müssen Sie daher darauf achten, ob diese für die Sprachen, die in Ihrem Datensatz vorkommen, optimiert wurde. Wenn Sie hingegen selbst eine Lösung entwickeln möchten, sollten Sie die Liste der Schwierigkeiten, die Sie bei der Erzielung einer hohen Genauigkeit bei der Identifizierung von personenbezogenen Daten erwarten, um die sprachlichen Fallstricke ergänzen.
Private AI verfügt über das nötige interne Know-how, um unsere Datenmodule in vielen verschiedenen Sprachen zu trainieren. Bislang sind es 49 und weitere werden stets hinzugefügt. Um die Technologie in Aktion zu sehen, probieren Sie unsere Web-Demo aus oder fordern Sie einen API-Schlüssel an, um sie mit Ihren eigenen Daten zu testen.