DSGVO in Deutschland: Die Herausforderungen des deutschen Datenschutzes

GDPR in Germany - GDPR stars with German flag

Share This Post

Mit mehr als 100 Millionen deutschsprachigen Menschen weltweit gibt es viele Anwendungsfälle für die Entfernung personenbezogener Daten aus deutschen Texten, einschließlich der Einhaltung der Datenschutzgrundverordnung (DSGVO) in Deutschland und anderswo. Da es viele datenschutzfreundliche De-Identifizierungslösungen gibt, die für die englische Sprache optimiert sind, könnte man annehmen, dass es einfach wäre, dieselben Ansätze auf den nahen sprachlichen Verwandten, das Deutsche, zu übertragen. In Wirklichkeit bringt die Entfernung von personenbezogenen Daten im Deutschen jedoch ganz eigene Probleme mit sich, die wiederum die Einhaltung der DSGVO erschweren, wenn die betreffenden Daten auf Deutsch sind. Lesen Sie weiter, um zu erfahren, warum die De-Identifizierung personenbezogener Daten auf Deutsch schwieriger ist, als Sie vielleicht vermutet haben, und wie sich dies auf die Einhaltung der DSGVO auswirken kann.

Komposita

Eines der hervorstechendsten grammatikalischen Merkmale des Deutschen ist vielleicht das, was Linguisten als Komposita bezeichnen: Wörter, die aus mehreren kürzeren Stamm-Morphemen oder Wortteilen zusammengesetzt sind, die jeweils für sich allein eine Bedeutung haben. Zusammensetzungen gibt es auch im Englischen: Wörter wie sunflower (sun + flower) oder notebook (note + book). Im Deutschen sind Zusammensetzungen häufiger und können die Länge von etwas haben, das im Englischen einem halben Satz entspricht – zum Beispiel Datenschutzgrundverordnung, auf English General Data Protection Regulation:

Die Häufigkeit und das Ausmaß von Zusammensetzungen im Deutschen stellen ein Problem für transformatorbasierte Ansätze dar, die für die Verwendung von Leerzeichen zur Erkennung der Wortgrenzen optimiert sind. Wie kann ein AI-Modell ein Wort erkennen, das in einem anderen Wort „versteckt“ ist? Betrachten wir die folgenden deutschen Verbindungen:

– gesamtschweizerischen 
– englischsprachig 
 Professorengehalt 

Jedes Beispiel enthält sowohl quasi-identifizierbare Informationen als auch allgemeines Material. Ein solides System zur Entfernung personenbezogener Daten muss in der Lage sein, zu unterscheiden, welche Informationen identifizierende Charakteristiken haben, und nur die identifizierenden Elemente zu entfernen, um die DSGVO und die deutschen Datenschutzbestimmungen einzuhalten und gleichzeitig eine lesbare und nützliche Entfernungsausgabe zu erzeugen.

Beugung und Ableitung

Neben der umfangreichen Verwendung komplexer Wortbildung durch Komposita verfügt die deutsche Sprache über ein reichhaltiges und komplexes morphologisches System, das seit langem als Hindernis für herkömmliche Systeme zur Erkennung benannter Entitäten (Named Entity Recognition – NER) gilt, die für den Datenschutz in Deutschland, einschließlich der Einhaltung der DSGVO, unerlässlich sind.

Es wurde zum Beispiel festgestellt, dass eine große Herausforderung für die NER-Erkennung und damit für die Bemühungen um den Datenschutz in Deutschland die Allgegenwart von morphologisch abgeleiteten Wörtern im Deutschen ist. Bei der Ableitung handelt es sich um einen Wortbildungsprozess, bei dem die Wortart eines Grundworts durch das Hinzufügen von Affixen oder Wortteilen, die an Stammmorpheme angehängt werden, verändert wird. Ein Beispiel für ein auf diese Weise abgeleitetes deutsches Wort ist lutherisch, das sich aus dem Eigennamen [Martin] Luther mit dem angefügten Suffixischen zusammensetzt (Klimek et al. 2017). Die Schwierigkeit bei der Entitätserkennung wird noch deutlicher im Fall der sogenannten Null-Ableitung, bei der ein und dasselbe Wort zu verschiedenen Wortarten gehören und mehrere Bedeutungen haben kann, ohne dass sich die Oberflächenform ändert. So kann beispielsweise das Wort Birnbaum entweder ein allgemeines Substantiv sein oder der Nachname einer Person. Wenn ein NER-System auf eine Zeichenkette wie Birnbaum stößt, muss es in der Lage sein, aus dem umgebenden sprachlichen Kontext zu schließen, dass es sich nur bei letzterem um personenbezogene Daten handelt, andernfalls wird es die DSGVO in Deutschland nicht einzuhalten helfen vermögen. Eine Studie stellt fest, dass drei von vier NER-Systemen nicht in der Lage waren, zwischen solchen Homonymen „mit einem ungeraden Verhältnis von bis zu 13,7“ zu unterscheiden (Helmers 2013, frei übersetzt).

Eine weitere Herausforderung für die Erkennung personenbezogener Daten auf Deutsch und damit für die Einhaltung der DSGVO, wenn es sich um deutsche Daten handelt, ist die umfangreiche Flexionsmorphologie der Sprache, durch die Wortteile einem Wort grammatische Bedeutung verleihen. Dieses System, das sich ausschließlich auf Substantive bezieht, umfasst bekanntlich vier Fälle (Nominativ, Akkusativ, Dativ, Genitiv), die die syntaktische Funktion eines Substantivs in einem Satz angeben, drei grammatische Geschlechter (Femininum, Maskulinum, Neutrum), die sich von dem unterscheiden, was man als soziales Geschlecht versteht, und eine zweiseitige Zahlenunterscheidung (Singular, Plural). Zusammengenommen bedeutet dies, dass ein bestimmtes Substantiv mehrere verschiedene Formen annehmen kann, je nach seiner syntaktischen Position im Satz und der Entität(en), auf die sich der Begriff bezieht. Diese Formenvielfalt macht eine RegEx-basierte Lösung sowohl unpraktisch als auch unzureichend, stellt aber selbst für AI-Systeme eine Herausforderung dar.

Unabhängig davon, ob ein Wort durch Ableitung, Flexion oder beides gebildet wurde, liegt die Annahme nahe, dass die NER-Erkennung umso schwieriger wird, je komplexer ein Wort ist. Diese Annahme hat empirische Unterstützung in Studien wie der von Klimek et al. (2017) gefunden, die herausfanden, dass Entitäten, die vom NER-System übersehen wurden (falsche negative), mit 8-fach höherer Wahrscheinlichkeit morphologisch komplex waren als korrekt erkannte und entfernte Entitäten (echte positive).

Erschwerend kommt hinzu, dass die Flexionsmorphologie deutscher Substantive nicht nur auf Substantive beschränkt ist, sondern natürlich auch andere Wörter innerhalb einer Substantivphrase, wie Adjektive und Artikel, betrifft. Insbesondere die geschlechtsspezifischen Merkmale dieser Wörter können Informationen über eine Person preisgeben, wenn sie nicht entfernt oder anderweitig neutralisiert werden. Dies ist im Englischen anders, wie die folgenden Beispiele zeigen. Es variieren die deutschen Artikel und Adjektive im Gegensatz zum Englischen und passen sich dem Geschlecht des folgenden Substantivs an. Unter bestimmten Umständen könnten diese Informationen gemäß der DSGVO als personenbezogene Daten betrachtet werden, wenn sie auf Deutsch geschrieben werden, während sie im Englischen geschlechtsneutral sind.

The doctor saw the young woman.
Der Doktor sah die junge Frau

The doctor saw the young man. 
Der Doktor sah den jungen Mann.

Rechtschreibung

Ein weiterer Faktor, der beim Umgang mit dem deutschen Datenschutz in Textform Probleme bereitet, ist die Orthographie, d. h. die akzeptierten Konventionen in Bezug auf Buchstaben und Rechtschreibung.

Im Englischen ist die Großschreibung, abgesehen von Satzanfängen, meist auf Eigennamen (d. h. Substantive, die spezifisch und nicht allgemein sind) beschränkt. Die Großschreibung ist daher ein nützlicher Anhaltspunkt, wenn es darum geht, benannte Entitäten im Englischen zu identifizieren. Im Gegensatz dazu werden im Deutschen bekanntermaßen alle Substantive großgeschrieben, unabhängig davon, ob es sich um Eigennamen oder Gattungsnamen handelt. Wenn beispielsweise sowohl „die Türkei“ als auch „der Löffel“ großgeschrieben werden, ist die Großschreibung kein so nützlicher Anhaltspunkt, um festzustellen, welcher Begriff sich auf eine benannte Entität bezieht.

Eine weitere deutsche Besonderheit, die englische NER-Systeme nicht kennen, ist die Verwendung der vier „Sonderzeichen“ zusätzlich zu den 26 „Grundbuchstaben“ des lateinischen Alphabets, nämlich, ä, ö, ü und das ß. Wenn man mit einem eingeschränkten Zeichensatz tippt, gibt es alternative Schreibweisen für diese Zeichen (ae, oe, ue und ss) die mitunter verwendet werden. Selbst wenn man den vollen Zeichensatz zur Verfügung hat, hängt es oft von dem Dialekt und dem individuellen Verfasser ab, ob ein Wort mit „ß“ oder „ss“ geschrieben wird, um die Sache noch ein wenig interessanter zu machen.

Auch haben sich die deutschen Rechtschreibregeln im Laufe der Zeit geändert. Die Regierungen mehrerer deutschsprachiger europäischer Länder einigten sich 1996 auf eine Reihe von Rechtschreibreformen. Man mag sich erinnern, dass das, was folgte, ein Jahrzehnt voller Kontroversen, Kompromisse und sogar rechtlicher Anfechtungen war. Auch wenn sich die Lage inzwischen weitgehend beruhigt hat, bedeutet dies immer noch, dass die Schreibweise desselben Wortes in vielen Fällen je nach Jahr (oder Ort) der Niederschrift in verschiedenen Datensätzen variieren kann. Diese orthografischen Unterschiede machen ein NER-System noch komplexer. Unterschiede in der Rechtschreibung, die einem menschlichen Leser unbedeutend erscheinen, können dazu führen, dass Wörter von einem NER-Tokenizer ganz anders aufgespalten werden. Die folgende Tabelle zeigt drei Beispiele, bei denen alternative Schreibweisen zu einer unterschiedlichen Tokenisierung der Wörter führen.

Old German spelling
New German spelling

Schiffahrtskapitän
‘sea-faring captain’

['Schiff', '##ahrt', '##skap', '##itä', '##n']

Schifffahrtskapitän
‘sea-faring captain’

['Schiff', '##fahrts', '##kapit', '##än']

Ballettänzer
‘ballet dancer’

['Ballett', '##än', '##zer']

Balletttänzer
‘ballet dancer’

['Ballett', '##tä', '##n', '##zer']

Streßtherapie
‘stress therapy’

[Stre', '##ßt', '##herapie']

Stresstherapie
‘stress therapy’

['Stress', '##ther', '##apie']

An dieser Stelle kann Technologie helfen. Wie wir jedoch oben erläutert haben, stellt die deutsche Sprache eine Herausforderung selbst für leistungsstarke Tools, die auf maschinellem Lernen basieren, dar. Wenn Sie den Erwerb einer Technologie zur Unterstützung der Identifizierung und Entfernung von personenbezogenen Daten in Erwägung ziehen, müssen Sie daher darauf achten, ob diese für die Sprachen, die in Ihrem Datensatz vorkommen, optimiert wurde. Wenn Sie hingegen selbst eine Lösung entwickeln möchten, sollten Sie die Liste der Schwierigkeiten, die Sie bei der Erzielung einer hohen Genauigkeit bei der Identifizierung von personenbezogenen Daten erwarten, um die sprachlichen Fallstricke ergänzen.

Private AI verfügt über das nötige interne Know-how, um unsere Datenmodule in vielen verschiedenen Sprachen zu trainieren. Bislang sind es 49 und weitere werden stets hinzugefügt. Um die Technologie in Aktion zu sehen, probieren Sie unsere Web-Demo aus oder fordern Sie einen API-Schlüssel an, um sie mit Ihren eigenen Daten zu testen.

Subscribe To Our Newsletter

Sign up for Private AI’s mailing list to stay up to date with more fresh content, upcoming events, company news, and more! 

More To Explore

Download the Free Report

Request an API Key

Fill out the form below and we’ll send you a free API key for 500 calls (approx. 50k words). No commitment, no credit card required!

Language Packs

Expand the categories below to see which languages are included within each language pack.
Note: English capabilities are automatically included within the Enterprise pricing tier. 

French
Spanish
Portuguese

Arabic
Hebrew
Persian (Farsi)
Swahili

French
German
Italian
Portuguese
Russian
Spanish
Ukrainian
Belarusian
Bulgarian
Catalan
Croatian
Czech
Danish
Dutch
Estonian
Finnish
Greek
Hungarian
Icelandic
Latvian
Lithuanian
Luxembourgish
Polish
Romanian
Slovak
Slovenian
Swedish
Turkish

Hindi
Korean
Tagalog
Bengali
Burmese
Indonesian
Khmer
Japanese
Malay
Moldovan
Norwegian (Bokmål)
Punjabi
Tamil
Thai
Vietnamese
Mandarin (simplified)

Arabic
Belarusian
Bengali
Bulgarian
Burmese
Catalan
Croatian
Czech
Danish
Dutch
Estonian
Finnish
French
German
Greek
Hebrew
Hindi
Hungarian
Icelandic
Indonesian
Italian
Japanese
Khmer
Korean
Latvian
Lithuanian
Luxembourgish
Malay
Mandarin (simplified)
Moldovan
Norwegian (Bokmål)
Persian (Farsi)
Polish
Portuguese
Punjabi
Romanian
Russian
Slovak
Slovenian
Spanish
Swahili
Swedish
Tagalog
Tamil
Thai
Turkish
Ukrainian
Vietnamese

Rappel

Testé sur un ensemble de données composé de données conversationnelles désordonnées contenant des informations de santé sensibles. Téléchargez notre livre blanc pour plus de détails, ainsi que nos performances en termes d’exactitude et de score F1, ou contactez-nous pour obtenir une copie du code d’évaluation.

99.5%+ Accuracy

Number quoted is the number of PII words missed as a fraction of total number of words. Computed on a 268 thousand word internal test dataset, comprising data from over 50 different sources, including web scrapes, emails and ASR transcripts.

Please contact us for a copy of the code used to compute these metrics, try it yourself here, or download our whitepaper.