Datenschutz und Künstliche Intelligenz

Jona Boeddinghaus
Jona Boeddinghaus
26.05.2020

Datenschutz ist eine wichtige Voraussetzung für eine freie und faire Gesellschaft. Nur wenn Bürgerinnen und Bürger tatsächlich das Recht haben, über die Verwendung und Veröffentlichung ihrer persönlichen Daten selbst zu bestimmen, können sie sich wahrhaft frei in einer Gesellschaft bewegen.

Erst dieses Grundrecht auf informationelle Selbstbestimmung schafft das Vertrauen der Menschen in eine funktionierende Demokratie, das es braucht, für eine freie Entfaltung der Persönlichkeit und für eine umfassende Handlungsfreiheit.

Ein funktionierender Datenschutz gilt dabei auch als Garant für echte Chancengleichheit und eine praktische Vermeidung von Diskriminierung. Er schützt vor ungewollten Ausgrenzungen oder intransparenten Bewertungen und ermöglicht eine selbstbestimmte Teilhabe im öffentlichen und privaten Leben.

Datenschutz umfasst in seiner rechtlichen Ausformung den Schutz personenbezogener Daten. Schützenswert sind jedoch auch nicht-personenbezogene Daten, wenn sie Rückschlüsse auf geheime Informationen ermöglichen. So haben Unternehmen beispielsweise oft großes Interesse gewisse Daten, welche geschäftskritische Prozesse oder Erfindungen beschreiben, sicher zu schützen.

Datenschutz sollte daher bei der Speicherung und Verarbeitung von Daten immer an erster Stelle stehen.

Auf der anderen Seite steht das wachsende Bedürfnis Daten zu sammeln und diese sinnvoll zu verarbeiten. In Wirtschaft, Forschung und öffentlicher Verwaltung werden mehr Daten gespeichert als jemals zuvor. Das widerspricht zunächst der datenschutzrechtlichen Maxime der Datenminimierung, nach der gemäß der europäischen Datenschutz-Grundverordnung stets so wenig Daten wie möglich, zweckgebunden verarbeitet werden sollen. Hier gilt es mehr Augenmaß und Kontrolle einzuführen. Andererseits ist das Erheben und Verwenden von Daten nicht per se und in jedem Fall zu verurteilen. Alle empirischen Wissenschaften beruhen auf Daten. Datenanalyse ist unerlässlich in der Forschung genauso wie in unzähligen Geschäftsprozessen oder der öffentlichen Verwaltung.

Datenauswertungen können Erfindungen ermöglichen oder Prozesse verbessern und damit zu mehr Wohlstand beitragen; Analysen zu Krankheitsverläufen oder Epidemien können wichtige Informationen liefern, die Menschenleben retten.

In den letzten Jahren hat sich eine Disziplin aus der Computer-Wissenschaft besonders hervorgetan, um die Analyse von großen Datenmengen zu beschleunigen und zu verbessern: die Künstliche Intelligenz, oder genauer, ihr Teilgebiet Maschinelles Lernen. Hierbei entwickeln DatenwissenschaftlerInnen Algorithmen, die selbständig, ausgehend von den ihnen zur Verfügung gestellten Daten, besser werden. Beim Maschinellen Lernen kommen überwiegend komplexe mathematische und statistische Modellierungen zum Einsatz, die besonders dafür geeignet sind, bestimmte, vormals versteckte, allgemeine Eigenschaften von Datensätzen aufzudecken. Das macht das Maschinelle Lernen einerseits zu einem mächtigen Werkzeug der Datenanalyse, welches erfolgreich Anwendung findet in der Industrie zur Optimierung von Prozessen, in der Forschung zur schnelleren und präziseren Entwicklung z.B. neuer Wirkstoff-Kombinationen oder im Gesundheitswesen zur besseren Diagnostik und Behandlung von Krankheiten. Andererseits stellt insbesondere diese Art der Datenverarbeitung den Schutz der Daten vor große Herausforderungen.

Es existieren verschiedene Verfahren zum Schutz von geheimen oder personenbezogenen Daten in der Datenverarbeitung. Die wahrscheinlich bekanntesten und beliebtesten Ansätze sind die Anonymisierung und ihre Schwester-Methode Pseudonymisierung. Dabei werden schützenswerte Teil-Informationen (wie zum Beispiel Namen) aus den Daten entfernt oder durch bestimmte Platzhalter ersetzt. Die dadurch entstehenden Datensätze enthalten augenscheinlich keine personenbezogenen Daten mehr und sind damit nach den Datenschutzgesetzen der EU meist frei verwendbar. Die Logik hierbei ist: wenn die Daten keine personenbezogenen Informationen mehr enthalten, gibt es auch kein Konflikt mit dem Grundsatz der informationellen Selbstbestimmung (einfach, weil dieses „Selbst“ in den Daten ja offenbar nicht mehr vorkommt). Die Datenschutzgesetze fordern, dass eine Zuordnung einer Person zu einem Datensatz ausreichend aufwändig sein muss. Neben – oft unterschätzten Konsequenzen für die Informationssicherheit – wird diese Anforderung mit einer gewissenhaft durchgeführten Anonymisierung scheinbar erfüllt.

Leider sind jedoch anonymisierte Daten keinesfalls sicher. Insbesondere mit Methoden des Maschinellen Lernens ist es ein leichtes, Informationen über einzelne Menschen (oder andere Datenpunkte) aus vermeintlich vollständig anonymisierten Daten zu erlangen. Die folgenden Beispiele sollen dies verdeutlichen:

Im August 2016 veröffentliche die australische Regierung online einen Datensatz mit Aufzeichnungen von medizinischen und pharmazeutischen Rechnungen von ca. 2,9 Millionen Menschen. Identifizierbare Informationen und Rechnungsdaten wurden vorher pseudonymisiert. Australische Wissenschaftler haben daraufhin gezeigt, dass nur unter zu Hilfenahme von ein paar bekannten Tatsachen oder wenigen öffentlichen Informationen Individuen in diesem Datensatz identifiziert werden können (2017, C. Culnane, B. Rubinstein, V. Teague, https://arxiv.org/abs/1712.05627). Und damit ihre höchst schützenswerte, medizinische Historie. In einer weiteren Interessanten Arbeit haben Wissenschaftler von der Belgischen Université catholique de Louvain (UCLouvain) und dem Imperial College London gezeigt, wie einfach es ist, einen beliebigen Datensatz zu de-anonymisieren (2019, L. Rocher, J. Hendrickx, Y-A. de Montjoye, https://www.nature.com/articles/s41467-019-10933-3). Ein Datensatz mit 15 demografischen Attributen würde beispielsweise 99,98% der Menschen in Massachusetts eindeutig identifizierbar machen – wohlgemerkt bei einem Datensatz, der hinsichtlich der Anforderungen der Datenschutzgesetze als vollständig sicher gelten würde.

Selbst wenn eine einfache De-Identifizierung nicht möglich ist, erlauben erweiterte statistische Auswertungen leicht Rückschlüsse auf Eigenschaften einzelner Datenpunkte, die eigentlich geschützt werden sollen. So kann beispielsweise durch wiederholtes Abfragen aggregierter Informationen (etwa Mittelwerte oder Summen) ermittelt werden, ob ein Datenpunkt Bestandteil eines Datensatzes ist oder nicht. Machine Learning Modelle können dazu verwendet werden, die Wahrscheinlichkeit zu berechnen, ob zum Beispiel eine Person Mitglied einer bestimmten Organisation ist oder sogar bestimmte Eigenschaften hat. Diese sogenannten „Membership“ und „Attribute Disclosure“ Angriffe mit Hilfe erweiterter Analyseverfahren sind ohne weiteres auf vermeintlich vollständig anonymisierten Daten anwendbar und stellen damit eine große Bedrohung für effektiven Datenschutz dar.

Die ungewollte Veröffentlichung von Zugehörigkeiten zu Gruppen oder Eigenschaften, kann eine gravierende Beeinträchtigung der informationellen Selbstbestimmung bedeuten. Wenn Bekannte oder mögliche Arbeitgeber mehr über eine Person wissen, als diese bereit ist zu veröffentlichen, oder wenn z.B. eine Versicherung mehr weiß, als die Person angegeben hat, kann das sehr unangenehme soziale und wirtschaftliche Folgen haben.

Ähnliches gilt für die ungewollte Veröffentlichung von Betriebsgeheimnissen. Forschungsergebnisse oder geheime Geschäftsdaten sind immer wieder Ziel von Angriffen auf die Informationssicherheit von Institutionen und Unternehmen. Und erweiterte statistische Analysen ein zunehmend beliebtes Mittel für die Informationsgewinnung.

Maschinelles Lernen aus diesen Gründen zu untersagen ist jedoch weder praktikabel noch, wie oben beschrieben, hinsichtlich des enormen Nutzens in der Forschung und Entwicklung u.a. im Gesundheitswesen empfehlenswert. Nichtsdestotrotz gilt es diese Form der Analyse zu regulieren, auch und insbesondere mit Blick auf ihre Auswirkungen auf den Datenschutz. Modelle des Maschinellen Lernens, die, fertig trainiert für den Einsatz bereit vorliegen, enthalten – gewissermaßen per Definition – immer eine Fülle an Informationen über die Daten, auf denen sie berechnet wurden. Diese Daten zu anonymisieren oder zu pseudonymisieren (oder in irgendeiner anderen Form zu verändern) reicht dabei für einen effektiven Datenschutz nicht aus. Benötigt wird stattdessen eine sichere Methode, den Schutz der Daten berechenbar und damit nachprüfbar zu machen. Glücklicherweise gibt es eine solche Methode: Differential Privacy. Wir arbeiten daran, dass nur noch solche Modelle veröffentlicht werden, die nach dem Prinzip des Differential Privacy berechnet wurden – und damit eine maximale Nutzbarkeit der Daten bei höchstem Datenschutz garantieren.

Wenn Sie mehr wissen möchten über diese Methode, und wie wir bei Gradient Zero dieses mathematische Prinzip in einer sicheren Software-Plattform anwenden und auf das Maschinelle Lernen übertragen, besuchen sie dq0.io oder kontaktieren Sie uns unter dq0@gradient0.com.

 

Alle Blog-Einträge