Differential Privacy - eine Einführung
In unserem vorherigen Beitrag haben wir die Datenschutzrisiken erörtert, die sich aus der zunehmenden Menge an personenbezogenen Daten ergeben, die in unserer Zeit von der Gesellschaft gesammelt, verarbeitet und konsumiert werden. Der Schutz vor Verlusts geschützter Informationen bei der Analyse sensibler Datensätze ist daher heutzutage eine der größten Herausforderungen für die Datenwissenschaft.
Man könnte denken, dass die Veröffentlichung aggregierter Statistiken über einen Datensatz, beispielsweise des Mittelwerts eines bestimmten Features, die Privatsphäre seiner einzelnen Datenpunkte schützt: Spezifische Informationen einzelner Datenpunkte werden nicht offengelegt. Leider ist dies keineswegs der Fall. Um dies näher zu beleuchten, stellen wir das folgende Beispiel vor. Stellen Sie sich vor, Ihre Personalabteilung versendet zu Beginn eines jeden Monats einen Newsletter mit aktuellen Informationen über die Mitarbeiter. Der Newsletter stellt unter anderem die neuen Mitarbeiter ab dem kommenden Monat vor, gratuliert den aktuellen Mitarbeitern, die im kommenden Monat ihren Geburtstag feiern, und gibt das Durchschnittsalter der aktuellen Mitarbeiter an. Da das Alter von Personen als private Information betrachtet wird, wird nur deren Durchschnittswert veröffentlicht. Auf den ersten Blick scheint es unmöglich, auf der Grundlage dieser monatlich veröffentlichten aggregierten Statistik auf das Alter eines einzelnen Mitarbeiters zu schließen.
Betrachten wir diese Situation näher. Ihr Chef ist der einzige, der im kommenden Monat seinen Geburtstag feiert, und er wird das Unternehmen vor Ende des Monats verlassen. Außerdem werden in diesem Monat keine neuen Mitarbeiter in das Unternehmen eintreten. Wenn Sie das Durchschnittsalter der im Newsletter dieses Monats gemeldeten Mitarbeiter mit dem im nächsten Newsletter vergleichen, können Sie das Alter Ihres Chefs leicht errechnen. Eine eindeutige Verletzung des Datenschutzes!
Das obige Szenario ist zwar nur ein Beispiel, zeigt jedoch, wie selbst die Veröffentlichung scheinbar harmloser Statistiken unbeabsichtigt Bedrohungen für die Privatsphäre Ihrer Daten darstellen kann. Vielleicht ist es kein so großes Problem, das tatsächliche Alter einer Person preiszugeben, aber was wäre, wenn Sie ungewollt Informationen über die Gesundheit einer Person preisgeben? Nun, das wäre gelinde gesagt unerwünscht.
Glücklicherweise hilft in Situationen wie diesen Differential Privacy (DP). Kehren wir zu unserem Beispiel zurück für eine intuitive Beschreibung der Funktionsweise von DP. Um eine Differential Privacy Schätzung des Durchschnittsalters der Mitarbeiter zu erhalten, wird zunächst das tatsächliche Alter jedes Mitarbeiters durch Hinzufügen einer Zufallszahl in einem geeigneten Intervall um Null, z.B. [-100, 100], verändert. Wir werden in den nächsten Blogeinträgen diskutieren, wie diese Intervallgrenzen sinnvoll ausgewählt werden. Wenn beispielsweise das tatsächliche Alter von John 34 Jahre beträgt, würde sein verrauschtes Alter beispielsweise 39 Jahre betragen, während das verrauschte Alter des 56-jährigen Mike 47 Jahre betragen würde. Der Mittelwert des verrauschten Alters und nicht das tatsächliche Alter der Mitarbeiter wird dann im Newsletter berichtet. Sofern genügend Mitarbeiter an der Berechnung beteiligt sind, ist das gemeldete Durchschnittsalter damit eine verlässlich gute Annäherung an das tatsächliche Durchschnittsalter. Und der entscheidender Punkt: Da für die Berechnung des Mittelwerts die verrauschten und nicht die tatsächlichen Altersdaten der Mitarbeiter verwendet wurden, kann eine Datenschutzverletzung wie die oben beschriebene hier nicht mehr auftreten: Das Alter Ihres Chefs sowie das jedes anderen Mitarbeiters ist geschützt!
Wenn Sie bis hierhin gelesen haben, taucht vermutlich eine Frage auf: Wie kann der Mittelwert des verrauschten Alters eine verlässliche Schätzung des tatsächlichen Durchschnittsalters sein? Da die zu jedem Alter hinzugefügten Zufallszahlen aus einer Verteilung um den Mittelwert Null gezogen werden, heben sie sich gegenseitig auf, wenn Sie über ausreichend viele mitteln: Der Mittelwert der Zufallszahlen nähert sich Null, daher erhalten Sie bei der Mittelung des verrauschten Alters, einen Wert, der dem der tatsächlichen Altersdaten plus einen Wert relativ nahe Null entspricht. Sie erhalten so ein verlässliches Durchschnittsalter, obwohl kein Mitarbeiter sein tatsächliches Alter angegeben hat! Es sollte jetzt auch klar sein, warum die Erhöhung der Anzahl der Mitarbeiter, die an der DP-Berechnung beteiligt sind, die Qualität des Ergebnisses verbessert.
Dieses einfache Beispiel zeigt, wie die Veröffentlichung von DP Statistiken über eine große Gruppe von Personen die Privatsphäre einzelner Personen in der Gruppe schützt. Obwohl dies nicht die einzige nützliche Anwendung von DP ist, ist DP kein Selbstläufer für den Schutz von Daten. Insbesondere können Herausforderungen auftreten, wenn wiederholt DP-Schätzungen derselben Statistik über dieselben Daten veröffentlicht werden. Diese Herausforderung und der richtige Umgang mit ihr werden in unseren nächsten Blog-Beiträgen erörtert, in denen wir auf die mathematische Formulierung von DP zurückgreifen werden. Durch die genauere Beschreibung von DP werden wir auch die Wahl des Intervalls [-100, 100] für die Zufallszahlengenerierung im obigen Beispiel motivieren.