Synthetische Daten – Chancen und Limitationen

Till Böddinghaus
Till Böddinghaus
04.03.2020

In bisherigen Blogposts wurden bereits unterschiedliche Anonymisierungstechniken vor dem Hintergrund von neuen GDPR Regulierungen diskutiert und eine Einleitung zu Differential Privacy gegeben. In diesem Post möchten wir gerne einen Überblick über die Verwendung von synthetischen Daten für verschiedene KI Applikationen geben – insbesondere in Bezug auf Chancen und Limitationen.

Aufgrund der immer größer werdenden Menge und Varietät von Big Data und dem steigendem Interesse an (und Anwendung von) prädiktiven Analysemethoden, wird insbesondere der Schutz der Privatsphäre von Individuen immer wichtiger. Bisher verwendete Anonymisierungstechniken sind zeit- und kostenaufwendig, fehleranfällig und führen häufig zu einem täuschenden Gefühl von Sicherheit. Eine neue Herangehensweise, um sämtliche Charakteristika und Eigenschaften eines ursprünglichen Datensatzes zu erhalten, ohne dabei sensitive Informationen über einzelne Personen öffentlich zu machen ist die Generierung synthetischer Daten. Im Kern versuchen synthetische Daten den ursprünglichen Datensatz zu emulieren.

Datenwissenschaftler und Analysten können synthetische Daten aus einem „echten“ Datensatz generieren mit dem Ziel, sämtliche ursprüngliche Eigenschaften des Datensatzes zu erhalten und mögliche Datenleaks zu vermeiden. In der Theorie kann der synthetische Datensatz anschließend leicht verbreitet und für Analytik und Machine Learning verwendet werden.

Use Case Beispiele & Chancen

Im Idealfall enthält der neue synthetische Datensatz keinerlei sensitive Informationen mehr, die mit einer einzelnen Person in Verbindung gebracht werden können. Somit kann dieser für viele verschiedene Zwecke in unterschiedlichen Industrien verwendet werden.

  • Cloud-Verarbeitung und Migration (mit synthetischen Daten können mehrere Parteien Daten in Cloud Strukturen migrieren)
  • Datensharing (synthetische Daten ermöglichen Firmen das Teilen der Daten mit internen oder externen Partnern)
  • Datenanalyse (die Analyse von synthetischen Daten fällt nicht unter neue GDPR Regularien, somit haben Unternehmen die Möglichkeit die Big Data Analysen auf den Daten (z.B. Kunden- oder Patientendaten) durchzuführen
  • Maschinelles Lernen (der Zugang zu Daten, um Machine Learning Algorithmen zu trainieren kann oft ein langer und schwieriger Prozess sein. Mithilfe synthetischer Daten erhalten externe Teams häufig schneller Zugriff)

Trade-off zwischen Privatsphäre und Nützlichkeit

Natürlich muss bei der Generierung von synthetischen Daten evaluiert werden, inwiefern der neue Datensatz die Validität und Korrektheit des ursprünglichen Datensatzes widerspiegelt. Studien zeigen, dass synthetische Daten nicht immer und nicht vollkommen die Privatsphäre einzelner Individuen schützen. Unabhängig von der Technik zur Generierung synthetischer Daten ist es daher wichtig die dahinterstehende Methodik und die Garantie zur Erhaltung der Privatsphäre aufzuzeigen – zum Beispiel mit Differential Privacy.

Das Arbeiten mit Synthetischen Daten ist folglich nicht der Königsweg; viele Unternehmen werben mit einer sehr hohen Nützlichkeit bei gleichzeitiger Einhaltung von Datenschutz und Privatsphäre. Letztlich kann diese Behauptung häufig nicht standhalten und wird häufig nur aus Marketinggründen propagiert.

Bezüglich der Nützlichkeit der Daten suchen Modelle im originalen Datensatz nach Trends und Verbindungen bei der Generierung von synthetischen Daten. Teilweise werden hier die ursprünglichen Eigenschaften jedoch nicht im gewünschten Maße erhalten. In manchen Fällen führt dies zu einer erheblichen Einschränkung der Analyse und verfälscht die Ergebnisse enorm.

Ein weiterer Faktor ist die Qualität der Originaldaten. Da synthetische Daten direkt aus den Originaldaten generiert werden, ist die Qualität dieser direkt abhängig von der Qualität des ursprünglichen Datensatzes. Beispielsweise könnten gezielte Störungen dazu führen, dass das Modell Daten falsch interpretiert und anschließend inkorrekte Ausgaben liefert.

Aufgrund dieser Limitationen bedarf es häufig einer weiteren Verifikation der Vorgehensweise. Um validierte und nützliche Ergebnisse zu erhalten und zu garantieren, dass ein Output auch präzise ist, muss der Analyst dieselbe Analyse erneut auf dem Originaldatensatz durchführen. Dies widerspricht letztlich der ursprünglichen Idee zur Generierung von synthetischen Daten.

Verschleiern Sie Ihre wertvollen Datensätze mit DQ0s Funktion zur Generierung synthetischer Daten

Angesichts des großen Trade-Offs zwischen Nützlichkeit und Erhaltung der Privatsphäre haben wir uns dazu entschieden die Option zur Generierung synthetischer Daten nur zu einem bestimmten Zweck in DQ0 zu implementieren. Da der externe Analyst keinerlei direkten Zugriff auf die Daten in der Quarantäne hat und deshalb sehr auf sämtliche Informationen über die Datensätze angewiesen ist, die er vom Besitzer der Daten erhält, haben wir die Möglichkeit implementiert, synthetische Daten in einer kontrollierten und messbaren Art und Weise zu generieren. Diese neu entstandenen Daten kann der Analyst anschließend nutzen, um sich mit den echten Daten „vertraut“ zu machen. Dabei wird stets das höchste Maß an Datensicherheit gewährleistet und keinerlei sensitive Informationen nach außen getragen.

Fazit

Synthetische Daten stellen eine gute Möglichkeit dar, um bestimmte Tests durchzuführen oder Datensätze zu erforschen. Zukünftige Entwicklungen und Verbesserungen können dazu führen, dass die Validität und Genauigkeit der neuen Daten verbessert oder zumindest der Prozess transparenter wird. Heutzutage hängt die Qualität von synthetischen Daten sehr stark vom originalen Datensatz ab, wodurch zum einen das Risiko entsteht sensitive Informationen ungewollt preiszugeben und zum anderen die Nutzbarkeit der Daten möglicherweise sehr gering ist.

Aus diesen Gründen setzen wir bei DQ0 auf Differential Privacy Mechanismen, um Ihre Daten so zu erhalten, wie sie sind. Unverändert.

Nur so erhalten Sie die Möglichkeit wirklich mit den echten Daten zu arbeiten, wichtige Erkenntnisse und Ergebnisse zu erhalten und sämtliche Mechanismen zum Schutz der Privatsphäre einzuhalten.

In weiteren Blogposts werden wir synthetische Daten vor einem wissenschaftlichen Hintergrund beleuchten.

 

Alle Blog-Einträge