Data Sharing in der Medizin

Till Böddinghaus
18.10.2021

Aufgrund der Digitalisierung werden auch in Krankenhäusern große Mengen an Daten generiert, gespeichert und zur Behandlung der Patient:innen genutzt. Dass Künstliche Intelligenz und insbesondere neue Machine Learning Algorithmen zu einer verbesserten medizinischen Versorgung beitragen können, ist mittlerweile hinreichend bekannt.

Nichtsdestotrotz stehen wir als Gesellschaft vor der großen Herausforderung sämtliche Daten sinnvoll zu nutzen, ohne die Privatsphäre der Patient:innen zu verletzen.

Neue Regularien wie die DSGVO und die europäische GDPR wurden eingeführt, um zu verhindern, dass sensible Informationen in die falschen Hände gelangen. Auf der einen Seite schützen diese natürlich die Privatsphäre der Patient:innen. Auf der anderen Seite behindert die Gesetzgebung die Einbindung neuer KI Prozessen im medizinischen Sektor, was letztlich den Mehrwert für die Gesellschaft verringert.

Denn die Nutzung der Daten geht über den einzelnen Patienten hinaus. Insbesondere in den Bereichen Forschung und Entwicklung lassen sich mit den wertvollen Daten neue Erkenntnisse ableiten, die wiederum in die Patientenbehandlung zurückfließen. Insofern helfen einzelne Patient:innen mit einer Freigabe der eigenen Daten nicht nur sich selbst, sondern auch anderen Personen und zukünftig Erkrankten. Allein vor diesem Hintergrund lässt sich die dringende Notwendigkeit der Datennutzung erkennen.

Neue Datenstrategien steigern medizinischen Mehrwert

Im Kern kann eine erfolgreiche Datenstrategie von Krankenhäusern und medizinischen Einrichtungen nicht nur dazu beitragen, Erkrankungen besser zu bekämpfen, z.B. im Hinblick auf die Präzisionsmedizin oder der besseren Entscheidungsfindung des medizinischen Personals, sondern auch um Krankheiten besser vorbeugen zu können. So lassen sich mit Hilfe von neuen Algorithmen beispielsweise auffällige Muttermale bei der Hautkrebsvorsorge oder kardiologische Erkrankungen frühzeitig erkennen. Insbesondere die Früherkennung von Krankheiten ergibt unmittelbar einen monetären Profit für die Gesellschaft, da Behandlungs- und Krankenhauskosten vermieden und somit Versicherungskosten gesenkt werden können. Schließlich profitiert vor allem die Forschung von einer prozessgestützten Sekundärnutzung.

Die Sekundärnutzung von Daten muss sichergestellt werden

Stand heute findet die Sekundärnutzung im Gesundheitssektor noch viel zu wenig statt. Die Hindernisse sind schlicht zu groß und das benötigte Personal nicht vorhanden, um sämtliche Prozesse vor Ort zu etablieren. Krankenhäuser beschäftigen selten eigene Teams zur Datenanalyse. Bisherige Versuche der Anonymisierung und Pseudonymisierung sind enorm fehleranfällig und können langfristig keine Lösungen sein. Es bedarf deshalb neuer, wichtiger Schnittstellen, um Daten innerhalb einer medizinischen Einrichtung mit anderen Analysten, Datenpools und Institutionen zu verbinden. Im Folgenden greifen wir diesen Use Case auf und erläutern anhand dieser Problemstellung eine mögliche Lösung des Problems.

Problemstellung: Daten innerhalb einer medizinischen Institution mit einem externen Dienstleister verknüpfen

Wir gehen davon aus, dass innerhalb einer abgeschlossenen Einheit (z.B. einem Krankenhaus) unterschiedliche Patientendaten entstehen (z.B. radiologische Befunde / Bilder oder Laborwerte). Das medizinische Personal plant, diese Daten zur Forschung und Entwicklung zu nutzen. Aufgrund von fehlendem Know-How und zu geringer Arbeitskraft soll ein externer Dienstleister weiterhelfen (z.B. Data Scientists).

Hierdurch entstehen zunächst zwei essentielle Problematiken:

Wie kommen die Daten aus dem Krankenhaus zum Data Scientist und
Wie kann die Einrichtung sicherstellen, dass die Daten vollumfänglich ‚anonym‘ bleiben, sodass die Privatsphäre des/der eigenen Patient:in hinreichend geschützt wird?

In Bezug auf den ersten Punkt gilt es zu erwähnen, dass in der Vergangenheit der normale Vorgang bei der Datenanalyse der Datentransfer vom Ursprung hin zum Ort der Analyse war. Damit der Dienstleister keine Einsicht über persönliche Informationen der Patient:innen erhält, wurden die Daten entweder gar nicht erst verwendet oder es wurde versucht sie zu anonymisieren oder pseudonymisieren, was im Endeffekt die Nutzbarkeit der Daten verringert und sich zusätzlich als keine sichere Datenschutzlösung herausgestellt hat.

Eine Entwicklungsplattform mit Prinzipien der Ethischen KI als Schnittstelle zwischen Dateninhaber und Datenanalyst

Aufgrund von immer neuen Richtlinien und Regularien für die Arbeit mit Künstlicher Intelligenz benötigen Institutionen und ihre Entwickler:innen neue Prozesse und Werkzeuge, um den Rechtsprechungen Folge zu leisten und wirklich vertrauensvolle Applikationen entwickeln zu können. Ein möglicher Lösungsansatz ist daher die Nutzung einer Software Plattform als Schnittstelle zwischen Data Owner und Data User.

Eine Plattform als Schnittstelle kann Lösungen für mehrere Probleme gleichzeitig bieten: So werden robuste und zertifizierte Prozesse benötigt, um sichere Datenanalyse und Machine Learning zu betreiben. Dabei müssen höchste Datenschutzgarantien eingehalten werden und insbesondere die sichere Verteilung und Überwachung von sämtlichen Benutzerrechten müssen gewährleistet sein. Zusätzlich dazu muss die Plattform sichere Schutzbarrieren und technische Maßnahmen bieten, um das höchstmögliche Niveau an Datensicherheit zu erreichen. Die Grundsätze der Ethischen KI müssen direkt in die Entwicklungsprozesse miteinfließen. Kontinuierlicher Support, Updates und regelmäßige Checks stellen ferner eine langfristig sichere Datenverarbeitung sicher.

Vor dem Hintergrund dieser Idee stellt das Krankenhaus die Daten also über eine sicher abgeschlossene Instanz – die Entwicklungsplattform – dem externen Dienstleister zur Verfügung. Dieser erhält vom Dateninhaber nur spezielle Benutzerrechte und über die Plattform Zugriff auf die Daten, ohne, dass diese sich bewegen. Die Daten bleiben abgeschlossen in einer Quarantäne innerhalb des Krankenhausnetzwerkes liegen. Der/die Analyst:in kann anschließend Datenanalysen durchführen, Machine Learning Algorithmen programmieren, trainieren und Ergebnisse erhalten und auswerten.

Die bisherige Vorgehensweise wird umgedreht: Die Daten kommen über die Plattform nicht zum Analysten, sondern der/die Analyst:in kommt über die Plattform zu den Daten.

Differential Privacy als mathematisch fundierte Lösung

Um einen neuen Standard von Datenschutz wirklich zu erfüllen, bedarf es neuer, innovativer Ansätze, die gemeinsam umgesetzt werden müssen. Differential Privacy liefert beispielsweise eine robuste, mathematische Definition des Datenschutzes im Machine Learning. So wird „mathematisch garantiert, dass jemand, der die Ergebnisse einer differenziell privaten Analyse sieht, dieselben Schlüsse über die Informationen eines bestimmtes Individuums zieht, unabhängig davon, ob die Daten dieses Individuums in der Analyse enthalten waren oder nicht.“

Wenn Differential Privacy verwendet wird, erhalten Personen (z.B. die Patient:innen innerhalb des Krankenhausnetzwerkes bzw. das zuständige medizinische Personal) die Möglichkeit, den Informationsfluss, der von der Analyse zu externen Dienstleistern geleaked wird, wirklich zu kontrollieren und zu überwachen. Da der Verlust an Privatsphäre messbar gemacht wird, kann der/die Besitzer:in der Daten die Prozesse erstmals adäquat überwachen.

Kombiniert man die Grundsätze von Differential Privacy mit der Idee einer ganzheitlichen Entwicklungsplattform als Schnittstelle für Datenanalysen und Machine Learning, werden die beiden aufgezeigten Probleme gleichzeitig gelöst und eine neue, sichere Basis für die Forschung und Entwicklung im Gesundheitswesen entsteht.

Gradient Zero führt derzeit in Kooperation mit der Klinik für Radiologie und Nuklearmedizin eines deutschen Universitätsklinikums die Integration unserer KI Entwicklungsplattform DQ0 durch. Mit DQ0 als sichere Datenquarantäne und Schnittstelle zwischen sensitiven Patientendaten und Datenanalysten werden höchste Datenschutzgarantien eingehalten und eine sichere Umgebung für die Entwicklung von Machine Learning und erweiterten Analysen entsteht.

Alle Blog-Einträge