Unabhängig davon, ob du Gründer oder Entscheidungsträger in der KI-Branche bist oder gerade mit der Entwicklung deines ersten KI-Piloten beginnst; es ist wichtig, sich von Anfang an Gedanken über das Thema Datenschutz zu machen. Besonders einschlägig wird dieses Thema beim Training von KI-Systemen, denn die Wahl der datenschutzrechtlichen Rechtsgrundlage für die Trainingszwecke wirkt sich darauf aus, wie praktisch der Prozess ist und welche Rechte die Personen haben, deren Daten verwendet werden. In diesem Blogbeitrag erläutern wir die wichtigsten Punkte im Einklang mit der EU-Datenschutzgrundverordnung (DSGVO) und dem Schweizer Bundesgesetz über den Datenschutz (DSG).
Verständnis der Datenquellen für KI-Training
Ein wichtiger erster Schritt beim Training von KI-Systemen im Hinblick auf die Einhaltung der DSGVO und des DSG ist es, herauszufinden, ob du personenbezogene Daten verwendest, und wenn ja, woher diese stammen. Dies ist besonders wichtig, da Datenschutzgesetze nur für personenbezogene Daten gelten, nicht aber für anonymisierte Daten.
Der Unterschied zwischen personenbezogenen Daten und anonymisierten / synthetischen Daten beim KI-Training
Personenbezogene Daten sind Daten, mit denen Personen entweder direkt oder indirekt identifiziert werden können. Das KI-Modell kann unter Verwendung personenbezogener Daten trainiert werden, oder du verwendest vielleicht personenbezogene Daten nicht direkt, aber es könnte das Risiko bestehen, dass Personen durch Techniken wie membership inference und model inversion indirekt identifiziert werden. Dies bedeutet, dass die DSGVO- und/oder DSG-Vorschriften auf dein Modell Anwendung finden könnten. Um solch ein Szenario von vornherein auszuschliessen, besteht eine Möglichkeit darin, für das Training deiner KI-Systeme nur anonymisierte Daten zu verwenden. Indem du Daten anonymisierst, unterbrichst du deren Verbindung zu einer bestimmten natürlichen Person. Das bedeutet, dass die DSGVO und DSG-Vorschriften nicht mehr gelten, da die Daten nicht mehr als personenbezogen angesehen werden. Dies ist besonders wichtig, wenn besonders sensible Informationen (z. B. medizinische Daten) als Trainingsdaten verwendet werden sollen. Bedenke jedoch, dass die Anonymisierung von Daten eine komplexe Aufgabe ist. Es ist entscheidend, dass die anonymisierten Informationen nicht mit einer bestimmten Person in Verbindung gebracht werden können. Das bedeutet auch, dass du regelmäßig überprüfen musst, ob die gewählte Anonymisierungsmethode mit den aktuellen Methoden noch als sicher angesehen werden kann.
Eine weitere Lösung kann die Verwendung synthetischer Daten sein, d. h. Daten, die durch Algorithmen erzeugt werden, um reale Daten zu imitieren. Dies ist zwar eine datenschutzfreundlichere Lösung, mit der du unter Umständen der Anwendbarkeit der DSGVO und des DSG entgehen kannst, aber keine absolut sichere Lösung, da die Daten immer noch zu bestimmten Personen zurückverfolgt werden können, je nachdem, wie sie erzeugt wurden oder welche Daten der Synthese zugrunde liegen.
Identifizierung von Datenquellen für KI-Systeme: Sicherstellung der Einhaltung von DSGVO und DSG
Wenn du für dein KI-Training personenbezogene Daten verwenden musst oder einfach nicht ausschließen kannst, dass der Datensatz personenbezogene Daten enthalten könnte, ist der nächste Schritt, einen Blick auf die Datenquelle zu werfen. Personenbezogene Daten für das KI-Training können entweder direkt von den betroffenen Personen oder indirekt erworben werden.
Die direkte Erhebung umfasst Daten, die von den Nutzern bereitgestellt werden. Dies kann in der Phase vor dem Einsatz geschehen – z. B. wenn Patienten zulassen, dass ihre medizinischen Untersuchungen zum Trainieren eines KI-Systems verwendet werden – oder nach dem Einsatz, wenn Nutzer mit KI-Systemen interagieren (z. B. vom Nutzer eingegebene Eingabeaufforderungen in generativen KI-Systemen). Zu den indirekten Quellen gehören im Internet gesammelte Daten und von Dritten (z. B. Datenmaklern) bereitgestellte Daten.
In beiden Fällen musst du sicherstellen, dass die Datenverarbeitung mit den Grundsätzen und Praktiken des Datenschutzes in Einklang steht. Die konkrete Art und Weise, wie dies geschieht, ist jedoch von Fall zu Fall unterschiedlich. Einfach ausgedrückt kann die Art und Weise, wie du personenbezogene Daten sammelst, verschiedene Probleme bei der Einhaltung der DSGVO und der DSGV-Vorschriften verursachen. Wenn du keinen direkten Kontakt zu den Personen hast, deren Daten du verwendest, kann es schwieriger sein, ihre Zustimmung einzuholen und ihre Rechte zu respektieren, z. B. sie über die Datenverarbeitung zu informieren. Darauf werden wir weiter unten näher eingehen.
Die Wahl der richtigen Rechtsgrundlage für das KI Training
Wenn das Datenschutzrecht, insbesondere die DSGVO, Anwendung findet, ist einer der ersten Schritte sicherzustellen, dass du eine Rechtsgrundlage für die Verarbeitung personenbezogener Daten für die Schulung deines KI-Systems hast. In diesem Abschnitt werden wir die wichtigsten Rechtsgrundlagen untersuchen, die in diesem Ökosystem anwendbar sind, und dir konkreten Input zu den Vorteilen und Hürden der einzelnen Rechtsgrundlagen geben.
Allgemeine Rechtsgrundlagen
Während das DSG nicht automatisch eine vorher festgelegte Rechtsgrundlage für die Verarbeitungstätigkeit verlangt, es sei denn, die Datenverarbeitung stellt eine Verletzung der Persönlichkeitsrechte der betroffenen Person dar (z. B. wenn sie gegen ihren ausdrücklichen Willen erfolgt oder wenn sensible personenbezogene Daten mit Dritten geteilt werden), verlangt die DSGVO, für jede Datenverarbeitung eine Rechtsgrundlage anzugeben. Das bedeutet, dass du eine angemessene Rechtsgrundlage für KI-Training festlegen musst, bevor du die personenbezogenen Daten verwendest.
Für die Verarbeitung personenbezogener Daten, die nicht zu einer besonderen Kategorie personenbezogener Daten gehören (z. B. Gesundheitsdaten), können je nach Kontext die folgenden Rechtsgrundlagen anwendbar sein:
- Erfüllung eines Vertrags: Diese Rechtsgrundlage kann verwendet werden, wenn das Training des KI-Systems und die damit verbundene Verarbeitung personenbezogener Daten für die Erfüllung eines Vertrags mit der betroffenen Person unerlässlich sind. Da es sich jedoch um einen Vertrag mit der betroffenen Person selbst handeln muss, ist die Anwendbarkeit sehr begrenzt (z. B. bei der Entwicklung personalisierter KI-Systeme, die auf die betroffene Person zugeschnitten sind, der das System zur Verfügung gestellt wird);
- Einwilligung: Obwohl die Einwilligung auf den ersten Blick eine logische Wahl ist, kann es schwierig sein, sie zu erhalten, insbesondere wenn es sich um im Internet gesammelte Daten handelt. Diese Hürden sind darauf zurückzuführen, dass kein direkter Kontakt zu den betroffenen Personen besteht. Wenn personenbezogene Daten nicht direkt von den betroffenen Personen eingeholt werden, ist die Einwilligung aus diesem Grund möglicherweise keine geeignete Rechtsgrundlage, da es unter diesen Umständen wohl recht schwierig ist, eine informierte, eindeutige, frei erteilte und spezifische Einwilligung zu erhalten;
- Berechtigte Interessen: Die berechtigten Interessen sind eine vielseitige Rechtsgrundlage. In der Praxis musst du eine Interessenabwägung vornehmen, bei der die Notwendigkeit der Schulung deiner KI auf Basis personenbezogener Daten im Vergleich zu den Alternativen und den potenziellen Auswirkungen auf die Rechte der betroffenen Personen überwiegen muss. Auch musst du für Transparenz sorgen, indem du die betroffenen Personen über deine berechtigten Interessen informierst und Opt-out-Mechanismen für das Widerspruchsrecht einrichtest (mehr dazu weiter unten).
Die Wahl der richtigen Rechtsgrundlage will gut überlegt sein. Auch wenn die Wahl der “berechtigten Interessen” zunächst praktisch erscheinen mag, gibt es doch rechtliche Grauzonen. Du musst hier die verschiedenen Bedürfnisse sorgfältig abwägen, um sicherzustellen, dass du die individuellen Rechte der betroffenen Personen respektierst. Dazu gehört, genau darauf zu achten, wie viele und welche Arten von personenbezogenen Daten benötigt werden, ob es sich um besonders schützenswerte Gruppen wie Kinder handelt, und welche Art von Daten verarbeitet werden (echte, synthetische oder pseudonymisierte Daten). Ein erster guter Anfang könnte darin bestehen, technische Maßnahmen zu ergreifen, die ein angemessenes Sicherheitsniveau der verarbeiteten personenbezogenen Daten gewährleisten (z. B. differenzierter Datenschutz), sowie die Schulungsdaten zu kuratieren, um die Menge der vorhandenen sensiblen Informationen zu begrenzen (z. B. Identifizierung und Filterung personenbezogener Informationen sowie die Entfernung von Datenduplikaten).
Änderung des Verarbeitungszwecks
Wenn du durch das KI-Training personenbezogene Daten für einen neuen Zweck verwendest, der sich von dem unterscheidet, für den die Daten ursprünglich erhoben wurden, z. B. zur Erfüllung eines Vertrags, ist es wichtig, daran zu denken, dass die DSGVO Regeln für die Änderung des Zwecks der Datennutzung enthält. Wenn der neue Verwendungszweck, z. B. KI-Training, nicht mit dem ursprünglichen Zweck übereinstimmt, musst du laut DSGVO eine neue Rechtsgrundlage für diese neue Verwendung finden. Das bedeutet, dass KI-Systeme nicht einfach durch das “Recycling” zuvor verarbeiteter Daten trainiert werden können, ohne dass eine angemessene rechtliche Grundlage vorliegt. Auch müssen die betroffenen Personen über die Änderung des Zwecks informiert werden.
Um diesen Prozess zu vereinfachen, solltest du in deinen Richtlinien, z. B. in der Datenschutzerklärung, erwähnen, dass die personenbezogenen Daten für Schulungszwecke verwenden werden, und den rechtlichen Grund dafür erläutern. Auf diese Weise kann vermieden werden, dass Personen erneut über Änderungen bei der Verwendung ihrer Daten informiert werden müssen.
Besondere Kategorien von personenbezogenen Daten
Wichtig ist auch, dass es eine zusätzliche Ebene der Komplexität gibt, wenn das KI-System auf Basis besonderer Kategorien personenbezogener Daten trainiert wird. Wenn KI auf Basis von Gesundheitsdaten oder Daten mit politischen oder religiöse Ansichten trainiert wird, müssen Entwickler strengere Regeln einhalten, da die Verarbeitung solcher Daten im Allgemeinen verboten ist, es sei denn, sie fällt in eng definierte Ausnahmen.
Die in der Praxis wohl einschlägigste Rechtsgrundlage für die Verwendung sensibler Daten beim KI-Training ist sowohl nach der DSGVO als auch nach dem DSG in der Regel die Einholung der Einwilligung. Das liegt daran, dass es einen großen Unterschied zwischen der Nutzung des KI-Systems und dessen Schulung gibt. Ein Arzt könnte beispielsweise KI verwenden, um im Rahmen eines Vertrags mit Gesundheitsdaten zu arbeiten. Wenn es aber darum geht, die KI zu trainieren, ist eine ordnungsgemäße Einwilligung oft die einzige Möglichkeit.
Die Einholung dieser Zustimmung kann schwierig sein. Auch wenn das DSG nicht immer einen rechtliche Grund für die Verarbeitung von personenbezogenen Daten verlangt, brauchst du jedenfalls dann eine, wenn die Verwendung der Daten die Persönlichkeitsrechte einer Person verletzen könnte, z. B. die Weitergabe sensibler Informationen an Dritte. Aufgrund dieser Herausforderungen mit sensiblen Daten ist es am besten, diese wenn möglich vorab zu anonymisieren.
Rechte der betroffenen Personen im KI Training: Herausforderungen unter DSGVO und DSG
In diesem letzten Abschnitt werden wir die wichtigsten Herausforderungen untersuchen, die KI-Training bei der Erfüllung der Rechte der betroffenen Personen sowohl nach der DSGVO als auch nach dem DSG mit sich bringen. Nach beiden Datenschutzgesetzen haben die betroffenen Personen eine Reihe von Rechten. Im Bereich der KI ist deren praktische Umsetzung jedoch nicht so einfach, wie es scheint. Sie steht insbesondere vor den folgenden Hürden:
Recht auf Information
Du bist verpflichtet, die betroffenen Personen über die Verwendung ihrer personenbezogenen Daten für Trainingszwecke zu informieren. Dies erweist sich in der Praxis jedoch oft als schwierig, wenn man bedenkt, dass es angesichts der großen Menge an Informationen, die für die Schulung dieser Systeme benötigt werden, und der Verwendung indirekter Datenquellen (z. B. Web Scrapping und Datenlieferanten) oft unmöglich ist, die betroffenen Personen einzeln zu identifizieren und zu kontaktieren.
Die DSGVO und das DSG befreien dich von der Pflicht, die betroffenen Personen über die Verarbeitungstätigkeiten zu informieren, wenn sich dies als unverhältnismäßig schwierig oder unmöglich erweist. Auch wenn diese Ausnahmeregelung im Rahmen der DSGVO von einigen EU-Aufsichtsbehörden eher eng ausgelegt wird, scheint es gute Argumente für ihre Anwendung in dem Fall zu geben, dass die verwendeten Daten aus indirekten Quellen stammen.
Nichtsdestotrotz solltest du andere geeignete Maßnahmen ergreifen, um die relevanten Informationen über deine Verarbeitungstätigkeiten bereitzustellen, z. B. durch die Veröffentlichung einer Datenschutzerklärung auf der Website oder in der App.
Widerruf der Einwilligung und Recht auf Widerspruch
Wenn die Rechtsgrundlage für die KI-Schulung eine Einwilligung war, haben die betroffenen Personen das Recht, diese mit Wirkung für die Zukunft zu widerrufen. Das bedeutet, dass die personenbezogenen Daten nicht mehr verarbeitet werden dürfen (es sei denn, es gilt eine andere Rechtsgrundlage) und oft gelöscht werden müssen.
Das Widerspruchsrecht spielt eine ähnliche Rolle, allerdings in Bezug auf berechtigte Interessen: Wenn du berechtigte Interessen als Rechtsgrundlage für die Verarbeitung personenbezogener Daten zum Training deines KI-Systems verwendet hast, haben die betroffenen Personen das Recht, dieser Verarbeitung zu widersprechen, und – wenn du kein überwiegendes Interesse nachweisen kannst – die Einstellung der Verarbeitung zu verlangen.
Das bedeutet, dass die die Einwilligung und berechtigte Interessen zwar die wahrscheinlichsten Rechtsgrundlagen für das Training von KI zu sein scheinen, aber auch einen Nachteil haben: Unter bestimmten Umständen musst du die Verarbeitungstätigkeit für bestimmte Datenpunkte einstellen, wenn die betroffene Person dies verlangt. Dies wird nicht nur das Training des Systems beeinträchtigen, sondern kann in der Praxis auch nahezu unmöglich sein.
Recht auf Löschung und Berichtigung
Im Zusammenhang mit dem Training von KI-Systemen ist die Gewährleistung des Rechts auf Löschung und Berichtigung für die betroffenen Personen komplex. Diese Schwierigkeit ergibt sich aus vielen Faktoren wie z. B.:
- “Kontinuierliches Lernen” – Einige KI-Systeme werden regelmäßig auf der Grundlage von Benutzerinteraktionen (z. B. den Interaktionen und Aufforderungen des Systembenutzers) aktualisiert. Dies bedeutet, dass personenbezogene Daten kontinuierlich verarbeitet und hinzugefügt werden, was es zunehmend schwieriger macht, alle verarbeiteten Nutzerdaten zu verfolgen
- „Nichtwiederauffindbarkeit“ – Da die Informationen, die zum Trainieren dieser Systeme verwendet werden, aus einer Vielzahl von Quellen stammen, ist es sehr schwierig, einzelne Datenpunkte aufzuspüren. Erschwerend kommt hinzu, dass personenbezogene Daten tief in die zugrundeliegenden Algorithmen eingebettet sein können, so dass sich die Isolierung personenbezogener Daten als schwierig erweist.
Und schließlich gibt es Herausforderungen, die das System selbst betreffen. Das Ändern oder Entfernen persönlicher Daten aus dem Trainingssatz kann sich auf die Validierung und Genauigkeit des Modells auswirken, was die Notwendigkeit eines erneuten Trainings mit sich bringen kann. Dies ist ein kostspieliges, zeitaufwändiges und technisch schwieriges Unterfangen.
Auch wenn derzeit technische Möglichkeiten erforscht werden, um das Entfernen von Daten für einige Arten von KI-Systemen zu erleichtern (z. B. maschinelles Entlernen), deuten die bisher durchgeführten Untersuchungen darauf hin, dass dies die Genauigkeit des Systems beeinträchtigen kann und jedenfalls Zeit und umfassendes technisches Know-how für die Durchführung erfordert.
Best practice für die Anpassung von KI-Training an DSGVO und DSG: Eine Zusammenfassung
Zusammenfassend lässt sich sagen, dass die Harmonisierung von KI-Trainingsmethoden mit Datenschutzanforderungen jedenfalls eingangs die Berücksichtigung der Datenherkunft, der Rechtsgrundlagen und der Rechte der betroffenen Personen erfordert. Du solltest deine praktische Umsetzung an den geltenden Datenschutzgrundsätzen ausrichten, um eine verantwortungsvolle und gesetzeskonforme KI-Entwicklung zu fördern, insbesondere durch:
- Vorrangige Anonymisierung von personenbezogenen Daten, die für das Training von KI-Systemen verwendet werden, sowie von Nutzung synthetischer Daten, um das Risiko der Nichteinhaltung der DSGVO und des DSG zu verringern;
- Bewertung der geeigneten Rechtsgrundlage für die Verarbeitung personenbezogener Daten im Rahmen von KI-Training, wobei nach Möglichkeit „berechtigte Interessen“ zu bevorzugen sind, um zu Gewährleisten, dass alle Verarbeitungsvorgänge transparent und rechtskonform sind;
- Verzicht auf die Verarbeitung besonderer Datenkategorien wie Gesundheitsdaten als Klardaten und stattdessen Anonymisierung der Daten;
- Durchführung von Maßnahmen zur Unterrichtung der betroffenen Personen über die Verwendung ihrer personenbezogenen Daten während des KI-Trainings;
- Entwicklung und Aufrechterhaltung klarer Mechanismen für die betroffenen Personen zur Ausübung ihrer Rechte, einschließlich des Widerrufs der Einwilligung und des Widerspruchsrechts;
- Investitionen in technologische Lösungen, die die Einhaltung der Rechte der betroffenen Personen, wie z. B. die Löschung und Berichtigung von Daten, auch in komplexen KI-Trainingsumgebungen ermöglichen.
Die Einhaltung dieser Leitlinien trägt zur Vertrauensbildung bei und gewährleistet, dass deine KI-Projekte sowohl kreativ als auch datenschutzkonform sind, was zu einer ethischeren und nachhaltigeren technischen Zukunft führt.