Datenminimierung
Home » KI » Allgemeine Ausstellung » Schutz der Privatsphäre und Datenqualitätsmanagement » DSGVO » Datenminimierung

Der Grundsatz der Datenminimierung besagt, dass personenbezogene Daten „dem Zweck angemessen und erheblich sowie auf das für die Zwecke der Verarbeitung notwendige Maß beschränkt sein müssen“.[1] Im Zusammenhang mit künstlicher Intelligenz bedeutet dies in erster Linie, dass Verantwortliche personenbezogene Daten nicht verwenden sollten, wenn dies nicht erforderlich ist, d. h. wenn das von dem Verantwortlichen angestrebte Ziel auch ohne die Verarbeitung personenbezogener Daten erreicht werden kann (siehe Abschnitt „Rechtmäßigkeit und Verarbeitung nach Treu und Glauben“). Manchmal können personenbezogene Daten durch nicht-personenbezogene Daten ersetzt werden, ohne dass der Forschungszweck beeinträchtigt wird. Unter solchen Umständen ist die Verwendung anonymisierter Daten gemäß Artikel 89 Absatz 1 DSGVO obligatorisch.

Wenn eine Anonymisierung nicht möglich ist, sollten die Verantwortlichen zumindest versuchen, mit pseudonymisierten Daten zu arbeiten. Letztlich muss jeder Verantwortliche festlegen, welche personenbezogenen Daten für den Zweck der Verarbeitung tatsächlich benötigt werden (und welche nicht), einschließlich der entsprechenden Datenspeicherfristen. Verantwortliche müssen nämlich bedenken, dass die Erforderlichkeit der Verarbeitung im Falle der meisten Rechtsgrundlagen nachgewiesen werden muss – einschließlich aller in Artikel 6 DSGVO genannten Grundlagen mit Ausnahme der Einwilligung und der meisten in Artikel 9 Absatz 2 genannten Grundlagen in Bezug auf besondere Kategorien von Daten. Anders ausgedrückt: Bei den meisten Rechtsgrundlagen für die Verarbeitung personenbezogener Daten müssen die Verantwortlichen sowohl nach dem Grundsatz der Datenminimierung als auch nach dem Grundsatz der Rechtmäßigkeit sicherstellen, dass die KI-Entwicklung nicht ohne die Verwendung personenbezogener Daten erfolgen kann.

Der Begriff der Erforderlichkeit ist jedoch komplex und hat im Recht der Europäischen Union eine eigenständige Bedeutung.[2] Im Allgemeinen wird verlangt, dass die Verarbeitung ein gezieltes und verhältnismäßiges Mittel ist, um einen bestimmten Zweck zu erreichen. Das Argument, dass die Verarbeitung erforderlich ist, weil die Verantwortlichen sich entschieden haben, ihr Geschäft auf eine bestimmte Weise zu betreiben, reicht nicht aus. Sie müssen nachweisen können, dass die Verarbeitung für das angestrebte Ziel erforderlich ist und weniger in die Privatsphäre eingreift als andere Möglichkeiten, um das gleiche Ziel zu erreichen. Es genügt nicht, dass die Verarbeitung notwendiger Bestandteil der von ihnen gewählten Methoden ist.[3]Wenn es realistische, weniger in die Privatsphäre eingreifende Alternativen gibt, wird die Verarbeitung personenbezogener Daten nicht als notwendig erachtet.[4]

Daher verlangt der Grundsatz der Datenminimierung von KI-Entwicklern, solche Tools zu wählen, deren Entwicklung im Vergleich zu den verfügbaren Alternativen eine minimale Verwendung personenbezogener Daten erfordert. Sobald dies erreicht ist, sollten spezifische Prozesse eingerichtet werden, um die Erhebung und/oder Übermittlung unnötiger personenbezogener Daten auszuschließen, Datenfelder zu reduzieren und automatische Löschmechanismen vorzusehen.[5] Die Datenminimierung kann insbesondere im Falle des Deep Learning komplex sein, da eine Unterscheidung nach Merkmalen unter Umständen nicht möglich ist. Wenn alternative Lösungen zu den gleichen Ergebnissen führen könnten, sollte Deep Learning daher besser vermieden werden.

Das CIPL stellt ferner fest: „Welche personenbezogenen Daten genau als ‚erforderlich‘ erachtet werden, variiert je nach KI-System und dem Ziel, für das es verwendet wird. Die Regelung der DSGVO in diesem Bereich sollte verhindern, dass der Perfektionismus zum Feind des Guten für KI-Designer wird – die Tatsache, dass die personenbezogenen Daten begrenzt werden müssen, bedeutet nicht, dass das KI-System selbst unbrauchbar wird, insbesondere da nicht alle KI-Systeme ein präzises Ergebnis liefern müssen.“[6] Um den Umfang und die Menge der benötigten personenbezogenen Daten genau zu bestimmen, ist ein Experten extrem nützlich, der in der Lage ist, die relevanten Merkmale auszuwählen. Dies sollte das Risiko für die Privatsphäre der betroffenen Personen deutlich verringern – ohne Qualitätseinbußen.

Es gibt jedoch ein effizientes Instrument, die Menge der erhobenen Daten zu regulieren und sie nur dann zu erhöhen, wenn es notwendig erscheint: die Lernkurve.[7] Der Verantwortliche sollte damit beginnen, eine begrenzte Menge an Trainingsdaten zu erheben und zu verwenden, und dann die Genauigkeit des Modells überwachen, während es mit neuen Daten gefüttert wird. Dies hilft dem Verantworlichen auch, den „Fluch der Dimensionalität“ zu vermeiden, d. h. „Algorithmen mit einer schlechten Leistung und hohen Komplexität aufgrund von Datenrahmen mit zahlreichen Dimensionen/Merkmalen, die die Zielfunktion häufig recht komplex machen und zu Modell-Overfitting führen können, solange der Datensatz häufig auf der unteren Dimensionalitätsebene liegt.“[8]

Einige zusätzliche Maßnahmen im Zusammenhang mit dem Grundsatz der Minimierung sind:

  • Begrenzung der Ausdehnung der Datenkategorien (z. B. Name, Anschrift und Adresse, Angaben zu Gesundheit, Beschäftigungssituation, Überzeugungen, Ideologie usw.)
  • Begrenzung des Grads an Detailliertheit oder Genauigkeit der Daten, der Granularität der Erhebung in Bezug auf Zeit und Häufigkeit sowie des Alters der verwendeten Daten
  • Begrenzung der Ausdehnung der Anzahl interessierter Parteien auf diejenigen, die die Daten verarbeiten
  • Begrenzung der Zugänglichkeit der verschiedenen Datenkategorien auf das Personal des Verantwortlichen/Verwalters oder sogar den Endnutzer (wenn in den KI-Modellen Daten von Dritten enthalten sind) in allen Verarbeitungsphasen[9]

Natürlich kann die Annahme dieser Maßnahmen unter Umständen mit einem enormen Aufwand für die Vereinheitlichung, Homogenisierung usw. der Daten verbunden sein, wird jedoch dazu beitragen, den Grundsatz der Datenminimierung wesentlich effizienter umzusetzen.[10]

Schließlich ist zu bedenken, dass die Verantwortlichen es vermeiden sollten, lange Datenbanken mit historischen Daten zu speichern, z. B. über den Zeitraum hinaus, der für normale Geschäftszwecke oder zur Erfüllung rechtlicher Verpflichtungen erforderlich ist, oder einfach nur, weil ihr Analysewerkzeug in der Lage ist, eine große Anzahl von Daten zu erzeugen, und ihre Speicherkapazität dies ermöglicht. Stattdessen müssen Unternehmen, die Big Data nutzen, angemessene Speicherfristen durchsetzen (siehe Abschnitt „Speicherbegrenzung“ im Kapitel „Grundsätze“).

Kasten 6. Ein Beispiel für die Vorteile der Datenminimierung in der KI

Ein von der norwegischen Steuerverwaltung entwickeltes Tool zum Filtern von Steuererklärungen auf Fehler testete in der Trainingsphase 500 Variablen. In das endgültige KI-Modell wurden jedoch nur 30 aufgenommen, da sie sich für die gestellte Aufgabe als besonders relevant erwiesen hatten. Wahrscheinlich hätten die Entwickler des Tools die Erhebung derart vieler personenbezogener Daten vermeiden können, wenn sie zu Beginn des Entwicklungsprozesses eine bessere Auswahl der relevanten Variablen getroffen hätten.

Quelle: Norwegische Datenschutzbehörde (2018), Artificialintelligenceandprivacy. Norwegische Datenschutzbehörde, Oslo. Verfügbar unter: https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf

Checkliste: Datenminimierung

☐ Die Verantwortlichen haben sichergestellt, dass sie personenbezogene Daten nur bei Bedarf verwenden.

☐ Die Verantwortlichen haben die Verhältnismäßigkeit zwischen der Datenmenge und der Genauigkeit des KI-Tools berücksichtigt

☐ Die Verantwortlichen überprüfen regelmäßig die in ihrem Besitz befindlichen Daten und löschen alle, die nicht benötigt werden.

☐ Die Verantwortlichen bereinigen in der Trainingsphase des KI-Systems alle Informationen, die für das Training nicht unbedingt erforderlich sind.

☐ Die Verantwortlichen prüfen, ob personenbezogene Daten in der Verteilungsphase des KI-Systems verarbeitet werden, und löschen diese, sofern keine begründete Notwendigkeit und Rechtmäßigkeit besteht, sie für andere vereinbare Zwecke zu behalten.

ZusätzlicheInformationen

ENISA (2015) Privacy by design in big data. European Union Agency for Cybersecurity, Athen/Heraklion, Seite 23. Verfügbar unter: www.enisa.europa.eu/publications/big-data-protection

ICO (kein Datum) Principle (c): dataminimisation. Information Commissioner’s Office, Wilmslow.Verfügbar unter: https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/data-minimisation/

Norwegische Datenschutzbehörde (2018), Artificialintelligenceandprivacy. Norwegische Datenschutzbehörde, Oslo. Verfügbar unter: https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf

Pure Storage (2015) Big data’s big failure: the struggles businesses face in accessing the information they need. Pure Storage, Mountain View, CA. Verfügbarunter: http://info.purestorage.com/rs/225-USM-292/images/Big%20Data%27s%20Big%20Failure_UK%281%29.pdf

 

  1. Artikel 5 Absatz 1 Buchstabe c DSGVO.
  2. Siehe CJEU, Urteil C‑524/06, Heinz Huber gegen Bundesrepublik Deutschland, 18. Dezember 2008, Abs. 52.
  3. EDSB (2017) Beurteilung der Erforderlichkeit von Maßnahmen, die das Grundrecht auf Schutz personenbezogener Daten einschränken: Ein Toolkit. Seite 5. Europäischer Datenschutzbeauftragter, Brüssel. Verfügbar unter: https://edps.europa.eu/data-protection/our-work/publications/papers/necessity-toolkit_en (abgerufen am 15. Mai 2020); ICO (keine Datum) Lawful basis for processing. Information Commissioner’s Office, Wilmslow. Verfügbar unter: https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/lawful-basis-for-processing/(abgerufen am 15. Mai 2020).
  4. Siehe CJEU, Urteil in den verbundene Rechtssachen C-92/09 and C-93/09, Volker und Markus Schecke GbR and Hartmut Eifert gegen Land Hessen, 9. November 2010.
  5. ENISA (2015) Privacy by design in big data. European Union Agency for Cybersecurity, Athen/Heraklion, Seite 23. Verfügbar unter: www.enisa.europa.eu/publications/big-data-protection(abgerufen am 28. Mai 2020).
  6. CIPL (2020) Artificial intelligence and data protection: how the GDPR regulates AI. Centre for Information Policy Leadership, Washington DC / Brüssel / London, Seite 13. Verfügbar unter: www.informationpolicycentre.com/uploads/5/7/1/0/57104281/cipl-hunton_andrews_kurth_legal_note_-_how_gdpr_regulates_ai__12_march_2020_.pdf(abgerufen am 15. Mai 2020).
  7. Siehe: www.ritchieng.com/machinelearning-learning-curve/ (abgerufen am 28. Mai 2020).
  8. H. Oliinyk (2018), Why and how to get rid of the curse of dimensionality right (with breast cancer dataset visualization). Towards Data Science, 20. März. Verfügbar unter: https://towardsdatascience.com/why-and-how-to-get-rid-of-the-curse-of-dimensionality-right-with-breast-cancer-dataset-7d528fb5f6c0 (abgerufen am 15. Mai 2020).
  9. AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia EspanolaProteccion Datos, Madrid, Seite 39–40. Verfügbar unter: www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (abgerufen am 15. Mai 2020).
  10. Norwegische Datenschutzbehörde (2018), Artificialintelligenceandprivacy. Norwegische Datenschutzbehörde, Oslo. Verfügbar unter: https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf(abgerufen am 15. Mai 2020).

 

Skip to content