KI: Schritt-für-Schritt-Prozess - Guidelines Panelfit

Checklists

Geschäftsverständnis

Datenverständnis

Datenaufbereitung

Modellierung

Bewertung

Bereitstellung

Anhang I: Auditierung von AI-Tools

Anhang II: Maschinelles Lernen und Forschung im Bereich der künstlichen Intelligenz zum Nutzen von Patienten: 20 kritische Fragen zu Transparenz, Replizierbarkeit, Ethik und Wirksamkeit

Iñigo de Miguel Beriain (UPV/EHU)

Danksagung: Der Autor dankt Andres Chomsky, Oliver Feeney, Gianclaudio Malgieri Aurélie Pols und Marko Sijan für ihre Ratschläge, Beiträge und Rückmeldungen zu den Entwürfen. Selbstverständlich trage ich für alle Fehler die volle Verantwortung.

Dieser Teil des Leitfadens wurde von Marko Sijan, Senior Advisor Specialist, (HR DPA) überprüft und bestätigt.

EINLEITUNG TEIL B

Dieser zweite Teil der Leitlinien basiert auf den Phasen des CRISP-DM-Modells,^[1] das weithin zur Erläuterung der Phasen bei der Entwicklung von Datenanalysen und datenintensiven KI-Tools verwendet wird. Es wurde vom SHERPA-Projekt für die Entwicklung seiner Guidelines for the Ethical Development of AI and Big Data Systems (Leitlinien für die ethische Entwicklung von KI- und Big-Data-Systemen) ausgewählt.^[2] Die sechs Phasen umfassen: Geschäftsverständnis, Datenverständnis, Datenaufbereitung, Modellierung, Bewertung und Bereitstellung. Es handelt sich dabei nicht um eine feste Klassifizierung, da Entwickler häufig einige dieser Schritte miteinander vermischen. So kann zum Beispiel ein trainierter Algorithmus nach der Validierungsphase durch ein erneutes Training verbessert werden.

Dennoch ist hervorzuheben, dass einige der ethischen und rechtlichen Anforderungen an die Entwicklung künstlicher Intelligenz während des gesamten Lebenszyklus einer KI-Entwicklung kontinuierlich bewertet werden müssen. Verantwortliche müssen die ethische Zulässigkeit der Verarbeitung und deren unerwarteten Folgen überwachen. Zudem sollten sie die möglichen Nebeneffekte einer solchen Verarbeitung in einem sozialen Umfeld bewerten, und zwar über die ursprünglich gedachten Grenzen des Zwecks, der Dauer und der Ausdehnung hinaus.^[3] Und dies muss laut Artikel 25 DSGVO während des gesamten Lebenszyklus eines KI-Tools geschehen. Die Artikel-29-Datenschutzgruppe erklärte dazu:

„Die Verantwortlichen sollten die von ihnen verarbeiteten Datensätze häufigen Bewertungen unterziehen, um Verzerrungen aufzuspüren und Möglichkeiten zu entwickeln, benachteiligende Elemente wie ein zu starkes Verlassen auf Zusammenhänge anzugehen. Weitere sinnvolle Maßnahmen sind Systeme, die Algorithmen prüfen, sowie regelmäßige Überprüfungen der Richtigkeit und Relevanz automatisierter Entscheidungen einschließlich Profiling. Die Verantwortlichen sollten geeignete Verfahren und Maßnahmen einführen, um Fehler, Unrichtigkeiten oder Diskriminierung auf der Grundlage besonderer Datenkategorien zu vermeiden. Diese Maßnahmen sollten zyklisch angewandt werden, nicht nur in der Planungsphase, sondern auch durchgehend, wenn Profiling auf Personen angewandt wird. Das Ergebnis dieser Prüfung sollte wieder in den Systemaufbau einfließen.“^[4]

Darüber hinaus ist zu berücksichtigen, dass KI eine allgemeine Bezeichnung ist, die eine Vielzahl verschiedener Technologien umfasst. Grundsätzlich muss zwischen überwachtem maschinellem Lernen (von Menschen gekennzeichnete Eingabedaten werden einem Algorithmus übergeben, der dann die Regeln beruhend auf validierten Beispielfällen festlegt) und unüberwachtem Lernen (nicht gekennzeichnete Eingabedaten werden einem Algorithmus übergeben, der seine eigene Klassifizierung durchführt und eigene Ausgabedaten frei erzeugt, wenn ihm ein Muster oder eine Variable präsentiert wird) unterschieden werden. Beim überwachten Lernen muss der Überwacher der Maschine beibringen, welchen Output sie produzieren soll, d.h. sie „trainieren“. Grundsätzlich ist das überwachte Lernen leichter zu verstehen und zu überwachen.^[5] Da die ür das Training verwendeten Datensätze von den Trainern ausgewählt werden, können einige der beunruhigendsten Herausforderungen, die diese Technologien mit sich bringen, recht vernünftig bewältigt werden. Unüberwachte KI hingegen und insbesondere Techniken wie Deep Learning bedürfen einer ausgefeilteren Überwachung und Kontrolle, da Unklarheiten, Verzerrungen oder Profiling viel schwieriger zu erkennen sind, zumindest in einigen Phasen des Lebenszyklus der KI-Entwicklung.

In diesem Teil der Leitlinien versuchen wir, sowohl überwachte als auch unüberwachte KI zu unterstützen. Wir sind uns bewusst, dass es fast unmöglich ist, Empfehlungen für alle möglichen Situationen auszusprechen. Wir hoffen jedoch, die Grundlagen hervorheben und nützliche zusätzliche Informationsquellen einbeziehen zu können. Schließlich sind wir uns darüber im Klaren, dass manche Experten einige unserer Empfehlungen von einer Phase zur nächsten verschieben würden. Außerdem könnten einige der Empfehlungen für mehrere Phasen gelten. Daher empfehlen wir dringend, diese Leitlinien nach bestem Wissen und Gewissen anzupassen.

Dieses Dokuments ist einfach gegliedert und zu verfolgen. Zunächst wird das Kapitel von Colin Shearer zitiert,^[6] gefolgt von einer Beschreibung der Aufgaben, die laut diesem Autor in jeder konkreten Phase des Prozesses anfallen. Anschließend werden einige Empfehlungen vorgestellt, die zu diesem Zeitpunkt umgesetzt werden sollten. Verweise auf andere Kapitel der Leitlinien sind hervorgehoben, während Verweise auf andere Teile dieses Kapitels mit Querverweisen versehen sind. Die Anhänge schließlich enthalten Verweise auf einige Tools, die für die Zwecke dieses Teils der Leitlinien nützlich sein könnten. Anhang I enthält die von der spanischen Datenschutzbehörde erarbeiteten Empfehlungen in Bezug auf die Prüfung von KI-Tools. Anhang II ist spezifischer, da er sich auf den Einsatz der KI im Gesundheitswesen bezieht. Er ist jedoch ein hervorragender Leitfaden für alle, die ein KI-Tool in diesem Sektor entwickeln wollen. In der Zukunft werden wir nach Möglichkeit weitere Anhänge aufnehmen, sobald ein effizienter Mechanismus dafür geschaffen ist.

Quellenangaben

¹C. Shearer (2000),The CRISP-DM model: the new blueprint for data mining, Journal of Data Warehousing 5(4): 13–23. Verfügbar unter: https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf (abgerufen am 15. Mai 2020). ↑

²SHERPA-Projekt (2019), Guidelines for the ethical development of AI and big data systems: an ethics by design approach. SHERPA-Projekt. Verfügbar unter: www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf (abgerufen am 15. Mai 2020). ↑

³AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia Espanola Proteccion Datos, Madrid, Seite 7. Verfügbar unter: www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (abgerufen am 15. Mai 2020). ↑

⁴Artikel-29-Datenschutzgruppe (2017) Leitlinien zu automatisierten Entscheidungen im Einzelfall einschließlich Profiling für die Zwecke der Verordnung 2016/679. Angenommen am 3. Oktober 2017. Zuletzt überarbeitet und angenommen am 6. Februar 2018. Europäische Kommission, Brüssel, Seite 28. Verfügbar unter: https://ec.europa.eu/newsroom/article29/item-detail.cfm?item_id=612053 (abgerufen am 15. Mai 2020). ↑

⁵CNIL (2017), How can humans keep the upper hand? The ethical matters raised by algorithms and artificial intelligence. Commission Nationale de l’Informatique et des Libertés, Paris, Seite 17. Verfügbar unter: www.cnil.fr/sites/default/files/atoms/files/cnil_rapport_ai_gb_web.pdf (abgerufen am 15. Mai 2020). ↑

⁶C. Shearer (2000),The CRISP-DM model: the new blueprint for data mining, Journal of Data Warehousing 5(4): 13–23. Verfügbar unter: https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf (abgerufen am 15. Mai 2020). ↑