Les biais sont l’un des principaux problèmes liés au développement de l’IA, un problème qui va à l’encontre du principe de loyauté (voir “Principe de licéité, de loyauté et de transparence” dans la partie II, section “Principes” des présentes lignes directrices). Les biais peuvent être causés par un grand nombre de problèmes différents. Lorsque des données sont recueillies, elles peuvent contenir des biais, des inexactitudes, des erreurs et des fautes construits par la société. Parfois, il peut arriver que les ensembles de données soient biaisés en raison d’actions malveillantes. L’introduction de données malveillantes dans un outil d’IA peut modifier son comportement, en particulier avec les systèmes d’auto-apprentissage.[1] Par exemple, dans le cas du chatbot Tay, développé par Microsoft, un grand nombre d’internautes ont commencé à poster des commentaires racistes et sexistes qui ont servi à alimenter l’algorithme. Le résultat final est que Tay a commencé à envoyer des tweets racistes et sexistes après seulement quelques heures de fonctionnement. En d’autres occasions, le principal problème est que l’ensemble de données ne représente pas bien la population considérée et l’objectif visé. Par conséquent, il contient des biais cachés qui seront transposés à l’outil entraîné qui reflétera ces biais, et cela pourrait conduire à des résultats du modèle incorrects ou discriminatoires. [2]
Par conséquent, les questions liées à la composition des bases de données utilisées pour la formation soulèvent des problèmes éthiques et juridiques cruciaux, et pas seulement des questions d’efficacité ou de nature technique. Elles doivent donc être abordées avant la formation de l’algorithme. Les modèles d’IA doivent “être entraînés à l’aide de données pertinentes et correctes et ils doivent apprendre quelles sont les données à privilégier. Le modèle ne doit pas mettre en avant les informations relatives à l’origine raciale ou ethnique, aux opinions politiques, à la religion ou aux convictions, à l’appartenance syndicale, au statut génétique, à l’état de santé ou à l’orientation sexuelle si cela conduit à un traitement discriminatoire arbitraire.”[3] Les biais identifiables et discriminatoires doivent être supprimés lors de la phase de constitution des ensembles de données, dans la mesure du possible.
Encadré 18 : Comprendre les biais : le cas du gorille
En 2015, un ingénieur logiciel, Jacky Alciné, a dénoncé les algorithmes de reconnaissance d’images utilisés dans Google Photos qui classaient certaines personnes noires comme des “gorilles.” Google a immédiatement reconnu le problème et a promis de le corriger. Ce problème a été provoqué par une grave erreur lors de la phase d’entraînement. L’algorithme a été entraîné à reconnaître des personnes à l’aide d’un ensemble de données principalement composé de photographies de personnes caucasiennes. En conséquence, l’algorithme a considéré qu’une personne noire était beaucoup plus similaire à l’objet “gorille” qu’il avait été entraîné à reconnaître, qu’à l’objet “humain”. Cet exemple montre parfaitement l’importance de la sélection des données à des fins d’entraînement. |
Ainsi, pour intégrer les exigences éthiques dans cette phase, le développeur d’IA devrait évaluer les conséquences éthiques de la sélection des données par rapport à la diversité et apporter des modifications, si nécessaire. En effet, le responsable du traitement “devrait utiliser des procédures mathématiques ou statistiques appropriées pour le profilage, mettre en œuvre des mesures techniques et organisationnelles appropriées pour garantir, en particulier, que les facteurs qui entraînent des inexactitudes dans les données à caractère personnel soient corrigés et que le risque d’erreurs soit réduit au minimum”, sécuriser les données à caractère personnel d’une manière qui tienne compte des risques potentiels qu’elles comportent pour les intérêts et les droits de la personne concernée et qui prévienne, entre autres, les effets discriminatoires à l’égard des personnes physiques sur la base de l’origine raciale ou ethnique, des opinions politiques, de la religion ou des convictions, de l’appartenance syndicale, du statut génétique ou de santé ou de l’orientation sexuelle, ou qui aboutissent à des mesures ayant un tel effet.”[4]
Les responsables du traitement doivent toujours garder à l’esprit que ce qui rend cette question si spécifique, c’est que la sélection d’un ensemble de données pour l’entraînement implique de prendre des décisions et de faire des choix, parfois de manière presque inconsciente (alors que le codage d’un algorithme traditionnel et déterministe est toujours une opération délibérée). Celui qui entraîne un algorithme y intègre en quelque sorte sa propre façon de voir le monde, ses valeurs ou, à tout le moins, les valeurs qui sont plus ou moins directement inhérentes aux données recueillies dans le passé.[5] Cela signifie que les équipes chargées de sélectionner les données à intégrer dans les jeux de données devraient être composées de personnes qui garantissent la diversité dont le développement de l’IA est censé faire preuve. Dans tous les cas, une expertise juridique sur la réglementation anti-discrimination pourrait être pertinente sur ce point.
- Groupe d’experts de haut niveau sur l’IA (2019) Lignes directrices en matière d’éthique pour une IA digne de confiance. Commission européenne, Bruxelles, p.17. Disponible à l’adresse : https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai (consulté le 15 mai 2020). ↑
- Pour une définition de la discrimination directe et indirecte, voir, par exemple, l’article 2 de la directive 2000/78/CE du Conseil du 27 novembre 2000 portant création d’un cadre général en faveur de l’égalité de traitement en matière d’emploi et de travail. Voir également l’article 21 de la Charte des droits fondamentaux de l’UE. ↑
- Autorité norvégienne de protection des données (2018) Intelligence artificielle et vie privée. Autorité norvégienne de protection des données, Oslo. Disponible à l’adresse : https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf (consulté le 15 mai 2020). ↑
- Considérant 71 du RGPD. ↑
- CNIL (2017) Comment l’humain peut-il garder la main ? Les questions éthiques soulevées par les algorithmes et l’intelligence artificielle. Commission nationale de l’informatique et des libertés, Paris, p.34. Disponible sur : www.cnil.fr/sites/default/files/atoms/files/cnil_rapport_ai_gb_web.pdf (consulté le 15 mai 2020). ↑