Biais : les causes - Guidelines Panelfit

Les biais peuvent être causés par un certain nombre de problèmes différents, et lorsque des données sont recueillies, elles peuvent contenir des biais, des inexactitudes, des erreurs et des fautes construits par la société. Les raisons qui expliquent ces biais sont multiples. Parfois, il peut arriver que les ensembles de données soient biaisés en raison d’actions malveillantes. L’introduction de données malveillantes dans un système d’IA peut modifier son comportement, en particulier dans le cas des systèmes d’auto-apprentissage.^[1] Par exemple, dans le cas du chatbot Tay, développé par Microsoft, un grand nombre d’internautes ont commencé à poster des commentaires racistes et sexistes qui ont servi à alimenter l’algorithme. En conséquence, Tay a commencé à envoyer des tweets racistes et sexistes après seulement quelques heures de fonctionnement. Dans d’autres cas, les données sont tout simplement de mauvaise qualité, ce qui crée un biais. Par exemple, les données issues de la plateforme de médias sociaux présentent de sérieux risques pour les chercheurs, en raison des caractéristiques de l’environnement en ligne, qui ne garantit pas l’exactitude et la représentativité des données.

Le déséquilibre des données de formation (voir encadré 8) est une autre cause de biais, qui survient lorsque la proportion des différentes catégories dans les données de formation n’est pas équilibrée. Par exemple, dans le contexte des essais cliniques, il peut y avoir beaucoup plus de données provenant d’hommes que de femmes. Dans ce cas, les femmes risquent d’être discriminées par le modèle d’IA résultant. Par conséquent, les questions liées à la composition des bases de données utilisées pour la formation soulèvent des problèmes éthiques et juridiques cruciaux, et pas seulement des questions liées à l’efficacité ou de nature technique.

Encadré 8. Biais causés par une formation déséquilibrée des données

L’affaire Beauty.AI

Lancé en 2016, l’outil Beauty.AI a été créé pour sélectionner “la première reine ou roi de beauté jugé par des robots”, en utilisant des algorithmes de reconnaissance de l’âge et du visage. Sept mille personnes ont envoyé leurs photos par le biais d’une application, mais la plupart des 44 gagnants étaient blancs ; seule une poignée était asiatique, et un seul avait la peau foncée. Et ce, malgré le fait que, même si la majorité des participants étaient blancs, de nombreuses personnes de couleur ont envoyé des photos, y compris des groupes importants d’Afrique et d’Inde. Ce résultat a immédiatement été considéré comme raciste, en raison d’une mauvaise sélection de l’ensemble de données d’entraînement. Le principal problème était que les données utilisées par le projet pour établir les normes de beauté étaient principalement composées de personnes blanches. Bien que les développeurs n’aient pas conçu l’algorithme pour que la peau claire soit considérée comme un signe de beauté, les données d’entrée ont effectivement conduit les juges robots à parvenir à cette conclusion.^[2]

L’outil de recrutement d’Amazon

En décembre 2018, Amazon a mis au rebut son outil de recrutement d’IA lorsque l’entreprise a découvert que le système d’IA présentait des biaiscontre les femmes. Amazon construisait des programmes informatiques depuis 2014 pour examiner les CV des candidats à un emploi, dans le but de mécaniser la recherche des meilleurs talents. L’outil utilisait l’IA pour noter les candidats à l’emploi d’une à cinq étoiles. En 2015, cependant, Amazon a découvert que l’outil ne notait pas les candidats aux postes de développeurs de logiciels et à d’autres postes techniques de manière non sexiste. En effet, les modèles informatiques d’Amazon ont été formés pour évaluer les candidats en observant les modèles de CV soumis à l’entreprise sur une période de 10 ans. La plupart provenaient d’hommes, ce qui reflète la domination masculine dans le secteur de la technologie.^[3]

Troisièmement, les données de formation peuvent refléter une discrimination passée produite par des tendances sociétales (voir encadré 9). Si les responsables du traitement utilisent des données historiques, ils doivent être conscients des différences probables entre les contextes sociaux par rapport à l’époque actuelle. Sinon, les biais seront inévitables. Parfois, les biais proviennent des différents contextes sociaux de la communauté qui a fourni les données et de la communauté qui est censée utiliser l’algorithme. Si le responsable du traitement n’y prête pas une attention particulière, des biais seront probablement présents dans l’outil.

Encadré 10. Biais produits par les tendances sociétales

Dans le passé, les demandes de prêt des femmes étaient rejetées plus fréquemment que celles des hommes, en raison de biais. Dans ce cas, tout modèle d’IA formé sur des données historiques est susceptible de reproduire le même schéma de discrimination. Ces problèmes peuvent survenir même si les données de formation ne contiennent aucune caractéristique protégée, comme le sexe ou la race. Diverses caractéristiques des données d’apprentissage sont souvent étroitement corrélées aux caractéristiques protégées (par exemple, la profession, la race, etc.). Ces “variables de substitution” permettent au modèle de reproduire des schémas de discrimination associés à ces caractéristiques, même si ses concepteurs n’en avaient pas l’intention.

Ces problèmes peuvent se produire dans tout modèle statistique. Cependant, ils sont plus susceptibles de se produire dans les systèmes d’IA parce qu’ils peuvent inclure un plus grand nombre de caractéristiques, et peuvent identifier des combinaisons complexes de caractéristiques qui sont des substituts de caractéristiques protégées. De nombreuses méthodes modernes d’apprentissage automatique sont plus puissantes que les approches statistiques traditionnelles parce qu’elles sont plus aptes à découvrir des modèles non linéaires dans des données de grande dimension. Toutefois, celles-ci comprennent également des modèles qui reflètent la discrimination.^[4]

Enfin, il est possible que les biais soient causés par un outil d’IA mal conçu (voir encadré 11). Il peut arriver que le concepteur introduise des corrélations par procuration qui ne fonctionnent pas bien avec la réalité. Si c’est le cas, le modèle fera des prédictions inexactes, car ses bases conceptuelles ne sont pas solides.

Encadré 11. Biais causé par un outil d’IA mal conçu : les algorithmes

Le système de santé américain utilise des algorithmes commerciaux pour guider les décisions en matière de santé. Obermeyer et al.^[5] ont trouvé des preuves de biais racial dans un algorithme largement utilisé, ce qui signifie que, parmi les patients noirs et blancs auxquels l’algorithme a attribué le même niveau de risque, les patients noirs étaient plus malades que les blancs. Les auteurs ont estimé que ce biais racial réduisait de plus de la moitié le nombre de patients noirs identifiés pour des soins supplémentaires. Le biais s’est produit parce que l’algorithme a utilisé les coûts de santé comme un indicateur des besoins de santé. Moins d’argent a été dépensé pour les patients noirs ayant le même niveau de besoin que les patients blancs, et l’algorithme a donc faussement conclu que les patients noirs étaient en meilleure santé que les patients blancs tout aussi malades. En réalité, ces dépenses moindres étaient dues à un certain nombre de facteurs à caractère racial, tels qu’un accès différent aux traitements, des niveaux de confiance dans le système, des déséquilibres causés par les prestataires de soins, etc.

Groupe d’experts de haut niveau sur l’IA (2019) Lignes directrices en matière d’éthique pour une IA digne de confiance. Commission européenne, Bruxelles, p.17. Disponible à l’adresse : https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai (consulté le 20 mai 2020). ↑
Levin, s. (2016) ‘un concours de beauté a été jugé par l’IA et les robots n’ont pas aimé la peau foncée’, The Guardian, 8 septembre. Disponible à l’adresse : www.theguardian.com/technology/2016/sep/08/artificial-intelligence-beauty-contest-doesnt-like-black-people (consulté le 26 mai 2020).↑
Dastin, J. (2018) ” Amazon scraps secret AI recruiting tool that showed bias against women “, Reuters, 10 octobre. À l’adresse : www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G ↑
ICO (2020) AI auditing framework : draft guidance for consultation, p.54. Bureau du commissaire à l’information, Wilmslow. Disponible à l’adresse : https://ico.org.uk/media/about-the-ico/consultations/2617219/guidance-on-the-ai-auditing-framework-draft-for-consultation.pdf (consulté le 26 mai 2020). ↑
Obermeyer, Z. et al. (2019) ‘Dissecting racial bias in an algorithm used to manage the health of populations’, Science, 25 octobre, 447-453. ↑