Préparation des données
Home » IA » Étude de cas » Deuxième scénario : L’IA pour la prédiction et la prévention des infractions pénales » Préparation des données

Description

“La phase de préparation des données couvre toutes les activités visant à construire l’ensemble de données final ou les données qui seront introduites dans le ou les outils de modélisation à partir des données brutes initiales. Les tâches comprennent la sélection des tables, des enregistrements et des attributs, ainsi que la transformation et le nettoyage des données pour les outils de modélisation. Les cinq étapes de la préparation des données sont la sélection des données, le nettoyage des données, la construction des données, l’intégration des données et le formatage des données.”[1]

Cette étape comprend toutes les activités nécessaires pour construire l’ensemble de données final qui est introduit dans le modèle, à partir des données brutes initiales. Elle comprend les cinq tâches suivantes, qui ne sont pas nécessairement exécutées de manière séquentielle :

  1. Sélectionner les données : Décider des données à utiliser pour l’analyse, en fonction de leur pertinence par rapport aux objectifs de l’exploration de données, de leur qualité et des contraintes techniques telles que les limites du volume ou des types de données.
  2. Nettoyer les données : Amener la qualité des données à un niveau requis, par exemple en sélectionnant des sous-ensembles de données propres, en insérant des valeurs par défaut et en estimant les données manquantes par modélisation.
  3. Construire des données : La construction de nouvelles données par la production d’attributs dérivés, de nouveaux enregistrements ou de valeurs transformées pour des attributs existants.
  4. Intégrer des données : Combiner les données de plusieurs tables ou enregistrements pour créer de nouveaux enregistrements ou valeurs.
  5. Formater les données : Apporter des modifications syntaxiques aux données qui pourraient être requises par l’outil de modélisation.

Principales mesures à prendre

Introduction des mesures de protection prévues à l’article 89 du RGPD

Puisque vous utilisez des données à des fins scientifiques, vous devez les préparer selon les garanties prévues par le RGPD à l’article 89. Si les finalités de votre recherche peuvent être atteints par un traitement ultérieur qui ne permet pas ou plus l’identification des personnes concernées, c’est-à-dire par la pseudonymisation, ces finalités doivent être atteints de cette manière. Si cela n’est pas possible, vous devez introduire des garanties assurant que les mesures techniques et organisationnelles permettent une mise en œuvre adéquate du principe de minimisation des données. Veuillez prendre en considération les règles concrètes établies par votre réglementation nationale concernant les garanties. Consultez votre DPD.

Garantir la précision du traitement des données à caractère personnel

Selon le RGPD, les données doivent être exactes (voir la section “Précision” du chapitre “Principes”). Cela signifie que les données de traitement sont correctes et à jour. Les responsables du traitement sont chargés de garantir la précision. Par conséquent, une fois que vous avez terminé la collecte des données, vous devez mettre en place des outils adéquats pour garantir la précisiondes données. Cela implique généralement que vous deviez prendre certaines décisions fondamentales sur les mesures techniques et organisationnelles qui rendront ce principe applicable (voir la sous-section “Mesures techniques et organisationnelles connexes” dans la section “Précision” du chapitre “Principes”). Étant donné que la plupart des données proviennent de sources probablement très différentes, sans exigences de qualité normalisées, et que la plupart d’entre elles seront probablement qualitatives dans le cas de la prédiction de la criminalité, vous ne pouvez pas supposer qu’elles sont exactes en soi. En effet, ces données peuvent être basées sur des évaluations individuelles de différentes personnes, alors que les personnes concernées ne savent peut-être même pas que ce type de données est stocké à leur sujet.

En tout état de cause, la précision exige une mise en œuvre adéquate des mesures destinées à faciliter le droit de rectification des personnes concernées (voir “Droit de rectification” dans la partie II, section “Droits des personnes concernées” des présentes lignes directrices).

Assurez-vous également qu’ils produisent des résultats aussi précis que possible. Les types de faux positifs et de faux négatifs doivent être définis à l’avance lors de la phase de préparation des données. Les faux résultats sont l’une des questions essentielles ayant un impact sur les droits fondamentaux des individus.

Se concentrer sur les questions de profilage

En général, dans le cas d’une base de données qui servira à former ou à valider un outil d’IA, il existe une obligation particulièrement pertinente d’informer les personnes concernées que leurs données pourraient donner lieu à une prise de décision automatisée ou à un profilage les concernant. Le profilage est particulièrement problématique dans le développement de l’IA, cela vaut également pour les outils d’IA développés à des fins de LEA.

Selon l’article 22, paragraphe 2, point c), les décisions automatisées qui portent sur des catégories particulières de données à caractère personnel, telles que les données qui révèlent l’origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données relatives à la santé ou des données relatives à la vie sexuelle ou à l’orientation sexuelle d’une personne physique (article 9, paragraphe 1) ne sont autorisées que si la personne concernée a donné son consentement ou si elles sont fondées sur une base juridique. Cette exception s’applique non seulement lorsque les données observées entrent dans cette catégorie, mais aussi si le rapprochement de différents types de données à caractère personnel peut révéler des informations sensibles sur des personnes ou si des données déduites entrent dans cette catégorie. Dans le cas de la prédiction et de la prévention de la criminalité, le consentement explicite des personnes concernées ne s’appliquera normalement qu’aux participants humains volontaires pendant la phase de recherche et développement. Le traitement de catégories particulières de données à caractère personnel, par exemple les opinions politiques ou les croyances religieuses, peut faire partie du noyau de données des outils d’IA appliqués dans le domaine de la prévention du terrorisme.

Certaines actions supplémentaires peuvent être extrêmement utiles pour éviter la prise de décision automatisée si elle n’est pas nécessaire :

  • Tenir compte des exigences du système nécessaires pour soutenir un examen humain significatif dès la phase de conception. En particulier, les exigences d’interprétabilité et la conception d’une interface utilisateur efficace pour soutenir les examens et les interventions humaines ;
  • Concevoir et offrir une formation et un soutien appropriés aux examinateurs humains ; et
  • Donner au personnel l’autorité, les incitations et le soutien appropriés pour répondre aux préoccupations des personnes ou les transmettre à un échelon supérieur et, si nécessaire, passer outre la décision de l’outil d’IA.[2]

Si vous procédez à un profilage ou à des décisions automatisées, vous devez informer les personnes concernées de votre décision et fournir toutes les informations nécessaires conformément au RGPD et à la réglementation nationale, le cas échéant.

Sélection de données non biaisées

La partialité est l’un des principaux problèmes liés au développement de l’IA, un problème qui va à l’encontre du principe de loyauté (voir “Principe de licéité, de loyautéet de transparence” dans la partie II, section “Principes” des présentes lignes directrices). Les biais peuvent être causés par de nombreux facteurs différents. Lorsque des données sont recueillies, elles peuvent contenir des biais, des inexactitudes, des erreurs et des fautes construits par la société. Parfois, il peut arriver que les ensembles de données soient biaisés en raison d’actions malveillantes. L’introduction de données malveillantes dans un outil d’IA peut modifier son comportement, en particulier avec les systèmes d’auto-apprentissage.[3] Par conséquent, les questions liées à la composition des bases de données utilisées pour la formation soulèvent des problèmes éthiques et juridiques cruciaux, et pas seulement des questions d’efficacité ou de nature technique.

Vous devez résoudre ces problèmes avant de former l’algorithme. Les biaisidentifiables et discriminatoires doivent être supprimés dans la mesure du possible lors de la phase de constitution des ensembles de données. Comme nous l’avons vu par le passé, l’idée que certains groupes de personnes (Noirs, Arabes ou étrangers en général, musulmans…) sont plus souvent condamnés parce qu’ils enfreignent la loi plus fréquemment dans la plupart des cas n’est pas valable. Ils sont plus souvent fouillés, plus souvent discriminés par la police, plus souvent confrontés à une violence excessive, à l’arbitraire ou à l’hostilité de la police et se retrouvent donc plus souvent dans des situations problématiques. Cette observation serait très probablement valable pour tout autre sous-ensemble de la population s’il était traité de la même manière. Par conséquent, déduire un taux de criminalité plus élevé dans les zones où vivent de nombreux étrangers pourrait devenir une prophétie auto-réalisatrice.

Un autre exemple pourrait être l’hypothèse selon laquelle un outil d’IA produit les bons résultats dès qu’ils correspondent aux résultats obtenus par les humains. Or, les décisions humaines sont souvent biaisées, et l’outil d’IA perpétuerait très probablement ces pratiques discriminatoires au lieu de produire des résultats plus objectifs.

Si l’algorithme est biaisé, il peut également augmenter le nombre de faux positifs ou de faux négatifs. Les faux positifs peuvent avoir des effets négatifs graves sur les personnes concernées, les faux négatifs sur la société et, bien sûr, sur les victimes d’activités criminelles ou terroristes qui auraient pu être évitées.

Vous devez vous assurer que l’algorithme évalue ces facteurs en conséquence lorsque vous sélectionnez les données. Cela signifie que les équipes chargées de sélectionner les données à intégrer dans les jeux de données doivent être composées de personnes qui garantissent la diversité dont l’outil d’IA est censé faire preuve. Enfin, gardez toujours à l’esprit que, si vos données concernent principalement un groupe concret, vous devez déclarer que l’algorithme a été formé sur cette base et qu’il pourrait donc ne pas fonctionner aussi bien dans d’autres groupes de population.

 

 

  1. Colin Shearer, Le modèle CRISP-DM : The New Blueprint for Data Mining, p. 16.
  2. https://ico.org.uk/about-the-ico/news-and-events/ai-blog-fully-automated-decision-making-ai-systems-the-right-to-human-intervention-and-other-safeguards/
  3. Groupe d’experts de haut niveau sur l’IA, Lignes directrices en matière d’éthique pour une IA digne de confiance, 2019, p. 17. À l’adresse : https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai Consulté le 15 mai 2020

 

Aller au contenu principal