Modélisation (formation) - Guidelines Panelfit

Description

“Dans cette phase, diverses techniques de modélisation sont sélectionnées et appliquées et leurs paramètres sont calibrés à des valeurs optimales. Généralement, plusieurs techniques existent pour le même type de problème d’exploration de données. Certaines techniques ont des exigences spécifiques sur la forme des données. Par conséquent, il peut être nécessaire de revenir à la phase de préparation des données. Les étapes de modélisation comprennent la sélection de la technique de modélisation, la génération du plan de test, la création de modèles et l’évaluation des modèles.”^[1]

Cette phase comporte plusieurs tâches essentielles. Dans l’ensemble, vous devez

Sélectionner la technique de modélisation qui sera utilisée. Selon le type de technique, des conséquences telles que l’inférence des données, l’obscurité ou les biais sont plus ou moins susceptibles de se produire.
Prendre une décision sur l’outil de formation à utiliser. Cela permet au développeur de mesurer la capacité du modèle à prédire l’histoire avant de l’utiliser pour prédire l’avenir. Dans le cas de la prédiction de la criminalité, cela pourrait constituer un problème en soi. Ce n’est pas comme prédire que quelqu’un qui aime les yaourts en achètera à nouveau. Nous parlons d’êtres humains et de leurs chances dans la vie. En supposant qu’une personne récidivera parce qu’elle a fait quelque chose d’illégal dans le passé, on néglige presque le fait que nous considérons les citoyens comme des êtres humains dotés de libre arbitre et de la possibilité de prendre une meilleure décision la prochaine fois. Il est intrinsèquement problématique de supposer que l’avenir sera une extrapolation du passé. En fonction des conséquences individuelles et sociétales, cela peut être moins problématique dans certains cas et injustifiable dans d’autres.
La formation implique toujours la réalisation de tests empiriques avec des données. Parfois, les développeurs testent le modèle avec des données différentes de celles utilisées pour le générer. Par conséquent, à ce stade, on peut parler de différents types d’ensembles de données.

Principales mesures à prendre

Mise en œuvre du principe de minimisation des données

Selon le principe de minimisation des données, vous devez procéder à la réduction de la quantité de données et/ou de l’éventail d’informations sur la personne concernée qu’ils fournissent dès que possible. Par conséquent, vous devez purger les données utilisées pendant la phase d’entraînement de toutes les informations qui ne sont pas strictement nécessaires à l’entraînement du modèle. (voir la sous-section “Aspect temporel” dans “Minimisation des données” dans “Principes” dans la partie II). Il existe de multiples stratégies pour assurer la minimisation des données lors de la phase de formation. Les techniques évoluent en permanence. Toutefois, certaines des plus courantes sont^[2] (voir “Principe d’intégrité et de confidentialité” dans la section “Principes” de la partie II des présentes lignes directrices) :

Analyse des conditions que les données doivent remplir pour être considérées comme de haute qualité et dotées d’une grande capacité de prédiction pour l’application spécifique.
Analyse critique de l’étendue de la typologie des données utilisées à chaque étape de la solution d’IA.
Suppression des données non structurées et des informations inutiles recueillies lors du prétraitement de l’information.
Identification et suppression des catégories de données qui n’ont pas d’influence significative sur l’apprentissage ou sur le résultat de l’inférence.
Suppression des conclusions non pertinentes associées aux informations personnelles pendant le processus de formation, par exemple, dans le cas d’une formation non supervisée.
Utilisation de techniques de vérification qui nécessitent moins de données, comme la validation croisée.
Analyse et configuration des hyperparamètres algorithmiques qui pourraient influencer la quantité ou l’étendue des données traitées afin de les minimiser
Utilisation de modèles d’apprentissage fédérés plutôt que centralisés
Application de stratégies de confidentialité différentielle.
Entraînement avec des données cryptées en utilisant des techniques homomorphiques.
Agrégation de données.
Anonymisation et pseudonymisation, non seulement dans la communication des données, mais aussi dans les données de formation, les éventuelles données personnelles contenues dans le modèle et dans le traitement de l’inférence.

Détecter et effacer les biais

Même si les mécanismes de lutte contre les biaissont convenablement adoptés lors des étapes précédentes (voir la section sur la formation ci-dessus), il faut encore s’assurer que les résultats de la phase de formation minimisent les biais. Cela peut être difficile car certains types de biais et de discrimination sont souvent particulièrement difficiles à détecter. Les membres de l’équipe qui traite les données d’entrée n’en sont parfois pas conscients, et les utilisateurs qui sont leurs sujets n’en sont pas nécessairement conscients non plus. Ainsi, les systèmes de contrôle mis en place par le développeur d’IA lors de la phase de validation sont des facteurs extrêmement importants pour éviter les biais.

Il existe de nombreux outils techniques qui peuvent servir à détecter les biais, comme l’évaluation de l’impact algorithmique.^[3] Il faut envisager leur mise en œuvre effective.^[4] Cependant, comme le montre la littérature,^[5] il peut arriver qu’un algorithme ne puisse être totalement purgé de tous les différents types de biais. Vous devez cependant essayer d’être au moins conscient de leur existence et des implications que cela peut entraîner (voir “Principe de licéité, de loyauté et de transparence” dans la partie II, section “Principes” des présentes lignes directrices).

Exercice des droits des personnes concernées

Parfois, les développeurs complètent les données disponibles par inférence. Par exemple, si vous ne disposez pas des données factuelles correspondant aux opinions politiques d’un délinquant, vous pouvez utiliser un autre algorithme pour les déduire du reste des données, comme la participation observée à des manifestations. Toutefois, cela ne signifie en aucun cas que ces données peuvent être considérées comme pseudonymisées ou anonymisées. Elles restent donc des données à caractère personnel. De même, les données déduites doivent également être considérées comme des données à caractère personnel. Par conséquent, les personnes concernées ont certains droits fondamentaux sur ces données que vous devez respecter.

En effet, vous devez respecter les droits des personnes concernées tout au long de leur cycle de vie. Dans cette étape spécifique, le droit d’accès, de rectification et d’effacement sont particulièrement sensibles et comportent certaines caractéristiques que les responsables de traitement doivent connaître. Toutefois, dans le cas de recherches à des fins scientifiques telles que celle que vous développez, le RGPD inclut certaines garanties et dérogations relatives au traitement (Art. 89). Vous devez être au courant de la réglementation concrète de votre État membre. Selon le RGPD, le droit de l’Union ou des États membres peut prévoir des dérogations aux principaux droits inclus dans les articles 15 et suivants, dans la mesure où ces droits sont susceptibles de rendre impossible ou de nuire gravement à la réalisation des finalités spécifiques, et où ces dérogations sont nécessaires à la réalisation de ces finalités.

-Droit d’accès (voir “Droit d’accès” dans la partie II, section “Droits des personnes concernées” des présentes lignes directrices).

En principe, vous devez répondre aux demandes d’accès des personnes concernées à leurs données personnelles, à condition d’avoir pris des mesures raisonnables pour vérifier l’identité de la personne concernée, et qu’aucune autre exception ne s’applique. Toutefois, vous n’êtes pas tenu de collecter ou de conserver des données à caractère personnel supplémentaires pour permettre l’identification des personnes concernées dans les données de formation dans le seul but de vous conformer au règlement. Si vous ne pouvez pas identifier une personne concernée dans les données de formation et que la personne concernée ne peut pas fournir d’informations supplémentaires qui permettraient son identification, elle n’est pas obligée de satisfaire une demande qu’il n’est pas possible de satisfaire.

-Droit de rectification (voir “Droit de rectification” dans la partie II, section “Droits de la personne concernée” des présentes lignes directrices).

Dans le cas du droit de rectification, vous devez garantir le droit de rectification des données, notamment celles générées par les déductions et les profils établis par un outil d’IA. Même si l’objectif des données d’entraînement est de former des modèles basés sur des modèles généraux dans de grands ensembles de données, et donc que les inexactitudes individuelles sont moins susceptibles d’avoir un effet direct sur une personne concernée, le droit de rectification ne peut pas être limité. Au maximum, vous pourriez demander un délai plus long (deux mois supplémentaires) pour procéder à la rectification si la procédure technique est particulièrement complexe (article 11, paragraphe 3).

-Droit à l’effacement (voir “Droit à l’effacement” dans la partie II, section “Droits de la personne concernée” des présentes lignes directrices).

Les personnes concernées ont le droit de supprimer leurs données personnelles. Toutefois, ce droit peut être limité si certaines circonstances concrètes s’appliquent. Selon l’ICO britannique, “les organisations peuvent également recevoir des demandes d’effacement de données de formation. Les organisations doivent répondre aux demandes d’effacement, sauf si une exemption pertinente s’applique et à condition que la personne concernée ait des motifs appropriés. Par exemple, si les données de formation ne sont plus nécessaires parce que le modèle ML a déjà été formé, l’organisation doit satisfaire la demande. Toutefois, dans certains cas, lorsque le développement du système est en cours, il peut encore être nécessaire de conserver les données de formation aux fins du réentraînement, du perfectionnement et de l’évaluation d’un outil d’IA. Dans ce cas, l’organisation doit adopter une approche au cas par cas pour déterminer si elle peut satisfaire les demandes. Se conformer à une demande de suppression des données d’entraînement n’entraînerait pas l’effacement des modèles ML basés sur ces données, sauf si les modèles eux-mêmes contiennent ces données ou peuvent être utilisés pour les déduire.” ^[6]

Colin Shearer, Le modèle CRISP-DM : The New Blueprint for Data Mining, p. 17. ↑
AEPD, Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción, 2020, p.40. À l’adresse : https://www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf Consulté le 15 mai 2020. ↑
Reisman, D., Crawford, K., Whittaker, M., Algorithmic impact assessments : Un cadre pratique pour la responsabilité des agences publiques, 2018, à l’adresse : https://ainowinstitute.org/aiareport2018.pdf Consulté le 15 mai 2020. ↑
https://ico.org.uk/media/about-the-ico/consultations/2617219/guidance-on-the-ai-auditing-framework-draft-for-consultation.pdf consulté le 15 mai 2020 ↑
Chouldechova. Alexandra, Fair Prediction with Disparate Impact : Une étude des biais dans les instruments de prédiction de la récidive, Big Data. Volume : 5 Numéro 2 : 1er juin 2017. 153-163.http://doi.org/10.1089/big.2016.0047 ↑
ICO, Enabling access, erasure, and rectification rights in AI tools (Permettre les droits d’accès, d’effacement et de rectification dans les outils d’IA), à l’adresse suivante : https://ico.org.uk/about-the-ico/news-and-events/ai-blog-enabling-access-erasure-and-rectification-rights-in-ai-systems/. Consulté le 15 mai 2020. ↑