Évaluation (validation) - Guidelines Panelfit

Description

“Avant de procéder au déploiement final du modèle construit par l’analyste de données, il est important de procéder à une évaluation plus approfondie du modèle et de revoir la construction du modèle pour s’assurer qu’il atteint correctement les objectifs de l’entreprise. Il est essentiel de déterminer si certaines questions importantes n’ont pas été suffisamment prises en compte. À la fin de cette phase, le chef de projet doit alors décider exactement comment utiliser les résultats de l’exploration de données. Les étapes clés ici sont l’évaluation des résultats, la révision du processus et la détermination des prochaines étapes.”^[1]

Cette phase comporte plusieurs tâches qui soulèvent des questions importantes en matière de protection des données. Globalement, vous devez :

Évaluer les résultats de votre modèle, par exemple pour savoir s’il est précis ou non. À cette fin, le développeur d’IA peut le tester dans le monde réel. Ce test peut souvent être réalisé en coordination avec un partenaire lié au projet et appartenant au domaine dans lequel le système doit être déployé (par exemple, LEA).
Examiner le processus. Vous devez examiner le système de traitement des données afin de déterminer s’il existe un facteur ou une tâche critique qui a été négligé d’une manière ou d’une autre. Cela inclut les questions d’assurance qualité. Il s’agit en fait de la phase la plus récente pour impliquer les utilisateurs finaux potentiels dans le processus de développement. Cependant, vous devez impliquer et connaître les besoins de l’utilisateur final à un stade très précoce de votre projet (compréhension de l’activité). À ce stade, les parties prenantes et les utilisateurs finaux peuvent donner un aperçu des forces et des faiblesses du système dans le monde réel.

Principales mesures à prendre

Processus de validation dynamique

La validation du traitement, y compris d’une composante IA, doit être effectuée dans des conditions qui reflètent l’environnement réel dans lequel le traitement est destiné à être déployé. Ainsi, si vous savez à l’avance où l’outil d’IA sera utilisé, vous devez adapter le processus de validation à cet environnement. La meilleure façon d’y parvenir est d’impliquer les partenaires respectifs du domaine concerné. Si l’outil doit être déployé dans le pays x, vous devez le valider avec des données obtenues auprès de la population concernée ou, si ce n’est pas possible, auprès d’une population similaire. Sinon, les résultats pourraient être totalement erronés. Dans tous les cas, vous devez informer tout utilisateur potentiel des conditions de validation.

En outre, le processus de validation nécessite un examen périodique si les conditions changent ou si l’on soupçonne que la solution elle-même peut être altérée. Par exemple, si l’algorithme est alimenté par les données d’un groupe spécifique de personnes, vous devez évaluer si cela modifie ou non sa précision dans une autre partie de la population. Vous devez vous assurer que la validation reflète fidèlement les conditions dans lesquelles l’algorithme a été validé.

Pour atteindre cet objectif, la validation doit inclure tous les composants d’un outil d’IA, y compris les données, les modèles pré-entraînés, les environnements et le comportement du système dans son ensemble. La validation doit également être effectuée le plus tôt possible. Globalement, il faut s’assurer que les résultats ou les actions sont cohérents avec les résultats des processus précédents, en les comparant aux politiques préalablement définies pour s’assurer qu’elles ne sont pas violées.^[2] La validation nécessite parfois la collecte de nouvelles données à caractère personnel. Dans d’autres cas, les responsables du traitement utilisent les données à des fins autres que celles prévues à l’origine. Dans tous ces cas, les responsables du traitement doivent veiller au respect du RGPD (voir la section “Limitation de la finalité” dans “Principes” et “Protection des données et recherche scientifique” dans “Concepts principaux”, partie II des présentes lignes directrices).

Suppression d’un jeu de données inutile

Très souvent, les processus de validation et de formation sont en quelque sorte liés. Si la validation recommande des améliorations du modèle, la formation doit être effectuée à nouveau. Une fois que l’outil d’IA a finalement été réalisé, l’étape de formation de l’outil d’IA est terminée. À ce moment-là, vous devez mettre en œuvre la suppression de l’ensemble des données utilisées à cette fin, à moins qu’il n’existe un besoin légal de les conserver pour affiner ou évaluer le système, ou à d’autres fins compatibles avec celles pour lesquelles elles ont été collectées conformément aux conditions de l’article 6, paragraphe 4, du RGPD (voir la section “Définir des politiques adéquates de stockage des données”).

Dans le cas où les personnes concernées demandent son effacement, vous devrez adopter une approche au cas par cas en tenant compte des éventuelles limitations à ce droit prévues par le règlement (voir art. 17, paragraphe 3). ^[3]

Réalisation d’un audit externe du traitement des données

Étant donné que les risques du système que vous développez sont élevés, un audit du système par une tierce partie indépendante doit être impliqué. Différents audits peuvent être utilisés. Ils peuvent être internes ou externes ; ils peuvent couvrir uniquement le produit final ou être réalisés avec des prototypes moins évolués. Ils peuvent être considérés comme une forme de contrôle et un outil de transparence, qui est censé être une caractéristique de qualité également.

En termes d’exactitude juridique, les solutions d’IA doivent être auditées pour voir si elles fonctionnent bien avec le RGPD en considérant un large éventail de questions. Le groupe d’experts de haut niveau sur l’IA a déclaré que “les processus de test devraient être conçus et réalisés par un groupe de personnes aussi diversifié que possible. Des mesures multiples devraient être développées pour couvrir les catégories qui sont testées pour différentes perspectives. On peut envisager des tests contradictoires effectués par des “équipes rouges” fiables et diverses qui tentent délibérément de “casser” le système pour trouver des vulnérabilités, ainsi que des “primes aux bogues” qui incitent les personnes extérieures à détecter et à signaler de manière responsable les erreurs et les faiblesses du système.”^[4] L’audit doit également comprendre le respect du principe d’explicabilité. “Le degré auquel l’explicabilité est nécessaire dépend fortement du contexte et de la gravité des conséquences si cette sortie est erronée ou autrement inexacte. “^[5] Compte tenu des conséquences très graves pour les personnes soupçonnées ou condamnées pour des activités criminelles, les technologies de ML appliquées doivent permettre l’explicabilité, parmi d’autres mesures requises, afin que les systèmes développés respectent les droits fondamentaux. L’audit doit également porter sur les mesures mises en œuvre pour éviter les biais, l’obscurité, le profilage caché, etc., et sur l’utilisation correcte d’outils tels que le AIPD, qui peut être réalisée plusieurs fois. La mise en œuvre de politiques de protection des données adéquates dès les premières étapes du cycle de vie de l’outil est le meilleur moyen d’éviter les problèmes de protection des données.

Colin Shearer, Le modèle CRISP-DM : Le nouveau plan directeur pour l’extraction de données, p. 17 ↑
Groupe d’experts de haut niveau sur l’IA, Lignes directrices en matière d’éthique pour une IA digne de confiance, 2019, p. 22. À l’adresse : https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai Consulté le 15 mai 2020 ↑
AEPD, Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción, 2020, p.26. À l’adresse : https://www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf ↑
Groupe d’experts de haut niveau sur l’IA, Lignes directrices en matière d’éthique pour une IA digne de confiance, 2019, p. 22. À l’adresse : https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai Consulté le 15 mai 2020 ↑
Ibidem, p.15 ↑