Préparation des données - Guidelines Panelfit

Description

“La phase de préparation des données couvre toutes les activités visant à construire l’ensemble de données final ou les données qui seront introduites dans le ou les outils de modélisation à partir des données brutes initiales. Les tâches comprennent la sélection des tables, des enregistrements et des attributs, ainsi que la transformation et le nettoyage des données pour les outils de modélisation. Les cinq étapes de la préparation des données sont la sélection des données, le nettoyage des données, la construction des données, l’intégration des données et le formatage des données.”^[1]

Cette étape comprend toutes les activités nécessaires pour construire l’ensemble de données final qui est introduit dans le modèle, à partir des données brutes initiales. Elle comprend les cinq tâches suivantes, qui ne sont pas nécessairement exécutées de manière séquentielle :

Sélectionner les données. Décidez des données à utiliser pour l’analyse, en fonction de leur pertinence par rapport aux objectifs de l’exploration de données, de leur qualité et des contraintes techniques telles que les limites du volume ou des types de données.
Nettoyer les données. Amenez la qualité des données à un niveau requis, par exemple en sélectionnant des sous-ensembles de données propres, en insérant des valeurs par défaut et en estimant les données manquantes par modélisation.
Construire des données. La construction de nouvelles données par la production d’attributs dérivés, de nouveaux enregistrements ou de valeurs transformées pour des attributs existants.
Intégrer des données. Combiner les données de plusieurs tables ou enregistrements pour créer de nouveaux enregistrements ou valeurs.
Formater les données. Apporter des modifications syntaxiques aux données qui pourraient être requises par l’outil de modélisation.

Principales mesures à prendre

Introduire les garanties prévues à l’article 89 du RGPD.

Puisque vous utilisez des données à des fins scientifiques, vous devez les préparer selon les garanties prévues par le RGPD dans son article 89. Si les finalités de votre recherche peuvent être atteintes par un traitement ultérieur qui ne permet pas ou plus l’identification des personnes concernées, c’est-à-dire par la pseudonymisation, ces finalités doivent être atteintes de cette manière. Si cela n’est pas possible, vous devez introduire des garanties assurant que les mesures techniques et organisationnelles qui permettent une mise en œuvre adéquate du principe de minimisation des données. Veuillez prendre en considération les règles concrètes établies par votre réglementation nationale concernant les garanties. Consultez votre DPD.

Garantir la précision du traitement des données à caractère personnel

Selon le RGPD, les données doivent être exactes (voir “Précision” dans la partie II, section “Principes”).

Cela signifie que les données doivent être correctes et à jour, mais aussi que les analyses effectuées doivent être exactes. L’EDPB a souligné l’importance de l’exactitude du profilage ou du processus décisionnel (non exclusivement) automatisé à tous les stades (de la collecte des données à l’application du profil à l’individu).^[2]

Les responsables du traitement sont chargés de garantir la précision des données. Par conséquent, une fois que vous avez terminé la collecte des données, vous devez mettre en place des outils adéquats pour garantir la précision des données. Cela implique généralement que vous deviez prendre des décisions fondamentales sur les mesures techniques et organisationnelles qui rendront ce principe applicable (voir la sous-section “Mesures techniques et organisationnelles connexes” dans la section “Précision”du chapitre “Principes”). Puisque la plupart des données proviennent des patients et que la plupart d’entre elles sont quantitatives, vous pouvez supposer qu’elles sont exactes. En tout état de cause, la précision exige une mise en œuvre adéquate des mesures destinées à faciliter le droit de rectification des personnes concernées (voir “Droit de rectification” dans la partie II, section “Droits des personnes concernées”).

Se concentrer sur les questions de profilage

Dans le cas d’une base de données qui servira à former ou à valider un outil d’IA, il existe une obligation particulièrement pertinente d’informer les personnes concernées que leurs données pourraient entraîner une prise de décision automatisée ou un profilage à leur égard, à moins que vous puissiez garantir que l’outil ne produira en aucun cas ces conséquences. Même si la prise de décision automatique ne peut guère se produire dans le contexte de la recherche, les développeurs doivent garder un œil ouvert sur cette question. Le profilage, quant à lui, pourrait poser certains problèmes au développement de l’IA.

Selon l’article 22, paragraphe 3, les décisions automatisées qui portent sur des catégories particulières de données à caractère personnel, telles que les données relatives à la santé que vous utilisez, ne sont autorisées que si la personne concernée a donné son consentement ou si elles sont fondées sur une base juridique. Cette exception s’applique non seulement lorsque les données observées entrent dans cette catégorie, mais aussi si le rapprochement de différents types de données à caractère personnel peut révéler des informations sensibles sur des personnes ou si des données déduites entrent dans cette catégorie.

Voici quelques actions supplémentaires qui pourraient être extrêmement utiles pour éviter le profilage s’il n’est pas nécessaire :

Tenir compte des exigences du système nécessaires pour soutenir un examen humain significatif dès la phase de conception. En particulier, les exigences d’interprétabilité et la conception d’une interface utilisateur efficace pour soutenir les examens et les interventions humaines ;
Concevoir et offrir une formation et un soutien appropriés aux examinateurs humains ; et
Donner au personnel l’autorité, les incitations et le soutien appropriés pour répondre aux préoccupations des personnes ou les transmettre à un échelon supérieur et, si nécessaire, passer outre la décision de l’outil d’IA.

Si vous procédez à un profilage ou à des décisions automatisées, vous devez informer les personnes concernées de votre décision et fournir toutes les informations nécessaires conformément au RGPDet à la réglementation nationale, le cas échéant.

Sélection de données non biaisées

La partialité est l’un des principaux problèmes liés au développement de l’IA, un problème qui va à l’encontre du principe de loyauté(voir “Principe de licéité, de loyautéet de transparence” dans la partie II, section “Principes” des présentes lignes directrices). Les biais peuvent être causés par de nombreux facteurs différents. Lorsque des données sont recueillies, elles peuvent contenir des biais, des inexactitudes, des erreurs et des fautes construits par la société. Parfois, il peut arriver que les ensembles de données soient biaisés en raison d’actions malveillantes. L’introduction de données malveillantes dans un outil d’IA peut modifier son comportement, en particulier avec les systèmes d’auto-apprentissage.^[3] Par conséquent, les questions liées à la composition des bases de données utilisées pour la formation soulèvent des problèmes éthiques et juridiques cruciaux, et pas seulement des questions d’efficacité ou de nature technique.

Vous devez résoudre ces problèmes avant de former l’algorithme. Dans la mesure du possible, les biais identifiables et discriminatoires doivent être supprimés lors de la phase de constitution des ensembles de données. Dans le cas de COVID, des distinctions pourraient être faites entre les patients en fonction de leur âge, de leur genre ou de leur groupe ethnique, par exemple. Vous devez vous assurer que l’algorithme tient compte de ce facteur lors de la sélection des données. Cela signifie que les équipes chargées de sélectionner les données à intégrer dans les jeux de données doivent être composées de personnes qui garantissent la diversité dont le développement de l’IA est censé faire preuve. Enfin, gardez toujours à l’esprit que, si vos données sont principalement liées à un groupe concret, par exemple la population caucasienne de plus de quarante ans, vous devez déclarer que l’algorithme a été formé sur cette base et, par conséquent, il pourrait ne pas fonctionner aussi bien dans d’autres groupes de population.

Colin Shearer, Le modèle CRISP-DM : The New Blueprint for Data Mining, p. 16. ↑
Lignes directrices sur la prise de décision individuelle automatisée et le profilage aux fins du règlement 2016/679 (wp251rev.01). 22/08/2018, p. 13 ; Ducato, Rossana, Private Ordering of Online Platforms in Smart Urban Mobility The Case of Uber’s Rating System, CRIDES Working Paper Series no. 3/20202 February 2020 Updated on 26 July 2020, p. 20-21, at: https://poseidon01.ssrn.com/delivery.php?ID=247104118003073117118086021112071111102048023015008020118084071112086000027097102088036101006014057116105116119119026079007006118044033055000114023106007076115096073024007094081002078064098028091093003078095099082108113086098120001079015123027083125024&EXT=pdf&INDEX=TRUE ↑
Groupe d’experts de haut niveau sur l’IA, Lignes directrices en matière d’éthique pour une IA digne de confiance, 2019, p. 17. À l’adresse : https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai Consulté le 15 mai 2020 ↑