Compréhension des données
Home » IA » Étude de cas » Deuxième scénario : L’IA pour la prédiction et la prévention des infractions pénales » Compréhension des données

Description

“La phase de compréhension des données commence par une collecte initiale des données. L’analyste procède ensuite à une familiarisation accrue avec les données, à l’identification des problèmes de qualité des données, à la découverte d’aperçus initiaux sur les données, ou à la détection de sous-ensembles intéressants pour former des hypothèses sur des informations cachées. La phase de compréhension des données comporte quatre étapes, à savoir la collecte des données initiales, la description des données, l’exploration des données et la vérification de la qualité des données”.[1]

Toutes ces étapes visent à identifier les données disponibles. À ce stade, vous devez être conscient des données avec lesquelles vous devrez travailler et commencer à prendre des décisions sur la manière dont les grands principes liés à la protection des données seront mis en œuvre. Vous devez consulter le document Éthique et protection des données du 14 novembre 2018[2] pour vous conformer aux exigences légales et éthiques. Dans le cas de l’utilisation de données issues de réseaux sociaux, les informations fournies dans l’encadré 4 Utiliser des données “open source”, page 13, sont particulièrement pertinentes.

Vous devez également savoir que les bases de données qui contiennent des données personnelles sur les poursuites liées à des condamnations pénales et à des infractions sont sensibles et que vous, en tant que développeur, ne pourrez normalement pas y accéder.

Principales mesures à prendre

À ce stade, un grand nombre de questions fondamentales liées à la protection des données personnelles doivent être abordées. En fonction des décisions prises, des principes tels que la minimisation des données, le respect de la vie privée dès la conception ou par défaut, la licéité, la loyauté et la transparence, etc. seront réglés de manière adéquate. Une communication entre les experts éthiques et juridiques, d’une part, et les développeurs de projets, d’autre part, doit être établie pour pouvoir réaliser les principes de “vie privée dès la conception” ou “par défaut”.

Prise de décision sur les types de données à traiter

Selon le RGPD, le “responsable du traitement met en œuvre les mesures techniques et organisationnelles appropriées pour garantir que, par défaut, seules les données à caractère personnel qui sont nécessaires à chaque finalité spécifique du traitement sont traitées. Cette obligation s’applique à la quantité de données à caractère personnel collectées, à l’étendue de leur traitement, à la durée de leur conservation et à leur accessibilité. En particulier, ces mesures garantissent que, par défaut, les données à caractère personnel ne sont pas rendues accessibles sans l’intervention de la personne concernée à un nombre indéfini de personnes physiques.”[3] (Voir Protection des données dès la conception et par défaut dans le chapitre Concepts) Cette exigence doit être spécialement gardée à l’esprit au cours de cette étape, car c’est souvent à ce moment que sont prises les décisions concernant le type de données qui seront utilisées.

Il faut donc s’assurer que vous avez vraiment besoin de grandes quantités de données. Des “données intelligentes” ciblées pourraient être beaucoup plus utiles que des données volumineuses. Bien sûr, l’utilisation de données intelligentes et bien préparées peut impliquer un effort considérable en termes d’unification, d’homogénéisation, etc., mais elle aidera à mettre en œuvre le principe de minimisation des données (voir “Principe de minimisation des données” dans la partie II, section “Principes” des présentes lignes directrices) de manière beaucoup plus efficace. À cette fin, il est essentiel de disposer d’une expertise pour sélectionner les caractéristiques pertinentes. Cette étape consiste également à vérifier la nécessité du traitement pour chaque catégorie de données ; cela implique de prouver qu’aucune mesure ou méthode alternative, moins attentatoire du point de vue de la protection des données et des droits de l’Homme, ne pourrait être appliquée pour atteindre le même résultat.

En outre, vous devez essayer de limiter la résolution des données à ce qui est minimalement nécessaire aux fins poursuivies par le traitement. Vous devez également déterminer un niveau optimal d’agrégation des données avant de commencer le traitement (voir la section “Partie adéquate, pertinente et limitée de la minimisation des données” du chapitre “Principes”). Dans le cas de l’IA appliquée à la prédiction, la prévention ou l’investigation de la criminalité, le niveau possible d’agrégation des données, c’est-à-dire l’anonymisation des données, est sans aucun doute limité, du moins pour les implémentations et utilisations ultérieures des systèmes développés. L’objectif premier étant d’identifier les auteurs (potentiels) de crimes, il doit au moins être possible de (re)personnaliser les données sur les menaces potentielles.

La minimisation des données peut être compliquée dans le cas de l’apprentissage profond, où la différenciation par caractéristiques peut être impossible. Il existe un moyen efficace de réguler la quantité de données recueillies et de ne l’augmenter que si cela semble nécessaire : la courbe d’apprentissage. Vous devez commencer par collecter et utiliser une quantité limitée de données d’apprentissage, puis surveiller la précision du modèle à mesure qu’il est alimenté en nouvelles données.

Vérification de l’utilisation légitime des jeux de données

Les ensembles de données peuvent être obtenus de différentes manières. Tout d’abord, le développeur peut opter pour l’acquisition ou l’accès à une base de données qui a déjà été construite par quelqu’un d’autre. Si c’est le cas, vous devez être particulièrement prudent car l’acquisition de l’accès à une base de données soulève de nombreuses questions juridiques (voir la section “Achat de l’accès à une base de données” du chapitre “Principaux outils et actions”). [4]

Ensuite, l’alternative la plus courante consiste à créer une base de données. Bien évidemment, dans ce cas, vous devez vous assurer que vous respectez toutes les exigences légales imposées par le RGPD pour créer une base de données (voir la section “Créer une base de données” dans le chapitre “Principaux outils et actions”).

Troisièmement, vous pouvez choisir une autre voie. Vous pouvez mélanger des données sous licence provenant de tiers avec votre propre ensemble de données de manière à créer un énorme ensemble de données de formation et un autre à des fins de validation. Cela peut poser certains problèmes, notamment la possibilité que la combinaison de différents ensembles de données fournisse des informations supplémentaires sur les personnes concernées. Par exemple, cela pourrait vous permettre d’identifier les personnes concernées, ce qui n’était pas possible auparavant, en utilisant un seul des ensembles de données. Cela pourrait impliquer la désanonymisation de données anonymes et la création de nouvelles informations personnelles qui ne figuraient pas dans l’ensemble de données initial. Cette situation entraînerait d’importants problèmes éthiques et juridiques. Par exemple, “si les personnes concernées ont donné leur consentement éclairé au traitement des informations personnelles contenues dans les ensembles de données d’origine à des fins particulières, elles n’ont pas nécessairement donné leur autorisation par extension à la fusion d’ensembles de données et à l’exploration de données qui révèle de nouvelles informations. Les nouvelles informations produites de cette manière peuvent également être basées sur des probabilités ou des conjectures, et donc être fausses, ou contenir des biais dans la représentation des personnes.”[5] Par conséquent, vous devriez essayer d’éviter de telles conséquences en vous assurant que la fusion des ensembles de données ne va pas à l’encontre des droits et des intérêts des personnes concernées.

Enfin, si vous utilisez plusieurs ensembles de données qui poursuivent des objectifs différents, vous devez mettre en œuvre des mesures adéquates pour séparer les différentes activités de traitement. Sinon, vous pourriez facilement utiliser des données dans un but pour lequel elles n’ont pas été collectées. Cela pourrait poser des problèmes liés au principe de limitation de la finalité (voir “Principe de limitation de la finalité” dans la partie II, section “Principes” des présentes lignes directrices).

Sachez que les mesures susmentionnées ne sont suffisantes que pour la phase d’exécution du projet de recherche. Le consentement éclairé sera généralement d’une utilité très limitée dans le cadre d’une activité répressive. Il en va de même pour la création et l’utilisation de données factices ou synthétiques. L’utilisation de données synthétiques peut toujours poser des problèmes de ré-identification potentielle, ainsi que la question de savoir si l’on peut faire confiance à ces données lors de l’entraînement d’algorithmes d’IA. Toutes ces mesures peuvent effectivement contribuer à atténuer ou à éliminer les problèmes éthiques ou juridiques de la phase de recherche. Il est essentiel de s’assurer que les ensembles de données nécessaires aux mises en œuvre dans le monde réel sont également conformes aux exigences éthiques et juridiques imposées par les réglementations de l’UE et des États membres ; cela vaut également pour l’utilisation d’ensembles de données appartenant à la police ou au gouvernement. Sachez également qu’il peut s’avérer difficile, voire impossible, d’accéder à des ensembles de données réelles de taille suffisante pour la formation pratique de l’outil d’IA.

Sélection de la base juridique appropriée pour le traitement

Vous devez décider de la base juridique que vous utiliserez pour le traitement avant de le commencer, documenter votre décision (ainsi que les finalités) et inclure les raisons pour lesquelles vous avez fait votre choix (voir “Principe de responsabilité” dans la partie II, section “Principes” des présentes lignes directrices).

Vous devez choisir la base juridique qui reflète le mieux la véritable nature de votre traitement des données à caractère personnel. Si des participants humains sont impliqués, il faut également tenir compte de la relation avec les participants et de la finalité du traitement. Cette décision est essentielle, car il n’est pas possible de changer la base juridique du traitement s’il n’y a pas de raisons solides qui le justifient (voir la section Limitation de la finalité dans le chapitre Principes).

Dans le cas d’outils d’IA développés à des fins de prédiction ou de prévention de la criminalité, etc. vous devez à nouveau faire la distinction entre la phase de recherche et les mises en œuvre ultérieures. Pour la phase de recherche, vous pouvez être en mesure d’utiliser le consentement comme fondement juridique du traitement, en fonction de l’implication concrète de participants humains. Il peut s’agir, par exemple, d’outils d’IA utilisant l’identification biométrique ou l’interprétation de données vidéo, qui nécessitent l’intervention de participants humains pour les tests. Le consentement pourrait également constituer un fondement juridique valable si vous réutilisez des données qui ont déjà été recueillies à une autre fin et que le consentement était la base qui permettait l’utilisation primaire des données. Le RGPD autorise la réutilisation des données à des fins scientifiques et l’article 5.1 (b) stipule que le traitement ultérieur à des fins de recherche scientifique ne doit pas être considéré comme incompatible avec les finalités initiales (“limitation de la finalité”). Ainsi, en principe, vous pourriez réutiliser ces données sur la base du consentement initial. Cependant, vous devez garder à l’esprit que, selon l’article 9.4 du RGPD, “les États membres peuvent maintenir ou introduire des conditions supplémentaires, y compris des limitations, en ce qui concerne le traitement des données génétiques, des données biométriques ou des données relatives à la santé.” Ainsi, il se pourrait bien que votre réglementation nationale pertinente introduise des exceptions ou des conditions spécifiques à la réutilisation des données personnelles. En tout état de cause, vous devez toujours vous rappeler que vos devoirs d’information demeurent. Vous devez fournir à la personne concernée, avant tout traitement ultérieur de ses données, des informations sur cette autre finalité et toute autre information pertinente visée au paragraphe 2 de l’article 13 du RGPD.

Veuillez garder à l’esprit que les dispositions ci-dessus ne s’appliquent qu’à la conduite de la recherche en tant que telle. Les utilisations futures des systèmes développés doivent être conformes à la législation en vigueur dans l’UE et dans les États membres concernant les activités répressives. Soyez également conscient que le développement de technologies qui ne sont pas conformes aux réglementations applicables ou aux principes éthiques ou aux valeurs européennes impliquerait un gaspillage d’efforts et de ressources.

Réutilisation des données

Actuellement, la réutilisation des données à des fins de recherche fait l’objet d’un débat animé. Selon l’article 5.1 (b) du RGPD, le traitement ultérieur à des fins scientifiques ne doit pas être considéré comme incompatible avec les finalités initiales. Ainsi, à moins que votre réglementation nationale ne stipule le contraire, vous pouvez réutiliser les données disponibles à des fins de recherche, puisque celles-ci sont compatibles avec la finalité initiale pour laquelle elles ont été collectées.

Toutefois, le CEPD fait valoir que, “afin de garantir le respect des droits de la personne concernée, le test de compatibilité prévu à l’article 6, paragraphe 4, devrait toujours être pris en considération avant la réutilisation des données aux fins de la recherche scientifique, en particulier lorsque les données ont été initialement collectées pour des finalités très différentes ou en dehors du domaine de la recherche scientifique. En effet, selon une analyse du point de vue de la recherche médicale, l’application de ce test devrait être simple”.[6] Selon cette interprétation, vous ne devez réutiliser les données à caractère personnel que si les circonstances de l’article 6.4 s’appliquent. Veuillez vérifier dans ce contexte également l’applicabilité de l’article 10 “Le traitement des données à caractère personnel relatives aux condamnations pénales et aux infractions ou aux mesures de sûreté connexes fondé sur l’article 6, paragraphe 1, n’est effectué que sous le contrôle de l’autorité publique ou lorsque le traitement est autorisé par le droit de l’Union ou des États membres qui prévoit des garanties appropriées pour les droits et libertés des personnes concernées.”

 

 

  1. Colin Shearer, Le modèle CRISP-DM : Le nouveau plan directeur pour l’extraction de données, p. 15
  2. https://ec.europa.eu/info/sites/info/files/5._h2020_ethics_and_data_protection_0.pdf
  3. Article 25(2).
  4. Yeong Zee Kin, Legal Issues in AI Deployment, à l’adresse : https://lawgazette.com.sg/feature/legal-issues-in-ai-deployment/ consulté le 15 mai 2020.
  5. SHERPA, Lignes directrices pour le développement éthique des systèmes d’IA et de Big Data : Une approche d’éthique par la conception, 2020, p 38. À l’adresse : https://www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf Consulté le 15 mai 2020
  6. CEPD, un avis préliminaire sur la protection des données et la recherche scientifique, 6 janvier 2020, p. 23.

 

Aller au contenu principal