Vérification de l’utilisation légitime des jeux de données
Home » IA » Étape par étape » Compréhension des données » Vérification de l’utilisation légitime des jeux de données

Les ensembles de données peuvent être obtenus de différentes manières. Tout d’abord, le développeur peut choisir d’acquérir ou d’obtenir l’accès à une base de données qui a déjà été construite par quelqu’un d’autre. Si tel est le cas, le responsable du traitement doit être particulièrement prudent, car l’acquisition de l’accès à une base de données soulève de nombreuses questions juridiques (voir la section “Achat de l’accès à une base de données” dans la partie “Principaux outils et actions” de la partie II). [1]

Deuxièmement, l’alternative la plus courante consiste à créer une base de données. De toute évidence, dans ce cas, les responsables du traitement doivent s’assurer qu’ils se conforment à toutes les exigences légales imposées par le RGPD pour créer une base de données (voir la section “Création d’une base de données” dans les “Principaux outils et actions” de la partie II des présentes lignes directrices).

Troisièmement, les développeurs choisissent parfois une autre voie. Ils mélangent des données sous licence provenant de tiers entre elles ou avec l’ensemble de données des responsables du traitement, de manière à créer un énorme ensemble de données de formation et un autre à des fins de validation. Cela peut poser certains problèmes, comme par exemple la possibilité que la combinaison de ces données personnelles fournisse des informations supplémentaires sur les personnes concernées. Par exemple, elle pourrait permettre au responsable du traitement d’identifier les personnes concernées, ce qui n’était pas possible auparavant. Cela pourrait impliquer la désanonymisation de données anonymes et la création de nouvelles informations personnelles qui ne figuraient pas dans l’ensemble de données d’origine, ce qui poserait des problèmes éthiques et juridiques considérables. Par conséquent, la réidentification doit être testée par des méthodes telles que les techniques de k-anonymat, de l-diversité ou de t-proximité.[2]

Un autre problème courant est que la base initiale du traitement des données recueillies dans chaque ensemble de données est différente. Si un responsable du traitement fusionne les ensembles de données et qu’ensuite l’une des bases juridiques n’est plus applicable, il se retrouve dans une situation terrible. Par exemple, si l’une des bases de données a été construite sur la base du consentement et que certaines des personnes concernées retirent leur consentement, le responsable du traitement devra les supprimer de l’ensemble de données fusionné. Cela pourrait être très difficile à réaliser dans la pratique.

En outre, les nouvelles informations ainsi produites peuvent également être fondées sur des probabilités ou des conjectures, et donc être fausses, ou contenir des biais dans la représentation des personnes (voir la section “Dispositions du RGPD).[3] Par conséquent, les responsables du traitement doivent essayer d’éviter de telles conséquences en s’assurant que la fusion des ensembles de données ne va pas à l’encontre des droits et des intérêts des personnes concernées.

Enfin, si les responsables du traitement utilisent plusieurs ensembles de données qui poursuivent des finalités différentes, ils doivent mettre en œuvre des mesures adéquates pour séparer les différentes activités de traitement. Sinon, ils pourraient facilement utiliser des données collectées pour une seule finalité à des fins différentes. Cela pourrait poser des problèmes liés au principe de limitation de la finalité.

 

 

  1. Yeong Z. K. (2019) Legal issues in AI deployment. Law Gazette, février. Disponible à l’adresse : https://lawgazette.com.sg/feature/legal-issues-in-ai-deployment/ (consulté le 15 mai 2020).
  2. Rajendran, K., Jayabalan, M. et Rana, M. E. (2017) “A study on k-anonymity, l-diversity, and t-closeness techniques focusing medical data”, International Journal of Computer Science and Network Security 17(12) : 172-177.
  3. Projet SHERPA (2019) Lignes directrices pour le développement éthique des systèmes d’IA et de big data : une approche éthique par la conception. SHERPA, p. 38. Disponible à l’adresse : www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf (consulté le 15 mai 2020).

 

Aller au contenu principal