Le principe de minimisation des données stipule que les données à caractère personnel doivent être “adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées”.[1] Dans le contexte de l’IA, cela signifie, en premier lieu, que les responsables du traitement doivent éviter d’utiliser des données à caractère personnel si cela n’est pas nécessaire, c’est-à-dire si l’objectif visé par le responsable du traitement peut être obtenu sans traiter de données à caractère personnel (voir la section “Licéité, loyauté et transparence” dans la partie “Principes” de la partie II des présentes lignes directrices). En effet, il arrive que des données personnelles puissent être remplacées par des données non personnelles sans que cela n’affecte les finalités de la recherche. Dans ces circonstances, l’utilisation de données anonymes est obligatoire, conformément à l’article 89.1 du RGPD.
Si l’anonymisation n’est pas possible, les responsables du traitement doivent au moins essayer de travailler avec des données pseudonymisées. En fin de compte, chaque responsable du traitement doit définir quelles données à caractère personnel sont réellement nécessaires (et lesquelles ne le sont pas) aux fins du traitement, y compris les périodes de conservation des données pertinentes. En effet, les responsables du traitement doivent garder à l’esprit que la nécessité du traitement doit être prouvée dans le cas de la plupart des bases juridiques – y compris toutes les bases énoncées à l’article 6 du RGPD, à l’exception du consentement, et la plupart des bases incluses dans l’article 9, paragraphe 2, concernant les catégories particulières de données. En d’autres termes, pour la majorité des bases juridiques du traitement des données personnelles, les principes de minimisation des données et de licéité exigent que les responsables du traitement s’assurent que le développement de l’IA ne peut se faire sans utiliser de données personnelles.
La notion de nécessité est toutefois complexe et a une signification indépendante dans le droit de l’Union européenne.[2] En général, elle exige que le traitement soit un moyen ciblé et proportionné d’atteindre une finalité spécifique. Il ne suffit pas de faire valoir que le traitement est nécessaire parce que les responsables du traitement ont choisi d’exercer leur activité d’une manière particulière. Ils doivent être en mesure de démontrer que le traitement est nécessaire à la réalisation de l’objectif poursuivi et qu’il est moins intrusif que d’autres options pour atteindre le même objectif ; et non pas qu’il s’agit d’une partie nécessaire des méthodes qu’ils ont choisies.[3] S’il existe des alternatives réalistes et moins intrusives, le traitement des données personnelles n’est pas considéré comme nécessaire. [4]
Par conséquent, le principe de minimisation des données exige que les développeurs d’IA optent pour les outils dont le développement implique une utilisation minimale de données personnelles par rapport aux alternatives disponibles. Une fois cet objectif atteint, des processus spécifiques doivent être mis en place pour exclure la collecte et/ou le transfert de données personnelles inutiles, réduire les champs de données et prévoir des mécanismes de suppression automatisée.[5] La minimisation des données peut être particulièrement complexe dans le cas de l’apprentissage profond, où la discrimination par caractéristiques peut être impossible. Par conséquent, si des solutions alternatives peuvent donner les mêmes résultats, il est préférable d’éviter l’apprentissage profond.
En outre, le CIPL note que “les données personnelles considérées comme “nécessaires” varient selon le système d’IA et l’objectif pour lequel il est utilisé, mais la gouvernance du RGPD dans ce domaine devrait empêcher le parfait d’être l’ennemi du bien pour les concepteurs d’IA – le fait que les données personnelles doivent être limitées ne signifie pas que le système d’IA lui-même devient inutile, d’autant plus que tous les systèmes d’IA n’ont pas besoin de fournir une sortie précise.”[6] Afin de déterminer précisément l’éventail et la quantité de données personnelles nécessaires, le fait d’avoir un expert capable de sélectionner les caractéristiques pertinentes devient extrêmement important. Cela devrait réduire considérablement le risque pour la vie privée des personnes concernées – sans perdre en qualité.
Il existe un outil efficace pour réguler la quantité de données recueillies et ne l’augmenter que si cela semble nécessaire : la courbe d’apprentissage.[7] Le responsable du traitement doit commencer par recueillir et utiliser une quantité limitée de données d’apprentissage, puis surveiller la précision du modèle à mesure qu’il est alimenté en nouvelles données. Cela aidera également le responsable des données à éviter la “malédiction de la dimensionnalité”, c’est-à-dire “une mauvaise performance des algorithmes et leur grande complexité associées à un cadre de données ayant un grand nombre de dimensions/caractéristiques, ce qui rend souvent la fonction cible assez complexe et peut conduire à un surajustement du modèle tant que l’ensemble de données se trouve souvent dans la courbe de dimensionnalité inférieure”. [8]
Parmi les mesures supplémentaires liées au principe de minimisation, on peut citer :
- limiter l’extension des catégories de données (par exemple, les noms, les adresses physiques et les adresses, les champs concernant leur santé, leur situation professionnelle, leurs croyances, leur idéologie, etc.)
- limiter le degré de détail ou de précision des informations, la granularité de la collecte dans le temps et la fréquence, et l’ancienneté des informations utilisées
- limiter l’extension du nombre de parties intéressées de ceux qui traitent les données
- limiter l’accès aux différentes catégories de données au personnel du responsable du traitement/gestionnaire ou même à l’utilisateur final (si les modèles d’IA contiennent des données de tiers) à toutes les étapes du traitement.[9]
Bien entendu, l’adoption de ces mesures pourrait nécessiter un effort considérable en termes d’unification et d’homogénéisation des données, etc., mais elle contribuera à la mise en œuvre du principe de minimisation des données de manière beaucoup plus efficace. [10]
Enfin, il est utile de rappeler que les responsables du traitement doivent éviter de conserver de longues bases de données historiques, par exemple au-delà de la période requise à des fins commerciales normales, ou pour remplir des obligations légales, ou simplement parce que leur outil analytique est capable de produire un grand nombre de données et que sa capacité de stockage le permet. Au lieu de cela, les entreprises utilisant le big data doivent appliquer des calendriers de conservation appropriés (voir la section “Limitation du stockage” dans les “Principes”, partie II des présentes lignes directrices).
Encadré 6. Un exemple des avantages de la minimisation des données dans l’IA
Un outil d’IA développé par l’administration fiscale norvégienne pour filtrer les erreurs dans les déclarations d’impôts a testé cinq cents variables lors de la phase de formation. Cependant, seules trente d’entre elles ont été incluses dans le modèle d’IA final, car elles se sont avérées les plus pertinentes pour la tâche à accomplir. Il est probable que les développeurs de l’outil auraient pu éviter de collecter autant de données personnelles s’ils avaient effectué une meilleure sélection des variables pertinentes au début du processus de développement. Source : Autorité norvégienne de protection des données (2018) Intelligence artificielle et vie privée. Autorité norvégienne de protection des données, Oslo. Disponible à l’adresse : https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf |
Liste de contrôle : minimisation des données
☐ Les responsables du traitement ont veillé à n’utiliser les données personnelles qu’en cas de besoin. ☐ Les responsables du traitement ont réfléchi à la proportionnalité entre la quantité de données et la précision de l’outil d’IA. ☐ Les responsables du traitement examinent périodiquement les données qu’ils détiennent et suppriment tout ce dont ils n’ont pas besoin. ☐ Les responsables du traitement au stade de la formation du système d’IA débuguent toutes les informations qui ne sont pas strictement nécessaires à cette formation. ☐ Les responsables du traitement vérifient si des données à caractère personnel sont traitées au stade de la distribution du système IA et les suppriment, sauf s’il existe un besoin justifié et une légitimité à les conserver à d’autres fins compatibles. |
Informations complémentaires
ENISA (2015) Le respect de la vie privée dès la conception dans le domaine du big data. Agence de l’Union européenne pour la cybersécurité, Athènes / Héraklion, p.23. Disponible sur : www.enisa.europa.eu/publications/big-data-protection ICO (pas de date) Principe (c) : minimisation des données. Information Commissioner’s Office, Wilmslow. Disponible sur : https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/data-minimisation/ Autorité norvégienne de protection des données (2018) Intelligence artificielle et vie privée. Autorité norvégienne de protection des données, Oslo. Disponible à l’adresse : https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf Pure Storage (2015) Le grand échec du big data : les difficultés rencontrées par les entreprises pour accéder aux informations dont elles ont besoin. Pure Storage, Mountain View, CA. Disponible à l’adresse : http://info.purestorage.com/rs/225-USM-292/images/Big%20Data%27s%20Big%20Failure_UK%281%29.pdf |
- Article 5(1)(c) du RGPD. ↑
- Voir CJUE, affaire C524/06‑, Heinz Huber c. Bundesrepublik Deutschland, 18 décembre 2008, para. 52. ↑
- CEPD (2017) Necessity toolkit : assessing the necessity of measures that limit the fundamental right to the protection of personal data, p.5. Contrôleur européen de la protection des données, Bruxelles. Disponible à l’adresse : https://edps.europa.eu/data-protection/our-work/publications/papers/necessity-toolkit_en (consulté le 15 mai 2020) ; ICO (aucune date) Lawful basis for processing. Bureau du commissaire à l’information, Wilmslow. Disponible à l’adresse : https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/lawful-basis-for-processing/ (consulté le 15 mai 2020). ↑
- Voir CJUE, Affaires jointes C92/09 ‑et C93/09‑, Volker und Markus Schecke GbR et Hartmut Eifert c. Land Hessen, 9. novembre 2010. ↑
- ENISA (2015) Le respect de la vie privée dès la conception dans le domaine du big data. Agence de l’Union européenne pour la cybersécurité, Athènes / Héraklion, p.23. Disponible à l’adresse : www.enisa.europa.eu/publications/big-data-protection (consulté le 28 mai 2020). ↑
- CIPL (2020) Intelligence artificielle et protection des données : comment le RGPD réglemente l’IA. Centre for Information Policy Leadership, Washington DC / Bruxelles / Londres, p.13. Disponible à l’adresse : www.informationpolicycentre.com/uploads/5/7/1/0/57104281/cipl-hunton_andrews_kurth_legal_note_-_how_gdpr_regulates_ai__12_march_2020_.pdf (consulté le 15 mai 2020). ↑
- Voir : www.ritchieng.com/machinelearning-learning-curve/ (consulté le 28 mai 2020). ↑
- Oliinyk, H. (2018) Pourquoi et comment se débarrasser correctement de la malédiction de la dimensionnalité (avec visualisation d’un ensemble de données sur le cancer du sein). Vers la science des données, 20 mars. Disponible à l’adresse : https://towardsdatascience.com/why-and-how-to-get-rid-of-the-curse-of-dimensionality-right-with-breast-cancer-dataset-7d528fb5f6c0 (consulté le 15 mai 2020). ↑
- AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia Espanola Proteccion Datos, Madrid, p.39-40. Disponible sur : www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (consulté le 15 mai 2020). ↑
- Autorité norvégienne de protection des données (2018) Intelligence artificielle et vie privée. Autorité norvégienne de protection des données, Oslo. Disponible à l’adresse : https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf (consulté le 15 mai 2020). ↑