Mise en œuvre du principe de minimisation des données

Selon le principe de limitation de la finalité (voir “Principe de limitation de la finalité” dans la partie II, section “Principes” des présentes lignes directrices), les responsables du traitement utilisant des outils d’IA déterminent la finalité de l’utilisation de l’outil d’IA dès le début de sa formation ou de son déploiement, et réévaluent cette détermination si le traitement du système donne des résultats inattendus, car il exige que les données à caractère personnel ne soient collectées que pour des “finalités déterminées, explicites et légitimes” et ne soient pas utilisées d’une manière incompatible avec la finalité initiale.

Selon le principe de minimisation des données, les responsables du traitement doivent procéder à la réduction de la quantité de données et/ou de l’éventail d’informations sur la personne concernée qu’ils fournissent dès que possible. Par conséquent, les données à caractère personnel utilisées pendant la phase de formation doivent être expurgées de toutes les informations qui ne sont pas strictement nécessaires à la formation du modèle (voir la sous-section “Aspect temporel” dans la section “Minimisation des données” des “Principes” de la partie II). Il existe de multiples stratégies pour assurer la minimisation des données au stade de la formation. Les techniques évoluent en permanence. Toutefois, certaines des plus courantes sont présentées ci-dessous ;^[1] voir aussi la section “Intégrité et confidentialité” dans les “Principes” de la partie II) :

Analyse des conditions que les données doivent remplir pour être considérées comme de haute qualité et dotées d’une grande capacité de prédiction pour l’application spécifique.
Analyse critique de l’étendue de la typologie des données utilisées à chaque étape de l’outil d’IA.
Suppression des données non structurées et des informations inutiles recueillies lors du prétraitement de l’information.
Identification et suppression des catégories de données qui n’ont pas d’influence significative sur l’apprentissage ou sur le résultat de l’inférence.
Suppression des conclusions non pertinentes associées aux informations personnelles pendant le processus de formation, par exemple, dans le cas d’une formation non supervisée.
Utilisation de techniques de vérification qui nécessitent moins de données, comme la validation croisée.
Analyse et configuration des hyperparamètres algorithmiques pouvant influencer la quantité ou l’étendue des données traitées afin de les minimiser.
Utilisation de modèles d’apprentissage fédérés plutôt que centralisés.
Application de stratégies de confidentialité différentielle.
Entraînement avec des données cryptées en utilisant des techniques homomorphiques.
Agrégation de données.
Anonymisation et pseudonymisation, non seulement dans la communication des données, mais aussi dans les données de formation, les éventuelles données personnelles contenues dans le modèle et dans le traitement de l’inférence.

AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia Espanola Proteccion Datos, Madrid, p.40. Disponible sur : www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (consulté le 15 mai 2020). ↑