Type de données collectées - Guidelines Panelfit

Selon le RGPD, le responsable du traitement “met en œuvre les mesures techniques et organisationnelles appropriées pour garantir que, par défaut, seules les données à caractère personnel qui sont nécessaires à chaque finalité spécifique du traitement sont traitées”. Cette obligation s’applique à la quantité de données à caractère personnel collectées, à l’étendue de leur traitement, à la durée de leur conservation et à leur accessibilité. En particulier, ces mesures doivent garantir que, par défaut, les données à caractère personnel ne sont pas rendues accessibles, sans l’intervention de la personne concernée, à un nombre indéfini de personnes physiques”^[1] (voir la section “Protection des données dès la conception et par défaut”, dans les “Concepts principaux” de la partie II). Il convient de garder cela à l’esprit, notamment au cours de cette étape, car c’est souvent à ce moment-là que sont prises les décisions relatives au type de données qui seront utilisées.

Les responsables du traitement doivent considérer qu’il est toujours préférable d’éviter d’utiliser les données personnelles si cela est possible. En effet, selon le principe de minimisation des données, l’utilisation des données personnelles doit être adéquate, pertinente et limitée à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées. Par conséquent, si la même finalité peut être atteinte sans utiliser de données personnelles, le traitement doit être évité.

Dans un deuxième niveau de précaution, si les développeurs doivent utiliser des données personnelles, ils doivent essayer d’éviter d’utiliser des données de catégorie spéciale. C’est parfois faisable, parfois non. Cela dépend souvent du domaine d’application du modèle. Ce n’est pas la même chose de travailler sur un modèle qui sera utilisé pour l’analyse de l’influence de l’épigénétique sur la santé humaine, un modèle utilisé pour surveiller une épidémie ou un modèle qui servira à cibler les publicités avec précision. Si ces données de catégorie spéciale sont finalement utilisées, les responsables du traitement doivent tenir compte de la réglementation applicable à leur traitement et de l’application nécessaire de garanties appropriées, capables de protéger les droits, les intérêts et les libertés des personnes concernées. La proportionnalité entre l’objectif de la recherche et l’utilisation des catégories particulières de données doit être garantie. En outre, les responsables du traitement doivent s’assurer que la réglementation de leur État membre ne protège pas les données génétiques, biométriques et de santé en introduisant des conditions ou des limitations supplémentaires, puisqu’ils sont habilités à le faire par le RGPD.

Si des données à caractère personnel sont nécessaires, le développeur d’IA devrait au moins essayer de réduire autant que possible la quantité de données considérées (voir la section “Minimisation des données” dans les “Principes” de la partie II). Il ne doit jamais oublier qu’il ne peut traiter des données que si le traitement est adéquat et pertinent. Par conséquent, ils doivent éviter d’utiliser une quantité excessive de données à caractère personnel. Trop souvent, cela est plus facile à faire qu’il n’y paraît. Comme l’indique l’Agence norvégienne de protection des données, “[i]l convient de noter que la qualité des données d’entraînement, ainsi que les caractéristiques utilisées, peuvent dans de nombreux cas être beaucoup plus importantes que la quantité. Lors de la formation d’un modèle, il est important que la sélection des données de formation soit représentative de la tâche à résoudre ultérieurement. D’énormes volumes de données sont de peu d’utilité s’ils ne couvrent qu’une fraction de ce sur quoi le modèle travaillera par la suite.”^[2] Il est donc particulièrement important de ne pas collecter de données inutiles. Un étiquetage correct pourrait être un bon antidote contre la collecte inutile. Notez que si les données sont déjà stockées, la sélection implique la suppression des éléments de données inutiles.

Le développeur doit toujours essayer d’éviter la “malédiction de la dimensionnalité”, c’est-à-dire “une performance médiocre des algorithmes et leur complexité élevée associées à un cadre de données ayant un grand nombre de dimensions/caractéristiques, ce qui rend souvent la fonction cible assez complexe et peut conduire à un surajustement du modèle tant que l’ensemble de données se trouve souvent dans le collecteur de dimension inférieure”.^[3] À cette fin, il peut être extrêmement important de disposer d’un expert capable de sélectionner les caractéristiques pertinentes. Cela permettrait de réduire considérablement la quantité de données personnelles utilisées sans perdre en qualité. Cela ne devrait pas être difficile si le spécialiste des données connaît bien l’ensemble de données et la signification de ses caractéristiques numériques. Dans ces conditions, il serait facile de déterminer si certaines des variables sont nécessaires ou non. Toutefois, une telle approche n’est possible que si l’ensemble de données est facile à interpréter et si les dépendances entre les variables sont bien connues. Par conséquent, le développeur aura besoin d’une plus petite quantité de données si elles ont été correctement classées. Les données intelligentes pourraient être beaucoup plus utiles que les données volumineuses. Bien sûr, cela pourrait impliquer un effort énorme en termes d’unification, d’homogénéisation, etc., mais cela aidera à mettre en œuvre le principe de minimisation des données (voir “Principe de minimisation des données” dans la partie II, section “Principes” des présentes lignes directrices) d’une manière beaucoup plus efficace.

En outre, les responsables du traitement devraient essayer de limiter la résolution des données à ce qui est minimalement nécessaire aux fins poursuivies par le traitement. Ils doivent également déterminer un niveau optimal d’agrégation des données avant de commencer le traitement (voir la section “Adéquat, pertinent et limité” de la section “Minimisation des données” des “Principes” de la partie II).

La minimisation des données peut être complexe dans le cas de l’apprentissage profond, où la discrimination par caractéristiques peut être impossible. Il existe un moyen efficace de réguler la quantité de données recueillies et de ne l’augmenter que si cela semble nécessaire : la courbe d’apprentissage^[4] . Le développeur doit commencer par collecter et utiliser une quantité limitée de données d’apprentissage, puis surveiller la précision du modèle lorsqu’il est alimenté par de nouvelles données.

Encadré 16 : Une pratique de minimisation des données qui n’a pas été mise en œuvre de manière adéquate

Un outil développé par l’administration fiscale norvégienne pour filtrer les erreurs dans les déclarations d’impôts a testé 500 variables lors de la phase d’entraînement. Toutefois, seules 30 d’entre elles ont été incluses dans le modèle d’IA final, car elles se sont avérées les plus pertinentes pour la tâche à accomplir. Cela signifie qu’ils auraient probablement pu éviter de collecter autant de données personnelles s’ils avaient effectué une meilleure sélection des variables pertinentes dès le début.^[5]

Article 24 du RGPD. ↑
Autorité norvégienne de protection des données (2018) Intelligence artificielle et vie privée. Autorité norvégienne de protection des données, Oslo. Disponible à l’adresse : https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf (consulté le 15 mai 2020). ↑
Oliinyk, H. (2018) Pourquoi et comment se débarrasser correctement de la malédiction de la dimensionnalité (avec visualisation d’un ensemble de données sur le cancer du sein). Vers la science des données, 20 mars. Disponible à l’adresse : https://towardsdatascience.com/why-and-how-to-get-rid-of-the-curse-of-dimensionality-right-with-breast-cancer-dataset-7d528fb5f6c0 (consulté le 15 mai 2020). ↑
Ng, R. (pas de date) Learning curve. Disponible à l’adresse : www.ritchieng.com/machinelearning-learning-curve/ (consulté le 15 mai 2020). ↑
Autorité norvégienne de protection des données (2018) Intelligence artificielle et vie privée. Autorité norvégienne de protection des données, Oslo. Disponible à l’adresse : https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf (consulté le 15 mai 2020). ↑