Les développeurs d’IA devraient savoir dès le départ ce qu’ils attendent de l’outil. Plus ils sont imprécis sur ces attentes, plus il devient difficile de déterminer les finalités précises du traitement (voir “Conditions préalables à la licéité – finalités spécifiques et explicites” dans la sous-section “Licéité, loyauté et transparence” des “Principes” de la partie II des présentes lignes directrices). Si l’on garde à l’esprit que les responsables du traitement doivent rendre les finalités du traitement explicites, c’est-à-dire “révélées, expliquées ou exprimées d’une manière intelligible”,[1] des attentes précises sont fortement recommandées. Il faut toutefois distinguer les différentes étapes du cycle de vie du développement d’une IA. Au stade de la formation, l’utilisation de grandes quantités de données peut être essentielle pour estimer l’utilité concrète de l’outil. Par conséquent, le traitement de grands ensembles de données peut être acceptable même si l’objectif spécifique (le développement de l’outil d’IA) n’est pas aussi précis. Bien entendu, cela ne serait pas aussi facilement acceptable si nous nous trouvions à la dernière étape du processus, c’est-à-dire le déploiement et l’utilisation de l’outil. Si, à ce moment-là, le responsable du traitement devait utiliser une grande quantité de données, une justification beaucoup plus détaillée serait nécessaire.
Dans tous les cas, il est nécessaire de souligner que certaines idées clés doivent être gardées à l’esprit dès le début. Par exemple, pour décider du niveau de précision prédictive attendu, afin de considérer le projet comme un succès, il est essentiel d’évaluer la quantité de données qui seront nécessaires pour développer l’outil d’IA ou la nature de ces données. Le niveau de prévisibilité ou de précision de l’algorithme, les critères de validation pour le tester, la quantité maximale ou la qualité minimale des données qui seront nécessaires pour l’utiliser dans le monde réel, etc. sont des caractéristiques fondamentales d’un développement d’IA. Ces décisions clés doivent être prises en compte dès la première étape du cycle de vie de la solution. Cela sera extrêmement utile pour mettre en œuvre une politique de protection des données dès la conception (voir la section “Protection des données dès la conception et par défaut” dans la partie II, section “Concepts principaux” des présentes lignes directrices).
Ainsi, le développeur d’IA doit fixer des seuils ou des fourchettes acceptables de faux positifs/négatifs, en fonction du cas d’utilisation, puis effectuer un bilan d’utilité. Le développeur d’IA doit être conscient que la détermination du niveau de précision attendu est clairement liée à la quantité de données nécessaires. Ce n’est pas la même chose de développer, par exemple, un produit pour la santé ou pour la recommandation de séries télévisées. En outre, même dans le secteur de la santé, ce n’est pas la même chose de développer un outil capable d’effectuer un premier triage (c’est-à-dire de recommander l’intervention d’un médecin de premier recours ou d’un spécialiste) ou une solution visant à soutenir les radiologues dans leur diagnostic. En fonction de la finalité du mécanisme, des exigences de précision plus ou moins élevées seront adoptées.
S’il est possible d’atteindre un niveau de précision acceptable en utilisant beaucoup moins de données à caractère personnel que ne l’exige un niveau de précision plus élevé, il convient d’y réfléchir sérieusement. En outre, les développeurs d’IA doivent garder à l’esprit que toute augmentation marginale en termes de précision de la prédiction appelle parfois une augmentation significative de la quantité de données personnelles nécessaires.[2] Par conséquent, s’ils envisagent une modification fondamentale du niveau de précision de la prédiction requise, ils doivent examiner attentivement si cela s’accorde bien avec le principe de minimisation des données (voir “Principe de minimisation des données” dans la partie II, section “Principes” des présentes lignes directrices) .