Compréhension de l’entreprise - Guidelines Panelfit

Description

“La phase initiale de compréhension de l’entreprise se concentre sur la compréhension des objectifs du projet d’un point de vue commercial, en convertissant cette connaissance en une définition du problème d’exploration de données, puis en développant un plan préliminaire conçu pour atteindre les objectifs. Afin de comprendre quelles données doivent être analysées plus tard, et comment, il est vital pour les praticiens de l’exploration de données de comprendre pleinement l’entreprise pour laquelle ils trouvent une solution. La phase de compréhension de l’entreprise comprend plusieurs étapes clés, notamment la détermination des objectifs de l’entreprise, l’évaluation de la situation, la détermination des objectifs de l’exploration de données et la production du plan de projet.” ^[1]

Cet objectif général implique quatre tâches principales :

Déterminer les objectifs de l’entreprise. Cela signifie :
1. Découvrir l’objectif principal de l’entreprise ainsi que les questions connexes auxquelles l’entreprise souhaite répondre.
2. Déterminer la mesure du succès.
Évaluer la situation
1. Identifier les ressources disponibles pour le projet, tant matérielles que personnelles.
2. Identifier les données disponibles pour atteindre l’objectif principal de l’entreprise.
3. Dresser la liste des hypothèses formulées dans le cadre du projet.
4. Dresser la liste des risques du projet, énumérer les solutions potentielles à ces risques, créer un glossaire de termes commerciaux et d’exploration de données, et construire une analyse coûts-avantages pour le projet.
Déterminer les objectifs de l’extraction de données : décider du niveau de précision prédictive attendu pour considérer le projet comme réussi.
Produire un plan de projet : décrire le plan prévu pour atteindre les objectifs de l’exploration de données, y compris la description des étapes spécifiques et un calendrier proposé, une évaluation des risques potentiels, et une évaluation initiale des outils et des techniques nécessaires pour soutenir le projet.

Principales mesures à prendre

Définir les objectifs de l’entreprise

La première chose à clarifier lorsque vous voulez créer un outil d’IA est ce que vous voulez réaliser. Dans le cas d’un outil qui identifie une pathologie à partir d’une radiographie, il peut s’agir, par exemple, de

Il est destiné à servir de support au travail du radiologue.
Il peut être utilisé pour soutenir le travail d’un médecin de soins primaires, c’est-à-dire pour déterminer s’il faut adresser le patient à un spécialiste.
Il peut également être conçu pour remplacer le médecin et poser seul un diagnostic de COVID, par exemple.
Il peut être utilisé pour effectuer un premier triage (c’est-à-dire recommander l’intervention d’un médecin de soins primaires ou d’un spécialiste).

Chacun de ces scénarios présente des caractéristiques très différentes. Certains d’entre eux exigent un niveau de précision plus élevé que d’autres. Ainsi, par exemple, si vous avez l’intention de remplacer le professionnel de santé, il est nécessaire que l’IA atteigne un niveau de précision impressionnant.

Les implications éthiques et juridiques de ces différentes finalités sont, en même temps, très différentes. Si le mécanisme doit être utilisé à des fins de prise de décision automatisée, comme dans les cas 3) ou 4), le traitement des données sera soumis à un régime juridique considérablement plus strict. En fait, dans de nombreux pays, cette utilisation peut être directement illégale.

Toutes ces considérations doivent être gardées à l’esprit dès le départ. Le processus de développement ne doit pas être lancé si vous, en tant que responsable du traitement, ne clarifiez pas les résultats à atteindre, car cette question est essentielle pour déterminer si le traitement des données prévu est conforme ou non au RGPD. Décider du niveau de précision prédictive attendu pour considérer le projet comme réussi est essentiel pour évaluer la quantité de données qui sera nécessaire pour développer l’outil d’IA ou la nature de ces données. Le niveau de prévisibilité ou de précision de l’algorithme, les critères de validation pour le tester, la quantité maximale ou la qualité minimale des données personnelles qui seront nécessaires pour l’utiliser dans le monde réel, etc. sont des caractéristiques fondamentales d’un développement d’IA.

Ces éléments clés du développement doivent être pris en compte dès la première étape du cycle de vie de la solution. Cela sera extrêmement utile pour mettre en œuvre une politique de protection des données dès la conception (voir “Protection des données dès la conception et par défaut” dans la partie II, section “Concepts principaux” des présentes lignes directrices). S’il est possible d’atteindre un niveau de précision acceptable en utilisant une quantité de données à caractère personnel nettement inférieure à ce qu’exige un niveau plus élevé, il convient d’y réfléchir sérieusement. Plus ces évaluations sont imprécises, plus il devient difficile de déterminer les finalités précises poursuivies par le traitement (voir la sous-section “Conditions préalables à la licéité – finalités spécifiques et explicites” dans la section “Licéité, loyauté et transparence” de la partie II “Principes”). Si l’on garde à l’esprit que les responsables du traitement doivent rendre les finalités du traitement explicites, c’est-à-dire “révélées, expliquées ou exprimées d’une manière intelligible”, il est fortement recommandé d’avoir des attentes précises.

Opter pour les solutions techniques

En général, il faut toujours prévoir le développement d’algorithmes plus compréhensibles que d’algorithmes moins compréhensibles. Les compromis entre l’explicabilité/la transparence et les meilleures performances du système doivent être équilibrés de manière appropriée en fonction du contexte d’utilisation. Même si, dans le domaine des soins de santé, la précision et les performances du système peuvent être plus importantes que sa facilité d’explication, vous devez toujours garder à l’esprit que l’explication d’une recommandation peut être utile pour former les médecins, fournir des informations adéquates aux patients qui doivent faire un choix entre différents traitements possibles ou justifier une décision de triage, par exemple. Ainsi, si un service tout à fait similaire peut être offert soit par un algorithme facile à comprendre, soit par un algorithme opaque, c’est-à-dire lorsqu’il n’y a pas de compromis entre l’explicabilité et la performance, vous devez opter pour celui qui est le plus interprétable (voir la section “Licéité, loyauté et transparence” dans “Principes” de la partie II).

Mettre en place un programme de formation sur les questions éthiques et juridiques

Cette action est l’un des conseils les plus importants à prendre en compte dès le premier moment du développement commercial de l’IA. Les concepteurs d’algorithmes (développeurs, programmeurs, codeurs, data scientists, ingénieurs), qui occupent le premier maillon de la chaîne algorithmique, sont susceptibles de ne pas avoir conscience des implications éthiques et juridiques de leurs actions. Si tout le personnel intervenant est en contact étroit avec les personnes concernées, les considérations éthiques sont plus faciles à mettre en œuvre. Cependant, ce ne sera probablement pas votre cas. En effet, l’un des principaux problèmes que rencontre un outil d’IA consacré au traitement des questions de santé est qu’il utilise généralement des données personnelles incluses dans de grands ensembles de données. Cela brouille en quelque sorte la relation entre les données et la personne concernée, ce qui entraîne des violations de la réglementation qui se produisent rarement lorsque le responsable du traitement et le sujet ont une relation directe.

Cela pourrait avoir des conséquences terribles en termes de respect adéquat des normes de protection des données, notamment parce que des données de catégories spéciales sont en jeu. Il est primordial que ces travailleurs clés aient la plus grande conscience possible des implications éthiques et sociales de leur travail, et du fait même que celles-ci peuvent aller jusqu’à des choix de société, qu’ils ne devraient pas, de droit, pouvoir juger seuls. La mentalité de silo doit être soigneusement combattue.

Afin d’éviter que la mauvaise représentation des questions éthiques et juridiques ne provoque des conséquences indésirables, deux grandes lignes d’action peuvent être adoptées. Tout d’abord, les développeurs peuvent essayer de faire en sorte que les concepteurs d’algorithmes soient en mesure de comprendre les implications de leurs actions, tant pour les individus que pour la société, et qu’ils soient conscients de leurs responsabilités en apprenant à faire preuve d’une attention et d’une vigilance constantes.^[2] Dans ce sens, une formation optimale de tous les sujets impliqués dans le projet (développeurs, programmeurs, codeurs, data scientists, ingénieurs, chercheurs) avant même qu’il ne commence pourrait être l’un des outils les plus efficaces pour économiser du temps et des ressources en termes de conformité avec la réglementation sur la protection des données. Ainsi, la mise en œuvre de programmes de formation de base qui incluent au moins les principes fondamentaux de la Charte des droits fondamentaux, les principes exposés à l’article 5 du RGPD, la nécessité d’une base légale pour le traitement (y compris les contrats entre les parties), etc.

Cependant, il peut être difficile de former des personnes qui n’ont jamais été en contact avec les questions de protection des données. Une autre solution consiste à impliquer un expert de la protection des données et des questions éthiques et juridiques dans l’équipe de développement, de manière à créer une équipe interdisciplinaire. Pour ce faire, on peut engager un expert à cette fin (un travailleur interne ou un consultant externe) pour concevoir la stratégie et les décisions ultérieures sur les données personnelles requises par le développement des outils, avec la participation étroite du délégué à la protection des données.

Il est également fortement recommandé d’adopter des mesures adéquates pour garantir la confidentialité (voir les sous-sections “Mesures en faveur de la confidentialité” de la section “Intégrité et confidentialité” dans les “Principes” de la partie II des présentes lignes directrices).

Conception d’outils de traitement des données légitimes

Selon l’article 5, paragraphe 1, point a), du RGPD, les données à caractère personnel sont “collectées pour des finalités spécifiques, explicites et légitimes et ne sont pas traitées ultérieurement de manière incompatible avec ces finalités”. Le concept de légitimité n’est pas bien défini dans le RGPD, mais le groupe de travail Article 29 a déclaré que la légitimité implique que les données doivent être traitées “conformément à la loi”, et que la “loi” doit être comprise comme un concept large qui inclut “toutes les formes de droit écrit et de common law, la législation primaire et secondaire, les décrets municipaux, les précédents judiciaires, les principes constitutionnels, les droits fondamentaux, les autres principes juridiques, ainsi que la jurisprudence, telle que cette “loi” serait interprétée et prise en compte par le tribunal compétent”.

Il s’agit donc d’un concept plus large que la licéité. Il implique le respect des principales valeurs de la réglementation applicable et des grands principes éthiques en jeu. Par exemple, certains développements concrets de l’IA nécessiteront l’intervention d’un comité d’éthique. Dans d’autres cas, des lignes directrices ou tout autre type de réglementation non contraignante peuvent être applicables. Vous devez vous assurer de la conformité à cette exigence en élaborant un plan pour cette étape préliminaire du cycle de vie de l’outil (voir “Légitimité et licéité” dans “Licéité, loyautéet transparence” des “Principes” de la partie II). À cette fin, vous devez être particulièrement attentif aux exigences posées par la réglementation applicable au niveau national. Dans de nombreux États membres, le développement d’un algorithme lié aux soins de santé impliquera certainement l’intervention de comités d’éthique, très probablement à un stade préliminaire. Assurez-vous que votre plan de recherche répond bien à ces exigences.

Adopter une approche de réflexion fondée sur le risque

Étant donné que la création de votre algorithme impliquera certainement l’utilisation d’une quantité énorme de catégories spéciales de données personnelles, principalement des données relatives à la santé, vous devez vous assurer que vous mettez en œuvre des mesures appropriées pour minimiser les risques pour les droits et libertés des personnes concernées (voir “Intégrité et confidentialité” des “Principes” dans la partie II). À cette fin, vous devez évaluer les risques pour les droits et libertés des personnes participant au processus de recherche et de développement et juger ce qui est approprié pour les protéger. Dans tous les cas, vous devez vous assurer qu’ils sont conformes aux exigences en matière de protection des données.

Une réflexion fondée sur le risque en ce qui concerne la confidentialité des données, ou une approche fondée sur le risque des questions relatives aux préjudices qui peuvent être causés aux personnes/aux personnes concernées, doit être incluse dès les premières étapes du processus. Elle pourrait avoir des conséquences juridiques pour le responsable du traitement des données par rapport aux obligations stipulées dans le RGPD si elle n’est prise en compte que plus tard. Ainsi, vous devez identifier les menaces implicites qui pèsent sur le traitement des données prévu et évaluer le niveau de risque intrinsèque qu’il comporte. Si vous prévoyez d’utiliser un logiciel à des fins de traitement, vous devez vous assurer que des mesures adéquates à l’appui de la confidentialité sont mises en œuvre. Si votre IA doit utiliser un logiciel tiers ou un logiciel standard, il est essentiel d’exclure les fonctions de traitement des données personnelles qui n’ont pas de base juridique ou qui ne sont pas compatibles avec les finalités visées.

Dans la mesure du possible, essayez d’éviter d’utiliser des services de stockage de données ou de logiciels qui sont situés dans un pays tiers. Si cela est inévitable, vous devez vous assurer que vos contrats de traitement des données avec ces tiers offrent une protection adéquate conforme au RGPD ou, si ce n’est pas le cas, vous assurer que les participants à la recherche sont pleinement conscients des risques de confidentialité/sécurité pour leurs données. Vous devez également être conscient et informé des mesures de sécurité appropriées mises en œuvre par les fournisseurs de services de stockage de données et de logiciels, et que les omissions en matière de sécurité peuvent entraîner une violation du traitement sécurisé.

En outre, vous devez vous assurer que des mesures techniques et organisationnelles appropriées sont mises en œuvre pour éliminer, ou au moins atténuer le risque, en réduisant la probabilité que les menaces identifiées se concrétisent ou en réduisant leur impact. Les mesures de sécurité doivent faire partie de vos documents de traitement (voir la section “Documentation du traitement” dans la section “Principaux outils et actions” de la partie II des présentes lignes directrices) et toutes les mesures mises en œuvre feront partie de l’AIPD(voir “AIPD” dans la section “Principaux outils et actions” de la partie II des présentes lignes directrices).

Une fois les mesures sélectionnées mises en œuvre, le risque résiduel restant doit être évalué et gardé sous contrôle. L’analyse des risques et l’AIPD sont les outils qui s’appliquent. Dans votre cas concret, vous devez réaliser une AIPD, car la création de l’outil d’IA impliquera le traitement à grande échelle de catégories spéciales de données.

Enfin, il ne faut pas oublier que lorsqu’on utilise le big data et l’IA, il est difficile de prévoir quels seront les risques futurs, de sorte que l’évaluation des implications éthiques ne suffira pas à traiter tous les risques possibles. Il est donc important d’envisager une réévaluation des risques et il est également fortement recommandé d’intégrer une méthode plus dynamique d’évaluation des risques liés à la recherche. N’hésitez pas à effectuer des AIPD supplémentaires à d’autres étapes du processus si nécessaire.

Préparer la documentation du traitement

Quiconque traite des données à caractère personnel (qu’il s’agisse de responsables du traitement ou de sous-traitants) doit documenter ses activités, principalement à l’intention des autorités de contrôle compétentes. Vous devez le faire par le biais de registres du traitementqui sont conservés de manière centralisée par votre organisation pour l’ensemble de ses activités de traitement, et de documents supplémentaires qui se rapportent à une activité individuelle de traitement des données (voir la section “Documentation du traitement” dans “Principaux outils et actions” de la partie II des présentes lignes directrices). Cette phase préliminaire est le moment idéal pour mettre en place une méthode systématique de collecte de la documentation nécessaire, puisque c’est à ce moment-là que vous pourrez concevoir et planifier l’activité de traitement.

En effet, vous devez créer une politique de protection des données (voir la sous-section “Économie d’échelle pour la conformité et sa démonstration” de la section “Responsabilité” des “Principes” de la partie II) qui permet la traçabilité des informations (s’il existe des codes de conduite approuvés, ceux-ci doivent être mis en œuvre, voir la sous-section “Économie d’échelle pour la conformité et sa démonstration” de la section “Responsabilité” des “Principes” de la partie II). Cette politique doit également préciser les responsabilités attribuées aux sous-traitants, si vous souhaitez les associer à votre projet, et inclure les tâches de l’accord de traitement qui lui seront déléguées en ce qui concerne l’exécution des droits des personnes concernées. Vous devez toujours vous rappeler que l’art. 32(4) du RGPD précise qu’un élément important de la sécurité consiste à s’assurer que les employés n’agissent que sur instruction et selon vos instructions (voir la section “Intégrité et confidentialité” dans “Principes”, partie II des présentes lignes directrices).

Le développement de votre outil d’IA peut impliquer l’utilisation de différents ensembles de données. La traçabilité du traitement, les informations sur la réutilisation éventuelle des données et l’utilisation de données appartenant à des ensembles de données différents dans des étapes différentes ou identiques du cycle de vie doivent être garanties par les registres.

Comme indiqué dans la section “Exigences et tests d’acceptation pour l’achat et/ou le développement des logiciels, du matériel et de l’infrastructure utilisés” (sous-section de la section “Documentation du traitement”), l’évaluation des risques et les décisions prises “doivent être documentées afin de respecter l’exigence de protection des données dès la conception (voir “Protection des données dès la conception et par défaut” dans la partie II, section “Concepts principaux” des présentes lignes directrices). En pratique, cela peut prendre la forme de :

Exigences deprotection des données spécifiques pour l’achat (par exemple, un appel d’offres) ou le développement de logiciels, de matériel et d’infrastructures,
Tests d’acceptation qui vérifient que les logiciels, les systèmes et l’infrastructure choisis sont adaptés à l’usage prévu et offrent une protection et des garanties adéquates.

Cette documentation peut faire partie intégrante de l’AIPD.”

Enfin, vous devez toujours être conscient que, conformément à l’art. 32(1)(d) du RGPD, la protection des données est un processus. Par conséquent, vous devez tester, évaluer et apprécier régulièrement l’efficacité des mesures techniques et organisationnelles. C’est le moment idéal pour élaborer une stratégie visant à relever ces défis.

Utilisation du cadre réglementaire

Le RGPD comprend un cadre réglementaire spécifique concernant le traitement à des fins de recherche scientifique (voir la section “Protection des données et recherche scientifique” dans les “Concepts principaux” de la partie II).^[3] Le développement de votre IA constitue une recherche scientifique, indépendamment du fait qu’elle soit créée dans un but lucratif ou non. Par conséquent, “le droit de l’Union ou des États membres peut prévoir des dérogations aux droits visés aux articles 15, 16, 18 et 21, sous réserve des conditions et garanties visées au paragraphe 1 du présent article, dans la mesure où ces droits sont susceptibles de rendre impossible ou de nuire gravement à la réalisation des finalités spécifiques, et où ces dérogations sont nécessaires à la réalisation de ces finalités” (article 89, paragraphe 2). En outre, selon l’article 5, point b), “le traitement ultérieur des données recueillies, conformément à l’article 89, paragraphe 1, ne serait pas considéré comme incompatible avec les finalités initiales (“limitation de la finalité”). D’autres exceptions particulières au cadre général applicable au traitement à des fins de recherche (comme la limitation du stockage) devraient également être envisagées”.

Vous pouvez certainement bénéficier de ce cadre favorable. Néanmoins, vous devez être conscient du cadre réglementaire concret qui s’applique à cette recherche (principalement, les garanties à mettre en œuvre). Il peut inclure des changements importants en fonction des réglementations nationales respectives. La consultation de votre DPD est fortement recommandée à cet effet.

Définir des politiques adéquates de stockage des données

Conformément à l’article 5, paragraphe 1, point e), du RGPD, les données à caractère personnel doivent être “conservées sous une forme permettant l’identification des personnes concernées pendant une durée n’excédant pas celle nécessaire à la réalisation des finalités pour lesquelles elles sont traitées” (voir la section “Limitation du stockage” des “Principes” de la partie II). Cette exigence est double. D’une part, elle concerne l’identification : les données doivent être conservées sous une forme permettant l’identification des personnes concernées pendant une durée n’excédant pas celle nécessaire. Par conséquent, vous devez mettre en œuvre des politiques visant à éviter l’identification dès qu’elle n’est pas nécessaire au traitement. Cela implique l’adoption de mesures adéquates pour garantir qu’à tout moment, seul le degré minimal d’identification nécessaire à la réalisation des finalités doit être utilisé (voir la sous-section “Aspect temporel” dans la section “Limitation du stockage” des “Principes” de la partie II).

D’autre part, la conservation des données implique que les données ne peuvent être stockées que pendant une période limitée : le temps strictement nécessaire aux fins pour lesquelles les données sont traitées. Toutefois, le RGPD permet un “stockage pour des périodes plus longues” si la seule finalité est la recherche scientifique (comme dans votre cas concret).

Ainsi, cette exception soulève le risque que vous décidiez de conserver les données plus longtemps que strictement nécessaire afin de garantir qu’elles soient disponibles pour des raisons autres que les finalités initiales pour lesquelles elles ont été collectées. Ne le faites pas, s’il n’y a pas de bonnes raisons qui le recommandent (par exemple, si des radiographies proviennent d’un dossier médical, vous devez les conserver dans le dossier clinique du patient). Vous devez être conscient que même si le RGPD peut autoriser le stockage pour des périodes plus longues, vous devez avoir une bonne raison d’opter pour une telle période prolongée. Ainsi, si vous n’avez pas besoin des données, et qu’aucune raison légale obligatoire ne vous oblige à les conserver, il est préférable de les anonymiser ou de les supprimer. Ce pourrait également être le moment idéal pour envisager des délais d’effacement des différentes catégories de données et documenter ces décisions (voir “Principe de responsabilité” dans la partie “Principes” de la partie II).

Nomination d’un délégué à la protection des données

Conformément à l’article 37 du RGPD, vous devez désigner un DPD puisque vous allez traiter un grand nombre de catégories spéciales de données conformément à l’article 9. Dans tous les cas, le personnel clé du responsable du traitement doit définir le rôle du DPD par rapport à la gestion globale du projet, en veillant à ce que le rôle du DPD ne soit pas marginal, mais qu’il soit intégré dans les processus décisionnels de l’organisation/du projet. Ils devraient également préciser ce que pourrait être ce rôle en termes de supervision, de prise de décision et autres.

Assurer la conformité avec le cadre juridique des dispositifs médicaux

Même si ces lignes directrices sont principalement orientées vers les questions de protection des données, nous ne pouvons éviter de mentionner que vous devez être bien conscient dès cette étape préliminaire que vous devez assurer une conformité adéquate avec le cadre juridique lié aux dispositifs médicaux. Nous faisons principalement référence au règlement (UE) 2017/745 – Règlement sur les dispositifs médicaux (MDR) et au règlement (UE) 2017/746 – Règlement sur les dispositifs médicaux de diagnostic in vitro (IVDR). Il existera très probablement des réglementations nationales applicables à ces questions. Veuillez prendre des mesures visant à vous mettre en conformité. Vous trouverez des lignes directrices utiles à cet effet ici : https://ec.europa.eu/docsroom/documents/40323

En ce qui concerne la réglementation sur les données relatives à la santé au niveau des États membres, cette ressource pourrait être particulièrement pertinente :

https://ec.europa.eu/health/sites/health/files/ehealth/docs/ms_rules_health-data_en.pdf

Shearer, Colin, Le modèle CRISP-DM : The New Blueprint for Data Mining, p. 14. ↑
Ibid. p. 55. ↑
Ce cadre spécifique comprend également des objectifs de recherche historique ou des objectifs statistiques. Toutefois, la recherche sur les TIC n’est généralement pas liée à ces objectifs. Par conséquent, nous ne les analyserons pas ici. ↑