Compréhension des données - Guidelines Panelfit

Description

“La phase de compréhension des données commence par une collecte initiale des données. L’analyste procède ensuite à une familiarisation accrue avec les données, à l’identification des problèmes de qualité des données, à la recherche d’idées générales sur les données, ou à la détection de sous-ensembles intéressants pour former des hypothèses sur des informations cachées. La phase de compréhension des données comporte quatre étapes, à savoir la collecte des données initiales, la description des données, l’exploration des données et la vérification de la qualité des données”.^[1]

À ce stade, la collecte des données initiales se fait au palais, et une première étude des données est réalisée. Elle comporte quatre tâches séquentielles :

Collecter les données initiales
Décrire les données
Analyser les données
Vérifier la qualité des données.

Toutes ces tâches ont pour but d’identifier les données disponibles. À ce stade, vous devez être conscient des données avec lesquelles vous aurez à travailler et commencer à prendre des décisions sur la manière dont les grands principes liés à la protection des données seront mis en œuvre.

Principales mesures à prendre

À ce stade, un très grand nombre de questions fondamentales liées à la protection des données personnelles doivent être abordées. En fonction des décisions prises, des principes tels que la minimisation des données, la protection de la vie privée dès la conception ou par défaut, la licéité, la loyauté et la transparence, etc. seront réglés de manière adéquate.

Type de données collectées

Selon le RGPD, vous “mettez en œuvre les mesures techniques et organisationnelles appropriées pour garantir que, par défaut, seules les données à caractère personnel qui sont nécessaires à chaque finalité spécifique du traitement sont traitées”. Cette obligation s’applique à la quantité de données à caractère personnel collectées, à l’étendue de leur traitement, à la durée de leur conservation et à leur accessibilité. En particulier, ces mesures garantissent que, par défaut, les données à caractère personnel ne sont pas rendues accessibles sans l’intervention de la personne concernée à un nombre indéfini de personnes physiques.”^[2] (Voir “Protection des données dès la conception et par défaut” dans la partie II, section “Concepts principaux”) Il faut en tenir compte tout particulièrement à ce stade, car c’est souvent à ce moment-là que sont prises les décisions concernant le type de données qui seront utilisées. En général, la manière la plus simple de construire votre IA en termes de protection des données consisterait à utiliser exclusivement des images radiologiques. Néanmoins, il pourrait également être intéressant d’introduire des données relatives à des pathologies antérieures, à l’âge ou au sexe, par exemple. En outre, on pourrait envisager d’utiliser des données telles que les habitudes alimentaires, le code postal, les habitudes sportives, etc. Il se peut que l’ajout d’un grand nombre de nouvelles caractéristiques au modèle augmente sa précision de manière significative. Cependant, il est également possible que cela ne se produise pas. Vous devez évaluer si l’introduction de données supplémentaires, en dehors des images radiographiques, par exemple, apporte au diagnostic un niveau de précision accru suffisant pour justifier leur utilisation. Cela peut être difficile à évaluer à l’avance, mais au moins la phase de formation devrait clarifier cette question. Si l’augmentation de la précision ne justifie pas une utilisation disproportionnée des données à caractère personnel, elle devrait être évitée.

Assurez-vous donc que vous avez réellement besoin d’énormes quantités de données. Les données intelligentes peuvent être beaucoup plus utiles que les données volumineuses. Bien sûr, l’utilisation de données intelligentes et bien préparées peut impliquer un effort considérable en termes d’unification, d’homogénéisation, etc., mais elle aidera à mettre en œuvre le principe de minimisation des données (voir “Principe de minimisation des données” dans la partie II, section “Principes” des présentes lignes directrices) de manière beaucoup plus efficace. À cette fin, il peut être extrêmement important de faire appel à un expert capable de sélectionner les caractéristiques pertinentes.

En outre, vous devez essayer de limiter la résolution des données à ce qui est minimalement nécessaire aux fins poursuivies par le traitement. Vous devez également déterminer un niveau optimal d’agrégation des données avant de commencer le traitement (voir la section “Adéquate, pertinente et limitée” de la section “Minimisation des données” dans la Partie II, section “Principes”).

La minimisation des données peut être complexe dans le cas de l’apprentissage profond, où la discrimination par caractéristiques peut être impossible. Il existe un moyen efficace de réguler la quantité de données recueillies et de ne l’augmenter que si cela semble nécessaire : la courbe d’apprentissage. Le développeur doit commencer par collecter et utiliser une quantité limitée de données d’apprentissage, puis surveiller la précision du modèle lorsqu’il est alimenté par de nouvelles données.

Vérification de l’utilisation légitime des jeux de données

Les ensembles de données peuvent être obtenus de différentes manières. Tout d’abord, le développeur peut choisir d’accéder à une base de données qui a déjà été construite par quelqu’un d’autre. Si tel est le cas, vous devez être particulièrement prudent, car l’acquisition de l’accès à une base de données soulève de nombreuses questions juridiques (voir “Comment accéder à une base de données” dans la Partie II, section “Principaux outils et actions”). ^{^[3]}

Ensuite, l’alternative la plus courante consiste à créer une base de données. Bien évidemment, dans ce cas, vous devez vous assurer que vous respectez toutes les exigences légales imposées par le RGPD pour créer une base de données (voir “Créer une base de données” dans la partie II, section “Principaux outils et actions”).

Troisièmement, vous pouvez choisir une autre voie. Vous pouvez mélanger différents ensembles de données de manière à créer un énorme ensemble de données de formation et un autre à des fins de validation. Cela peut poser certains problèmes, comme par exemple la possibilité que la combinaison de ces données personnelles fournisse des informations supplémentaires sur les personnes concernées. Par exemple, elle pourrait vous permettre d’identifier les personnes concernées, ce qui n’était pas possible auparavant. Cela pourrait impliquer de désanonymiser des données anonymes et de créer de nouvelles informations personnelles qui n’étaient pas contenues dans l’ensemble de données d’origine, une circonstance qui soulèverait des questions éthiques et juridiques dramatiques. Par exemple, “si les personnes concernées ont donné leur consentement éclairé au traitement des informations personnelles contenues dans les ensembles de données d’origine à des fins particulières, elles n’ont pas nécessairement donné leur autorisation par extension à la fusion des ensembles de données et à l’exploration des données qui révèle de nouvelles informations. Les nouvelles informations produites de cette manière peuvent également être basées sur des probabilités ou des conjectures, et donc être fausses, ou contenir des biais dans la représentation des personnes.”^{^[4]} Par conséquent, vous devez essayer d’éviter de telles conséquences en vous assurant que la fusion des ensembles de données ne va pas à l’encontre des droits et des intérêts des personnes concernées.

Enfin, si vous utilisez plusieurs ensembles de données qui poursuivent des finalités différentes, vous devez mettre en œuvre des mesures adéquates pour séparer les différentes activités de traitement. Sinon, vous pourriez facilement utiliser des données collectées pour une seule finalité dans le cadre de différentes activités. Cela pourrait poser des problèmes liés au principe de limitation de la finalité (voir “Principe de limitation de la finalité” dans la partie II, section “Principes” des présentes lignes directrices).

Sélection de la base juridique appropriée

Les responsables du traitement doivent décider de la base juridique utilisée pour le traitement avant de le commencer, documenter leur décision dans l’avis de confidentialité (ainsi que les finalités) et inclure les raisons pour lesquelles ces choix ont été fait (voir “Responsabilité” dans la partie II, section “Principes”).

Vous devez choisir la base juridique qui reflète le mieux la véritable nature de votre relation avec la personne et la finalité du traitement. Cette décision est essentielle, car il n’est pas possible de changer la base juridique du traitement s’il n’y a pas de raisons solides qui le justifient (voir “Limitation de la finalité” dans la partie II, section “Principes”).

Dans le cas d’un outil d’IA impliquant des données de patients, les développeurs sont généralement tentés d’utiliser le consentement comme fondement juridique du traitement. Cela pourrait avoir un sens si vous réutilisez des données qui ont déjà été collectées à une autre fin et que le consentement était la base qui permettait l’utilisation primaire des données. En effet, le RGPD autorise la réutilisation des données à des fins scientifiques et l’article 5.1 (b) stipule que le traitement ultérieur à des fins de recherche scientifique ne doit pas être considéré comme incompatible avec les finalités initiales (“limitation de la finalité”). Ainsi, en principe, vous pourriez réutiliser ces données sur la base du consentement initial. Cependant, vous devez garder à l’esprit que, selon l’article 9.4 du RGPD, “les États membres peuvent maintenir ou introduire des conditions supplémentaires, y compris des limitations, en ce qui concerne le traitement des données génétiques, des données biométriques ou des données relatives à la santé.” Ainsi, il se pourrait bien que votre réglementation nationale pertinente introduise des exceptions ou des conditions spécifiques à la réutilisation des données personnelles. En tout état de cause, vous devez toujours vous rappeler que vos devoirs d’information demeurent. Vous devez fournir à la personne concernée, avant tout traitement ultérieur de ses données, des informations sur cette autre finalité et toute autre information pertinente visée au paragraphe 2 de l’article 13 du RGPD.

La discussion sur la réutilisation des données

En ce moment, la réutilisation des données à des fins de recherche fait l’objet d’un débat animé. Selon l’article 5.1 (b) du RGPD, le traitement ultérieur à des fins scientifiques ne doit pas être considéré comme incompatible avec les finalités initiales. Ainsi, à moins que votre réglementation nationale ne stipule le contraire, vous pouvez réutiliser les données disponibles à des fins de recherche, puisque celles-ci sont compatibles avec la finalité initiale pour laquelle elles ont été collectées.

Toutefois, le CEPD a fait valoir que, “afin de garantir le respect des droits de la personne concernée, le test de compatibilité prévu à l’article 6, paragraphe 4, devrait toujours être examiné avant la réutilisation des données aux fins de la recherche scientifique, en particulier lorsque les données ont été initialement collectées pour des finalités très différentes ou en dehors du domaine de la recherche scientifique. En effet, selon une analyse du point de vue de la recherche médicale, l’application de ce test devrait être simple”^[5] . Selon cette interprétation, vous ne devez réutiliser les données à caractère personnel que si les circonstances de l’article 6.4 s’appliquent.

Cette interprétation est en quelque sorte en contradiction avec l’interprétation de cette question par l’EDPB, qui a déclaré que l’article 5, paragraphe 1, point b), du RGPD prévoit que lorsque des données sont traitées ultérieurement à des fins scientifiques, “celles-ci ne sont a priori pas considérées comme incompatibles avec la finalité initiale, à condition que cela se fasse conformément aux dispositions de l’article 89, qui prévoit des garanties adéquates et des dérogations spécifiques dans ces cas. Lorsque c’est le cas, le responsable du traitement pourrait être en mesure, sous certaines conditions, de poursuivre le traitement des données sans qu’une nouvelle base juridique soit nécessaire. Ces conditions, en raison de leur nature horizontale et complexe, nécessiteront une attention et des orientations spécifiques de la part du CEPD à l’avenir. Pour l’heure, la présomption de compatibilité, sous réserve des conditions énoncées à l’article 89, ne devrait pas être exclue, en toutes circonstances, pour l’utilisation secondaire de données d’essais cliniques en dehors du protocole d’essai clinique à d’autres fins scientifiques”^[6].

La situation reste donc floue à l’heure actuelle, même si nous considérons que l’interprétation de l’EDPB est plus logique et qu’elle prévaudra probablement à l’avenir.

Si vous pouvez collecter de nouvelles données pour votre recherche, nous vous recommandons d’éviter le consentement comme base légale, surtout si les données sont collectées dans une situation où les patients ont besoin de soins de santé urgents, comme dans le cas, par exemple, où ils souffrent de symptômes associés au COVID. Dans le contexte des essais cliniques, l’EDPB^[7] a déclaré qu'”il faut garder à l’esprit que même si les conditions d’un consentement éclairé en vertu du CTR sont réunies, une situation claire de déséquilibre des pouvoirs entre le participant et le promoteur/chercheur impliquera que le consentement n’est pas “librement donné” au sens du RGPD. À titre d’exemple, l’EDPB considère que ce sera le cas lorsqu’un participant n’est pas en bonne santé, lorsque les participants appartiennent à un groupe économiquement ou socialement défavorisé ou dans toute situation de dépendance institutionnelle ou hiérarchique. Par conséquent, et comme expliqué dans les lignes directrices sur le consentement du groupe de travail 29, le consentement ne sera pas la base juridique appropriée dans la plupart des cas, et d’autres bases juridiques que le consentement doivent être utilisées (voir ci-dessous les autres bases juridiques). Par conséquent, l’EDPB considère que les responsables du traitement doivent procéder à une évaluation particulièrement approfondie des circonstances de l’essai clinique avant de s’appuyer sur le consentement des personnes comme base juridique pour le traitement des données à caractère personnel aux fins des activités de recherche de cet essai.”

De notre point de vue, cet avis pourrait être étendu à d’autres scénarios où le rapport de force est biaisé. Cependant, il se peut que le comité d’éthique correspondant ne partage pas notre critère. Veuillez être conscient de ces circonstances et essayez d’éviter les inconvénients éventuels en consultant le comité et/ou votre DPD et les autorités de contrôle si nécessaire.

Colin Shearer, Le modèle CRISP-DM : Le nouveau plan directeur pour l’extraction de données, p. 15 ↑
Article 24. ↑
Yeong Zee Kin, Legal Issues in AI Deployment, à l’adresse : https://lawgazette.com.sg/feature/legal-issues-in-ai-deployment/ consulté le 15 mai 2020. ↑
SHERPA, Lignes directrices pour le développement éthique des systèmes d’IA et de Big Data : Une approche d’éthique par la conception, 2020, p 38. À l’adresse : https://www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf Consulté le 15 mai 2020 ↑
CEPD, un avis préliminaire sur la protection des données et la recherche scientifique, 6 janvier 2020, p. 23. ↑
EDPB, Avis 3/2019 concernant les questions et réponses sur l’interaction entre le règlement sur les essais cliniques (CTR) et le règlement général sur la protection des données (RGPD) (art. 70.1.b)). Adopté le 23 janvier 2019, p. 8. ↑
Avis 3/2019 concernant les questions et réponses sur l’interaction entre le règlement sur les essais cliniques (CTR) et le règlement général sur la protection des données (RGPD), à l’adresse : https://edpb.europa.eu/our-work-tools/our-documents/dictamen-art-70/opinion-32019-concerning-questions-and-answers_en.
↑