Comprensión de los datos - Guidelines Panelfit

Descripción

“La fase de comprensión de los datos comienza con una recogida inicial de datos. A continuación, el analista procede a familiarizarse con los datos, a identificar los problemas de calidad de los mismos, a descubrir las primeras ideas sobre los datos o a detectar subconjuntos interesantes para formar hipótesis sobre la información oculta. La fase de comprensión de los datos comprende cuatro pasos, que incluyen la recopilación de los datos iniciales, la descripción de los datos, la exploración de los datos y la verificación de la calidad de los datos”.^[1]

En esta fase se lleva a cabo la recogida inicial de datos y se realiza un primer estudio de los mismos. Se trata de cuatro tareas secuenciales:

Recoger los datos iniciales
Describir los datos
Analizar los datos
Verificar la calidad de los datos.

Todas estas tareas tienen como objetivo identificar los datos disponibles. En esta fase, los desarrolladores deben ser conscientes de los datos con los que tendrán que trabajar y empezar a tomar decisiones sobre la forma en que se aplicarán los principales principios relacionados con la protección de datos.

Principales acciones a abordar

En esta fase, hay un gran número de cuestiones fundamentales relacionadas con la protección de los datos personales que deben abordarse. En función de las decisiones que se tomen, principios como la minimización de los datos, la privacidad por diseño o por defecto, la licitud, la lealtad y la transparencia, etc., quedarán adecuadamente resueltos.

Tipo de datos recogidos

Según el RGPD, el responsable del tratamiento “aplicará las medidas técnicas y organizativas apropiadas para garantizar que, por defecto, sólo se traten los datos personales que sean necesarios para cada finalidad específica del tratamiento. Esta obligación se aplica a la cantidad de datos personales recogidos, el alcance de su tratamiento, el período de su almacenamiento y su accesibilidad. En particular, dichas medidas garantizarán que, por defecto, los datos personales no sean accesibles, sin la intervención del individuo, a un número indefinido de personas físicas” ^[2] (véase la sección “Protección de datos desde el diseño y por defecto” en el capítulo “Conceptos”). Esto debe tenerse en cuenta sobre todo en esta fase, ya que las decisiones sobre el tipo de datos que se utilizarán suelen tomarse en este momento. En general, la forma más sencilla de construir su IA en términos de protección de datos implicaría exclusivamente el uso de imágenes de rayos X. No obstante, también podría ser interesante introducir datos relacionados con patologías previas, la edad o el sexo, por ejemplo. Además, se podría pensar en utilizar datos como los hábitos alimenticios, el código postal, los hábitos deportivos, etc. Podría ocurrir que al añadir muchas características nuevas al modelo aumentara su precisión de forma significativa. Sin embargo, también podría ocurrir que esto no suceda. Hay que sopesar si la introducción de datos adicionales, aparte de las imágenes radiográficas, por ejemplo, proporciona al diagnóstico un nivel de precisión mayor que justifique su uso. Esto puede ser difícil de evaluar de antemano, pero al menos la fase de formación debería aclarar esta cuestión. Si el aumento de la precisión no justifica un uso desproporcionado de los datos personales, debería evitarse.

Por lo tanto, asegúrese de que realmente necesita grandes cantidades de datos. Los datos inteligentes pueden ser mucho más útiles que los grandes datos. Por supuesto, utilizar datos inteligentes y bien preparados puede suponer un enorme esfuerzo de unificación, homogeneización, etc., pero ayudará a aplicar el principio de minimización de datos de una forma mucho más eficiente. Para ello, contar con un experto capaz de seleccionar las características relevantes podría ser extremadamente importante.

Además, debe intentar limitar la resolución de los datos a lo mínimamente necesario para los fines que persigue el tratamiento. También debe determinar un nivel óptimo de agregación de datos antes de iniciar el tratamiento (véase la parte “Adecuado, pertinente y limitado” de la sección “Minimización de datos” en el capítulo “Principios”).

La minimización de los datos puede ser compleja en el caso del aprendizaje profundo, donde la discriminación por características puede ser imposible. Hay una forma eficaz de regular la cantidad de datos recopilados y de aumentarla sólo si parece necesario: la curva de aprendizaje. Hay que empezar recogiendo y utilizando una cantidad restringida de datos de entrenamiento y, a continuación, controlar la precisión del modelo a medida que se alimenta con nuevos datos.

Comprobar que el conjunto de datos que se utiliza cumple con los requisitos legales

Los conjuntos de datos pueden obtenerse de diferentes maneras. En primer lugar, el programador puede optar por adquirir u obtener acceso a una base de datos que ya ha sido construida por otra persona. Si este es el caso, el responsable debe tener especial cuidado, ya que hay muchas cuestiones legales relacionadas con la adquisición de acceso a la base de datos (véase la sección “Adquisición de acceso a una base de datos” en el capítulo “Acciones y herramientas”).^[3]

En segundo lugar, la alternativa más común consiste en crear una base de datos. Obviamente, en este caso los responsables tienen que asegurarse de que cumplen con todos los requisitos legales impuestos por el RGPD para crear una base de datos (véase la sección “Creación de una base de datos” en el capítulo “Acciones y herramientas”).

En tercer lugar, a veces los desarrolladores eligen un camino alternativo. Mezclan datos con licencia de terceros entre sí o con el propio conjunto de datos de los responsables del tratamiento, para crear un enorme conjunto de datos para el entrenamiento y otro para la validación. Ello podría plantear algunos problemas, como por ejemplo la posibilidad de que la combinación de estos datos personales proporcione alguna información adicional sobre los interesados. Por ejemplo, podría permitir al responsable identificar a los interesados, algo que antes no era posible. Eso podría implicar la desanonimización de los datos anonimizados y la creación de nueva información personal que no estaba contenida en el conjunto de datos original, una circunstancia que traería consigo dramáticos problemas éticos y legales. Por ejemplo, si una de las bases de datos se creó sobre la base del consentimiento y algunos de los interesados retiran su consentimiento, el responsable tendrá que eliminarlos del conjunto de datos fusionado. Esto podría ser realmente difícil de hacer en la práctica. Por otra parte, la nueva información producida de esta manera también puede basarse en probabilidades o conjeturas, y por lo tanto ser falsa, o contener sesgos en la representación de las personas (véase el apartado “5.2. Disposiciones del RGPD: el principio de protección de datos lealtad y sesgos”).^[4] Por lo tanto, los responsables del tratamiento deben tratar de evitar estas consecuencias asegurándose de que la fusión de conjuntos de datos no vaya en contra de los derechos e intereses de los titulares de los datos.

Por último, si los responsables del tratamiento utilizan varios conjuntos de datos que persiguen fines diferentes, deben aplicar medidas adecuadas para separar las distintas actividades de tratamiento. De lo contrario, podrían utilizar fácilmente los datos recogidos con una finalidad para actividades diferentes. Esto podría plantear problemas relacionados con el principio de limitación de la finalidad.

Seleccionar la base jurídica legitimadora más adecuada para el tratamiento

Usted debe decidir la base jurídica legitimadora que utilizarán para el tratamiento antes de iniciarlo, documentar su decisión en un aviso de privacidad (junto con los fines) e incluir las razones por las que han tomado tales decisiones (véase la sección “Responsabilidad proactiva” en el capítulo “Principios”). En principio, debe elegir la base jurídica legitimadora que más se ajuste a la verdadera naturaleza de su relación con el individuo y a la finalidad del tratamiento. Esta decisión es clave, ya que no es posible cambiar la base jurídica legitimadora del tratamiento si no existen razones sólidas que lo justifiquen (véase el apartado “Limitación de la finalidad” en el capítulo “Principios”).

En el caso de una herramienta de IA que incluya datos de pacientes, los desarrolladores suelen sentirse tentados a utilizar el consentimiento como base legal para el tratamiento (véase la sección “Consentimiento” en el capítulo de Conceptos principales). Esto podría tener sentido si se están reutilizando datos que ya se recogieron para otro fin y el consentimiento fue la base que permitió el uso primario de los datos. De hecho, el RGPD permite la reutilización de datos con fines científicos y el artículo 5.1 (b) establece que el tratamiento posterior con fines de investigación científica no se considerará incompatible con los fines iniciales (“limitación de la finalidad”). Así pues, en principio, usted podría reutilizar esos datos sobre la base del consentimiento original. Sin embargo, debes tener en cuenta que, según el artículo 9.4 del RGPD, “los Estados miembros podrán mantener o introducir otras condiciones, incluidas limitaciones, en relación con el tratamiento de datos genéticos, datos biométricos o datos relativos a la salud.” Por lo tanto, puede ocurrir que la normativa nacional pertinente introduzca excepciones o condiciones específicas para la reutilización de datos personales. En cualquier caso, debe recordar siempre que sus obligaciones de información se mantienen. Deberá proporcionar al interesado, antes de cualquier otro tratamiento de sus datos, información sobre esa otra finalidad y cualquier otra información pertinente a la que se refiere el apartado 2 del artículo 13 del RGPD

La discusión sobre la reutilización de los datos

En la actualidad, existe un animado debate sobre la reutilización de datos con fines de investigación. Según el artículo 5.1 (b) del RGPD, el tratamiento posterior con fines científicos no se considerará incompatible con los fines iniciales. Así pues, a menos que su normativa nacional establezca lo contrario, puede reutilizar los datos disponibles para fines de investigación, ya que éstos son compatibles con la finalidad original para la que fueron recogidos.

Sin embargo, el Supervisor Europeo de Protección de Datos (SEPD) sostuvo que, “para garantizar el respeto de los derechos del interesado, la prueba de compatibilidad prevista en el artículo 6, apartado 4, debe seguir considerándose antes de la reutilización de los datos para fines de investigación científica, en particular cuando los datos se recogieron originalmente para fines muy diferentes o fuera del ámbito de la investigación científica”. De hecho, según un análisis realizado desde la perspectiva de la investigación médica, la aplicación de esta prueba debería ser sencilla”^[5]. Según esta interpretación, sólo se deben reutilizar los datos personales si se dan las circunstancias del artículo 6.4.

Esta interpretación contradice en cierto modo la realizada por el Comité Europeo de Protección de Datos (CEPD), que declaró que el artículo 5.1.b) del RGPD establece que cuando los datos se traten posteriormente con fines científicos, “éstos no se considerarán a priori incompatibles con la finalidad inicial, siempre que se produzca de conformidad con lo dispuesto en el artículo 89, que prevé garantías y excepciones específicas adecuadas en estos casos. Cuando así sea, el responsable del tratamiento podría, en determinadas condiciones, seguir tratando los datos sin necesidad de una nueva base jurídica. Estas condiciones, debido a su naturaleza horizontal y compleja, requerirán una atención y orientación específicas por parte del CEPD en el futuro. Por el momento, la presunción de compatibilidad, sujeta a las condiciones establecidas en el artículo 89, no debería excluirse, en todas las circunstancias, para el uso secundario de datos de ensayos clínicos fuera del protocolo de ensayo clínico para otros fines científicos”^[6].

Por lo tanto, la situación sigue siendo poco clara en este momento, aunque consideramos que la interpretación del CEPD tiene más sentido y probablemente prevalecerá en el futuro.

Si puede recoger nuevos datos para su investigación, le recomendamos que evite el consentimiento como base jurídica, especialmente si los datos se recogen en una situación en la que los pacientes necesitan atención sanitaria urgente, como en el caso, por ejemplo, de que sufran síntomas asociados a la COVID.

En el contexto de los ensayos clínicos, el CEPD^[7] ha afirmado que “debe tenerse en cuenta que, aunque se reúnan las condiciones para un consentimiento informado con arreglo al CTR, una situación clara de desequilibrio de poderes entre el participante y el promotor/investigador implicará que el consentimiento no es “libremente dado” en el sentido del RGPD. A modo de ejemplo, el CEPD considera que este será el caso cuando un participante no esté en buenas condiciones de salud, cuando los participantes pertenezcan a un grupo económica o socialmente desfavorecido o en cualquier situación de dependencia institucional o jerárquica. Por lo tanto, y como se explica en las Directrices sobre el consentimiento del Grupo de Trabajo del Artículo 29, el consentimiento no será la base jurídica adecuada en la mayoría de los casos, y habrá que recurrir a otras bases jurídicas distintas (véase más adelante las bases jurídicas alternativas). En consecuencia, el CEPD considera que los responsables del tratamiento deben realizar una evaluación especialmente exhaustiva de las circunstancias del ensayo clínico antes de basarse en el consentimiento de las personas como base jurídica para el tratamiento de los datos personales a efectos de las actividades de investigación de dicho ensayo”.

Desde nuestro punto de vista, esta opinión podría extenderse a otros escenarios en los que la relación de fuerzas esté sesgada. Sin embargo, puede ocurrir que el comité de ética correspondiente no comparta nuestro criterio. Por favor, sea consciente de tales circunstancias y trate de evitar posibles inconvenientes de antemano consultando al comité y/o a su OPD y a las autoridades supervisoras si es necesario.

Colin Shearer, The CRISP-DM Model: The New Blueprint for Data Mining, p. 15 ↑
Artículo 24. ↑
Yeong Zee Kin, Legal Issues in AI Deployment, At: https://lawgazette.com.sg/feature/legal-issues-in-ai-deployment/ Accessed 15 May 2020 ↑
SHERPA, Guidelines for the Ethical Development of AI and Big Data Systems: An Ethics by Design approach, 2020, p 38. At: https://www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf Accessed 15 May 2020 ↑
EDPS, A Preliminary Opinion on data protection and scientific research, 6 January 2020, p. 23. Nota de la traductora: El texto completo solo está disponible en inglés, alemán y francés. No obstante, el resumen en español puede encontrarse en: https://eur-lex.europa.eu/legal-content/ES/TXT/PDF/?uri=CELEX:52020XX0930(01)&from=ES ↑
CEPD, Dictamen 3/2019 sobre las preguntas y respuestas acerca de la relación entre el Reglamento sobre ensayos clínicos (REC) y el Reglamento general de protección de datos (RGPD) [artículo 70, apartado 1, letra b)] Adoptado el 23 de enero de 2019, https://edpb.europa.eu/sites/default/files/files/file1/201903_edpb_opinion_ctrq_es.pdf p. 8. ↑
1. Opinion 3/2019 concerning the Questions and Answers on the interplay between the Clinical Trials Regulation (CTR) and the General Data Protection regulation (GDPR), at: https://edpb.europa.eu/our-work-tools/our-documents/dictamen-art-70/opinion-32019-concerning-questions-and-answers_en
↑