Preparación de los datos
Home » IA » Estudio de casos » Primer escenario: construcción de una herramienta de IA dedicada al diagnóstico del COVID-19 » Preparación de los datos

Descripción

“La fase de preparación de datos abarca todas las actividades para construir el conjunto de datos final o los datos que se introducirán en la(s) herramienta(s) de modelización a partir de los datos brutos iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y limpieza de los datos para las herramientas de modelización. Las cinco etapas de la preparación de datos son la selección, la limpieza, la construcción la integración y el formateo de los datos.”[1]

Esta etapa incluye todas las actividades necesarias para construir el conjunto de datos final que se introduce en el modelo, a partir de los datos brutos iniciales. Comprende las cinco tareas siguientes, que no se realizan necesariamente de forma secuencial.

  1. Seleccionar los datos. Decidir los datos que se utilizarán para el análisis, basándose en la pertinencia de los objetivos de la minería de datos, la calidad y las restricciones técnicas, como los límites del volumen o los tipos de datos.
  2. Limpiar los datos. Elevar la calidad de los datos hasta el nivel requerido, por ejemplo, seleccionando subconjuntos limpios de los datos, insertando valores por defecto y estimando los datos que faltan mediante modelización.
  3. Construir datos. La construcción de nuevos datos mediante la producción de atributos derivados, nuevos registros o valores transformados para los atributos existentes.
  4. Integrar datos. Combinar datos de varias tablas o registros para crear nuevos registros o valores.
  5. Formatear los datos. Realizar modificaciones sintácticas en los datos que pueda requerir la herramienta de modelización.

Principales acciones a abordar

Introducir las garantías previstas en el art. 89 del RGPD

Dado que usted utiliza los datos con fines científicos, debe prepararlos de acuerdo con las garantías previstas por el RGPD en su artículo 89. Si los fines de su investigación pueden cumplirse mediante un tratamiento posterior que no permita o deje de permitir la identificación de los interesados, es decir, mediante la seudonimización, dichos fines deberán cumplirse de esa manera. Si esto no es posible, debe usted introducir salvaguardias que garanticen medidas técnicas y organizativas que permitan una aplicación adecuada del principio de minimización de datos. Tenga en cuenta las normas concretas establecidas por su normativa nacional en materia de salvaguardias. Consulte con su OPD.

Garantizar la exactitud de los datos personales tratados

Según el RGPD, los datos deben ser exactos (véase la sección “Exactitud” en el capítulo “Principios”).

Esto significa que los datos son correctos y están actualizados, pero también se refiere a la exactitud de los estudios realizados. El CEPD ha destacado la importancia de la exactitud de la elaboración de perfiles o del proceso de toma de decisiones (no exclusivamente) automatizado en todas las etapas (desde la recogida de los datos hasta la aplicación del perfil a la persona).[2]

Los responsables del tratamiento son los encargados de garantizar la exactitud. Por lo tanto, una vez que haya terminado con la recopilación de datos, deberán implementar las herramientas adecuadas para garantizar la exactitud de los datos. Esto suele implicar que hay que tomar algunas decisiones fundamentales sobre las medidas técnicas y organizativas que harán que este principio sea aplicable (véase la subsección Medidas técnicas y organizativas relacionadas en la sección Exactitud del capítulo Principios). Dado que la mayoría de los datos proceden de los pacientes y que la mayoría de ellos son cuantitativos, se puede suponer que son exactos. En cualquier caso, la exactitud requiere una aplicación adecuada de las medidas destinadas a facilitar el derecho de rectificación de los interesados (véase la sección “Derecho de rectificación” en el capítulo “Derechos de los interesados”).

Atención a los problemas de perfilado

En el caso de una base de datos que servirá para entrenar o validar una herramienta de IA, existe una obligación especialmente relevante de informar a los interesados de que sus datos podrían dar lugar a una toma de decisiones automatizada o a la elaboración de perfiles sobre ellos, a menos que se pueda garantizar que la herramienta no producirá en modo alguno estas consecuencias. Aunque la toma de decisiones automática apenas puede producirse en el contexto de la investigación, los desarrolladores deben estar atentos a esta cuestión. La elaboración de perfiles, por otra parte, podría traer algunos problemas al desarrollo de la IA.

Según el apartado 3 del artículo 22, las decisiones automatizadas que afectan a categorías especiales de datos personales, como los datos sanitarios que se están utilizando, sólo están permitidas si el interesado ha dado su consentimiento, o si se llevan a cabo sobre una base legal. Esta excepción se aplica no sólo cuando los datos observados entran en esta categoría, sino también si la alineación de diferentes tipos de datos personales puede revelar información sensible sobre las personas o si los datos inferidos entran en esa categoría.

Algunas acciones adicionales que pueden ser muy útiles para evitar la elaboración de perfiles si no es necesaria son

  • Considerar los requisitos del sistema necesarios para apoyar la supervisión humana significativa desde la fase de diseño. En particular, los requisitos de interpretabilidad y el diseño eficaz de la interfaz de usuario para apoyar la intervención y supervisión humanas;
  • Diseñar y ofrecer una formación y un apoyo adecuados a los supervisores; y
  • Dar al personal la autoridad, los incentivos y el apoyo adecuados para abordar o escalar las preocupaciones de los individuos y, si es necesario, anular la decisión de la herramienta de IA.

Si procede a la elaboración de perfiles o a las decisiones automatizadas, debe informar a los interesados sobre su decisión y proporcionar toda la información necesaria de acuerdo con el RGPD y la normativa nacional, si resulta aplicable.

Seleccionar datos sin sesgos

Los sesgos son uno de los principales problemas del desarrollo de la IA, un problema que contraviene el principio de lealtad. Los sesgos pueden deberse a muchas cuestiones diferentes. Cuando se recogen los datos, pueden contener sesgos, inexactitudes, errores y fallos construidos socialmente. A veces, puede ocurrir que los conjuntos de datos estén sesgados debido a acciones maliciosas. Introducir datos maliciosos en un sistema de IA puede cambiar su comportamiento, sobre todo en los sistemas de autoaprendizaje.[3] Por lo tanto, las cuestiones relacionadas con la composición de las bases de datos utilizadas para el entrenamiento plantean cuestiones éticas y jurídicas cruciales, no sólo cuestiones de eficiencia o de carácter técnico.

Es necesario abordar estas cuestiones antes de entrenar el algoritmo. Los sesgos identificables y discriminatorios deben eliminarse en la fase de construcción del conjunto de datos siempre que sea posible. En el caso de COVID, podrían hacerse distinciones entre los pacientes en función de su edad, género o grupo étnico, por ejemplo. Hay que asegurarse de que el algoritmo tenga en cuenta este factor a la hora de seleccionar los datos. Esto significa que los equipos encargados de seleccionar los datos que se integrarán en los conjuntos de datos deben estar compuestos por personas que garanticen la diversidad que se espera que muestre el desarrollo de la IA. Por último, ten siempre presente que, si tus datos están relacionados principalmente con un grupo concreto, por ejemplo, la población caucásica de más de cuarenta años, deberás declarar que el algoritmo ha sido entrenado sobre esta base y, por tanto, podría no funcionar tan bien en otros grupos de población.

 

 

  1. Colin Shearer, The CRISP-DM Model: The New Blueprint for Data Mining, p. 16.
  2. CEPD (2020) Directrices 5/2020 sobre el consentimiento en el sentido del Reglamento (UE) 2016/679 versión 1.1 Adoptado el 4 de mayo de 2020. Disponible en: Https://edpb.europa.eu/sites/default/files/files/file1/edpb_guidelines_202005_consent_es.pdf, p. 13; Ducato, Rossana, Private Ordering of Online Platforms in Smart Urban Mobility The Case of Uber’s Rating System, CRIDES Working Paper Series no. 3/20202 February 2020 Updated on 26 July 2020, p. 20-21, at: Https://poseidon01.ssrn.com/delivery.php?ID=247104118003073117118086021112071111102048023015008020118084071112086000027097102088036101006014057116105116119119026079007006118044033055000114023106007076115096073024007094081002078064098028091093003078095099082108113086098120001079015123027083125024&EXT=pdf&INDEX=TRUE
  3. Grupo de Expertos de Alto Nivel sobre IA (2019) Directrices Éticas para una IA Fiable. Comisión Europea, Bruselas, p.17. Disponible en: https://op.europa.eu/en/publication-detail/-/publication/d3988569-0434-11ea-8c1f-01aa75ed71a1 (Visitado el 15 mayo de 2020).
Ir al contenido