Preparación de los datos - Guidelines Panelfit

Descripción

“ La fase de preparación de datos abarca todas las actividades para construir el conjunto de datos final o los datos que se introducirán en la(s) herramienta(s) de modelización a partir de los datos brutos iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y limpieza de los datos para las herramientas de modelización. Las cinco etapas de la preparación de datos son la selección, la limpieza, la construcción la integración y el formateo de los datos.”^[1]

Esta etapa incluye todas las actividades necesarias para construir el conjunto de datos final que se introduce en el modelo, a partir de los datos brutos iniciales. Comprende las cinco tareas siguientes, que no se realizan necesariamente de forma secuencial.

Seleccionar los datos. Decidir los datos que se utilizarán para el análisis, basándose en la pertinencia de los objetivos de la minería de datos, la calidad y las restricciones técnicas, como los límites del volumen o los tipos de datos.
Limpiar los datos. Elevar la calidad de los datos hasta el nivel requerido, por ejemplo, seleccionando subconjuntos limpios de los datos, insertando valores por defecto y estimando los datos que faltan mediante modelización.
Construir datos. La construcción de nuevos datos mediante la producción de atributos derivados, nuevos registros o valores transformados para los atributos existentes.
Integrar datos. Combinar datos de varias tablas o registros para crear nuevos registros o valores.
Formatear los datos. Realizar modificaciones sintácticas en los datos que pueda requerir la herramienta de modelización.

Principales acciones a abordar

Introducir las garantías prevista en el Artículo 89 RGPD

Dado que utiliza los datos con fines científicos, debe prepararlos de acuerdo con las garantías previstas en el artículo 89 del RGPD. Si los fines de su investigación pueden cumplirse mediante un tratamiento posterior que no permita o deje de permitir la identificación de los interesados, es decir, mediante la seudonimización, dichos fines deberán cumplirse de esa manera. Si esto no es posible, debe introducir garantías que aseguren que las medidas técnicas y organizativas permiten una aplicación adecuada del principio de minimización de datos. Tenga en cuenta las normas concretas establecidas por su normativa nacional en materia de garantías. Consulte con su DPD.

Garantizar la exactitud de los datos personales tratados

Según el RGPD, los datos deben ser exactos (véase la sección “Exactitud” en el capítulo “Principios”). Esto significa que los datos tratados son correctos y están actualizados. Los responsables del tratamiento son los encargados de garantizar la exactitud. Por lo tanto, una vez que haya terminado con la recopilación de datos, debe implementar herramientas adecuadas para garantizar la exactitud de los mismos. Ello suele implicar que tiene que tomar algunas decisiones fundamentales sobre las medidas técnicas y organizativas que harán que este principio sea aplicable (véase la subsección Medidas técnicas y organizativas relacionadas en la sección Exactitud del capítulo Principios). Dado que la mayoría de los datos proceden de fuentes probablemente muy diferentes, sin requisitos de calidad estandarizados, y que la mayoría de ellos serán probablemente cualitativos en el caso de la predicción de la delincuencia, no se puede asumir que sean precisos per se. En primer lugar, porque estos datos pueden estar basados en valoraciones individuales de diferentes personas, mientras que los interesados pueden no saber siquiera que se almacenan este tipo de datos sobre ellos.

En cualquier caso, la exactitud requiere una aplicación adecuada de las medidas destinadas a facilitar el derecho de rectificación de los interesados (véase la sección Derecho de rectificación en el capítulo Derechos de los interesados).

Asegúrese también de que los resultados sean lo más precisos posible. Los tipos de falsos positivos y falsos negativos deben definirse de antemano durante la fase de preparación de los datos. Los resultados falsos son uno de los problemas esenciales que repercuten en los derechos fundamentales de las personas.

Atención a los problemas de perfilado

En general, en el caso de una base de datos que sirva para el entrenamiento o la validación de una herramienta de IA, existe una obligación especialmente relevante de informar a los interesados de que sus datos podrían dar lugar a la toma de decisiones automatizadas o a la elaboración de perfiles sobre ellos. La elaboración de perfiles es especialmente problemática en el desarrollo de la IA, lo que también es válido para las herramientas de IA desarrolladas con fines de LEA.

Según la letra c) del apartado 2 del artículo 22, las decisiones automatizadas que afectan a categorías especiales de datos personales, como los datos que revelan el origen racial o étnico, las opiniones políticas, las convicciones religiosas o filosóficas, o la pertenencia a un sindicato, así como el tratamiento de datos genéticos, de datos biométricos destinados a identificar de manera inequívoca a una persona física, de datos relativos a la salud o de datos relativos a la vida sexual o a la orientación sexual de una persona física (apartado 1 del artículo 9), sólo están permitidas si el interesado ha dado su consentimiento, o si se llevan a cabo sobre una base legal. Esta excepción se aplica no sólo cuando los datos observados entran en esta categoría, sino también si la alineación de diferentes tipos de datos personales puede revelar información sensible sobre las personas o si los datos inferidos entran en esa categoría. En el caso de la predicción y la prevención de la delincuencia, el consentimiento explícito de los interesados sólo será aplicable normalmente para los participantes humanos voluntarios durante la fase de I+D. El tratamiento de categorías especiales de datos personales, por ejemplo, de opiniones políticas o creencias religiosas, puede pertenecer al núcleo de datos de las herramientas de IA aplicadas en el ámbito de la prevención del terrorismo.

Algunas acciones adicionales que pueden ser muy útiles para evitar la toma de decisiones automatizada si no es necesaria son:

Considerar los requisitos del sistema necesarios para apoyar una supervisión humana significativa desde la fase de diseño. En particular, los requisitos de interpretabilidad y el diseño eficaz de la interfaz de usuario para apoyar la supervisión e intervención humana;
Diseñar e impartir el entrenamiento y el apoyo adecuados para los supervisores humanos; y
Dar al personal la autoridad, los incentivos y el apoyo adecuados para abordar o escalar las preocupaciones de los individuos y, si es necesario, anular la decisión de la herramienta de IA.^[2]

Si procede a la elaboración de perfiles o a la toma de decisiones automatizadas, debe informar a los interesados sobre su decisión y proporcionar toda la información necesaria de acuerdo con el RGPD y la normativa nacional, si procede.

Seleccionar datos sin sesgos

El sesgo es uno de los principales problemas que plantea el desarrollo de la IA, un problema que contraviene el principio de lealtad. El sesgo puede traer causa de muchas cuestiones diferentes. Cuando se recopilan los datos, éstos pueden contener sesgos, inexactitudes, errores y fallos construidos socialmente. A veces, puede ocurrir que los conjuntos de datos estén sesgados debido a acciones maliciosas. Introducir datos malintencionados en una herramienta de IA puede cambiar su comportamiento, especialmente en los sistemas de autoaprendizaje.^[3] Por lo tanto, las cuestiones relacionadas con la composición de las bases de datos utilizadas para el entrenamiento plantean cuestiones éticas y jurídicas cruciales, no sólo cuestiones de eficiencia o de carácter técnico.

Es necesario abordar estas cuestiones antes del entrenamiento del algoritmo. Los sesgos identificables y discriminatorios deben eliminarse en la fase de construcción del conjunto de datos siempre que sea posible. Como hemos visto en el pasado, la idea de que ciertos grupos de personas (negros, árabes o extranjeros en general, musulmanes…) son condenados más a menudo porque infringen la ley con mayor frecuencia, en la mayoría de los casos no es válida. Son registrados más a menudo, discriminados más a menudo por la policía, encuentran más a menudo la violencia excesiva, la arbitrariedad o la hostilidad de la policía y, por lo tanto, se encuentran más a menudo en situaciones problemáticas. Esta observación se mantendría muy probablemente para cualquier otro subconjunto de la población si se le tratara de la misma manera. Por lo tanto, deducir un mayor índice de delincuencia en las zonas donde viven muchos extranjeros podría convertirse en una profecía autocumplida.

Otro ejemplo podría ser la suposición de que una herramienta de IA produce los resultados correctos en cuanto coinciden con los resultados de los humanos. A menudo, las decisiones de los humanos también son parciales, y lo más probable es que la herramienta de IA perpetúe esas prácticas discriminatorias en lugar de producir resultados más objetivos.

Si el algoritmo está sesgado, también puede aumentar el número de falsos positivos o falsos negativos. Los falsos positivos pueden tener graves efectos adversos en las personas afectadas, los falsos negativos en la sociedad y, por supuesto, también en las víctimas de actividades delictivas o terroristas que podrían haberse evitado.

Hay que asegurarse de que el algoritmo evalúa estos factores en consecuencia cuando selecciona los datos. Esto significa que los equipos encargados de seleccionar los datos que se integrarán en los conjuntos de datos deben estar compuestos por personas que garanticen la diversidad que se espera que muestre la herramienta de IA. Por último, ten siempre presente que, si tus datos están relacionados principalmente con un grupo concreto, deberás declarar que el algoritmo ha sido entrenado sobre esta base y, por tanto, podría no funcionar tan bien en otros grupos de población.

Colin Shearer, The CRISP-DM Model: The New Blueprint for Data Mining, p. 16. ↑
https://ico.org.uk/about-the-ico/news-and-events/ai-blog-fully-automated-decision-making-ai-systems-the-right-to-human-intervention-and-other-safeguards/ ↑
Grupo de Expertos de Alto Nivel en IA (2019) Directrices éticas para una IA fiable (https://op.europa.eu/es/publication-detail/-/publication/d3988569-0434-11ea-8c1f-01aa75ed71a1). (Visitado el 20 de mayo de 2020) ↑