Modelización (entrenamiento) - Guidelines Panelfit

Descripción

“En esta fase se seleccionan y aplican varias técnicas de modelización y se calibran sus parámetros hasta alcanzar los valores óptimos. Normalmente, existen varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requisitos específicos sobre la forma de los datos. Por lo tanto, puede ser necesario volver a la fase de preparación de los datos. Las etapas de modelización incluyen la selección de la técnica de modelización, la generación del diseño de las pruebas, la creación de los modelos y la evaluación de los mismos.”^[1]

Esta fase implica varias tareas clave. En general, usted debe tener en cuenta lo siguiente:

Seleccionar la técnica de modelización que se utilizará. Según el tipo de técnica, es más o menos probable que se produzcan consecuencias como la inferencia de datos, la opacidad o los sesgos.
Tomar una decisión sobre la herramienta de entrenamiento que se utilizará. Esto permite al desarrollador medir lo bien que el modelo puede predecir el pasado antes de utilizarlo para predecir el futuro. El entrenamiento siempre implica la realización de pruebas empíricas con datos. A veces, los desarrolladores prueban el modelo con datos diferentes a los utilizados para generarlo. Por lo tanto, en esta etapa se puede hablar de diferentes tipos de conjuntos de datos. A veces puede resultar difícil identificar a los individuos a los que se refieren los datos de entrenamiento. Esto crea problemas para el cumplimiento de los derechos de los individuos que deben ser abordados adecuadamente.

Principales acciones a abordar

Implementar el principio de minimización de datos

De acuerdo con el principio de minimización de datos, los responsables del tratamiento deben proceder a reducir la cantidad de datos y/o la gama de información sobre el interesado que proporcionan tan pronto como sea posible. En consecuencia, los datos utilizados durante la fase de entrenamiento deben ser depurados de toda la información que no sea estrictamente necesaria para el entrenamiento del modelo (véase la subsección “Aspecto temporal” en la sección “Minimización de datos” del capítulo “Principios”). Por supuesto, debería empezar por borrar todos los datos personales relacionados con la radiografía que utiliza, pero esto sólo sería un primer paso para seguir el principio de minimización. Para ello habría que aplicar cuidadosamente medidas más contundentes. Las técnicas evolucionan continuamente, Sin embargo, a continuación, se indican algunas de las más comunes;^[2] (Véase también la sección “Integridad y confidencialidad” del capítulo “Principios”.):

Análisis de las condiciones que deben cumplir los datos para ser considerados de alta calidad y con gran capacidad predictiva para la aplicación específica.
Análisis crítico del alcance de la tipología de datos utilizada en cada etapa de la solución de IA.
Supresión de los datos no estructurados y de la información innecesaria recogida durante el preprocesamiento de la información.
Identificación y supresión de aquellas categorías de datos que no tienen una influencia significativa en el aprendizaje o en el resultado de la inferencia.
Supresión de conclusiones irrelevantes asociadas a la información personal durante el proceso de entrenamiento, por ejemplo, en el caso del entrenamiento no supervisado.
Uso de técnicas de verificación que requieren menos datos, como la validación cruzada.
Análisis y configuración de hiperparámetros algorítmicos que puedan influir en la cantidad o extensión de los datos procesados para minimizarlos.
Uso de modelos de aprendizaje federados en lugar de centralizados.
Aplicación de estrategias de privacidad diferencial.
Entrenamiento con datos encriptados mediante técnicas homomórficas.
Agregación de datos.
Anonimización y seudonimización, no sólo en la comunicación de datos, sino también en los datos de entrenamiento, en los posibles datos personales contenidos en el modelo y en el tratamiento de la inferencia

Detectar y eliminar sesgos

Aunque los mecanismos contra los sesgos se adoptan convenientemente en las fases anteriores (véase la sección anterior sobre entrenamiento), sigue siendo necesario garantizar que los resultados de la fase de entrenamiento minimicen los sesgos. Esto puede ser difícil, ya que algunos tipos de sesgo y discriminación suelen ser especialmente difíciles de detectar. A veces, los miembros del equipo que se ocupan de los datos de entrada no son conscientes de ellos, y los usuarios que son sus sujetos tampoco son necesariamente conscientes de los mismos. Por ello, los sistemas de control que el desarrollador de IA implementa en la fase de validación son factores extremadamente importantes para evitar los sesgos.

Hay muchas herramientas técnicas que pueden servir para detectar los sesgos, como la Evaluación del Impacto Algorítmico.^[3] Debes tener en cuenta su aplicación efectiva.^[4] in embargo, como muestra la literatura ^[5], puede ocurrir que un algoritmo no pueda ser totalmente purgado de todos los diferentes tipos de sesgos. No obstante, debes intentar al menos ser consciente de su existencia y de las implicaciones que ello puede acarrear (véanse las secciones de “Licitud, lealtad y transparencia” y “Exactitud” en el capítulo “Principios”).

Tener en cuenta los derechos de lo interesados

A veces, los desarrolladores completan los datos disponibles mediante inferencia. Por ejemplo, si no se dispone de los datos concretos correspondientes a la presión arterial de un paciente, se puede utilizar otro algoritmo para inferirla a partir del resto de los datos. Sin embargo, esto no significa que estos datos puedan considerarse totalmente seudónimos o anónimos. Esto es especialmente cierto en el caso de los datos genómicos, ya que su anonimización es casi imposible. Por lo tanto, siguen siendo datos personales. Además, los datos inferidos también deben considerarse datos personales. Por lo tanto, los interesados tienen algunos derechos fundamentales sobre estos datos que usted debe respetar.

De hecho, usted debe facilitar los derechos de los interesados durante todo el ciclo de vida de la herramienta. En esta etapa concreta, los derechos de acceso, rectificación y supresión son especialmente sensibles e incluyen ciertas características que los responsables deben conocer. Sin embargo, en el caso de la investigación con fines científicos como la que usted está desarrollando, el RGPD incluye algunas garantías y excepciones relativas al tratamiento (art. 89). También debe conocer la normativa concreta de su Estado miembro. Según el RGPD, el Derecho de la Unión o de los Estados miembros puede establecer excepciones a los principales derechos incluidos en los artículos 15 y ss. en la medida en que dichos derechos puedan imposibilitar o perjudicar gravemente la consecución de los fines específicos, y dichas excepciones sean necesarias para el cumplimiento de dichos fines.

– Derecho de acceso (véase la sección Derecho de acceso en el capítulo Derechos del interesado)

En principio, deberá responder a las solicitudes de acceso a los datos personales de los interesados, siempre que haya tomado medidas razonables para verificar la identidad del interesado y no se apliquen otras excepciones. Sin embargo, no tiene que recopilar o mantener datos personales adicionales para permitir la identificación de los interesados en los datos de entrenamiento con el único fin de cumplir con el Reglamento. Si usted no puede identificar a un interesado a partir de los datos de entrenamiento y este no puede proporcionar información adicional para permitir la identificación, no está obligado a cumplir con una solicitud que no puede ser satisfecha.

– Derecho de rectificación (véase la sección Derecho de rectificación en el capítulo Derechos del interesado)

En el caso del derecho de rectificación, debe garantizar el derecho de rectificación de los datos, especialmente los generados por las inferencias y los perfiles elaborados por una herramienta de IA. Aunque la finalidad de los datos de entrenamiento es formar modelos basados en patrones generales en grandes conjuntos de datos y, por tanto, es menos probable que las inexactitudes individuales tengan un efecto directo sobre un interesado, el derecho de rectificación no puede limitarse. Como máximo, podría pedir un plazo mayor (dos meses más) para proceder a la rectificación si el procedimiento técnico es especialmente complejo (art. 11.3).

– Derecho de supresión (véase la sección Derecho de supresión en el capítulo Derechos del interesado)

Los interesados tienen derecho a solicitar la supresión de sus datos personales. Sin embargo, este derecho puede verse limitado si se dan algunas circunstancias concretas. Según la ICO, “las instituciones también pueden recibir solicitudes de supresión de datos de entrenamiento. Las instituciones deben responder a las solicitudes de supresión, a menos que se aplique una exención pertinente y siempre que el interesado tenga los motivos adecuados. Por ejemplo, si los datos de entrenamiento ya no son necesarios porque el modelo de inteligencia artificial ya ha sido entrenado, la institución deberá atender la solicitud. Sin embargo, en algunos casos, cuando el desarrollo del sistema está en curso, puede seguir siendo necesario conservar los datos de entrenamiento para volver a entrenar, perfeccionar y evaluar una herramienta de IA. En este caso, se debe adoptar un enfoque individualizado para determinar si se pueden satisfacer las solicitudes. El cumplimiento de una solicitud de supresión de datos de entrenamiento no implicaría el borrado de ningún modelo de ML basado en dichos datos, a menos que los propios modelos contengan esos datos o puedan utilizarse para inferirlos.”^[6]

Colin Shearer, The CRISP-DM Model: The New Blueprint for Data Mining, p. 17. ↑
AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia Española de Protección de Datos, Madrid, p.40. Disponible en: www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (visitado el 15 de mayo de 2020). ↑
Reisman, D., Crawford, K., Whittaker, M., Algorithmic impact assessments: A practical framework for public agency accountability, 2018, at: https://ainowinstitute.org/aiareport2018.pdf (Visitado el 15 de Mayo de 2020). ↑
https://ico.org.uk/media/about-the-ico/consultations/2617219/guidance-on-the-ai-auditing-framework-draft-for-consultation.pdf (Visitado el 15 Mayo de 2020). ↑
Chouldechova. Alexandra, Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments, Big Data. Volume: 5 Issue 2: June 1, 2017. 153-163.http://doi.org/10.1089/big.2016.0047 ↑
ICO, Enabling access, erasure, and rectification rights in AI tools, en: https://ico.org.uk/about-the-ico/news-and-events/ai-blog-enabling-access-erasure-and-rectification-rights-in-ai-systems/ (Visitado el 15 de mayo de 2020). ↑