Garantizar que el principio de minimización de datos se aplica al conjunto de datos que se utilizará para las sucesivas etapas de entrenamiento

Según el principio de limitación de la finalidad, los responsables del tratamiento que utilizan sistemas de IA determinan la finalidad del uso del sistema de IA al inicio de su entrenamiento o despliegue, y realizan una reevaluación de esta determinación en caso de que el tratamiento del sistema arroje resultados inesperados, ya que exige que los datos personales sólo se recojan con “fines específicos, explícitos y legítimos” y no se utilicen de forma incompatible con la finalidad original.

De acuerdo con el principio de minimización de datos, los responsables del tratamiento deben proceder a reducir la cantidad de datos y/o la gama de información sobre el interesado que proporcionan tan pronto como sea posible. En consecuencia, los datos utilizados durante la fase de entrenamiento deben ser depurados de toda la información que no sea estrictamente necesaria para el entrenamiento del modelo (véase la subsección “Aspecto temporal” en la sección “Minimización de datos” del capítulo “Principios”). Existen múltiples estrategias para garantizar la minimización de los datos en la fase de entrenamiento. Las técnicas evolucionan continuamente. Sin embargo, a continuación, se indican algunas de las más comunes; Véase también la sección “Integridad y confidencialidad” del capítulo “Principios”.):

Análisis de las condiciones que deben cumplir los datos para ser considerados de alta calidad y con gran capacidad predictiva para la aplicación específica.
Análisis crítico del alcance de la tipología de datos utilizada en cada etapa de la solución de IA.
Supresión de los datos no estructurados y de la información innecesaria recogida durante el preprocesamiento de la información.
Identificación y supresión de aquellas categorías de datos que no tienen una influencia significativa en el aprendizaje o en el resultado de la inferencia.
Supresión de conclusiones irrelevantes asociadas a la información personal durante el proceso de entrenamiento, por ejemplo, en el caso del entrenamiento no supervisado.
Uso de técnicas de verificación que requieren menos datos, como la validación cruzada.
Análisis y configuración de hiperparámetros algorítmicos que puedan influir en la cantidad o extensión de los datos procesados para minimizarlos.
Uso de modelos de aprendizaje federados en lugar de centralizados.
Aplicación de estrategias de privacidad diferencial.
Entrenamiento con datos encriptados mediante técnicas homomórficas.
Agregación de datos.
Anonimización y seudonimización, no sólo en la comunicación de datos, sino también en los datos de entrenamiento, en los posibles datos personales contenidos en el modelo y en el tratamiento de la inferencia.