Tomar una decisión sobre el tipo de datos que se va a recoger

Según el RGPD, el responsable del tratamiento “aplicará las medidas técnicas y organizativas apropiadas para garantizar que, por defecto, sólo se traten los datos personales que sean necesarios para cada finalidad específica del tratamiento. Esta obligación se aplica a la cantidad de datos personales recogidos, el alcance de su tratamiento, el período de su almacenamiento y su accesibilidad. En particular, dichas medidas garantizarán que, por defecto, los datos personales no sean accesibles, sin la intervención del individuo, a un número indefinido de personas físicas” (véase la sección “Protección de datos desde el diseño y por defecto” en el capítulo “Conceptos”). Esto debe tenerse en cuenta sobre todo en esta fase, ya que las decisiones sobre el tipo de datos que se utilizarán suelen tomarse en este momento.

Los responsables del tratamiento deben considerar que siempre es mejor evitar el uso de datos personales si es posible. De hecho, según el principio de minimización de datos, el uso de los datos personales debe ser adecuado, pertinente y limitado a lo necesario en relación con los fines para los que se tratan. Por lo tanto, si la misma finalidad puede alcanzarse sin utilizar datos personales, debe evitarse el tratamiento.

En un segundo nivel de precaución, si los desarrolladores necesitan utilizar datos personales, deben tratar de evitar el uso de categorías especiales de datos. A veces esto es factible, otras veces no. A menudo depende del ámbito de aplicación del modelo. No es lo mismo trabajar en un modelo que se utilizará para el análisis de la influencia de la epigenética en la salud humana, que en un modelo utilizado para vigilar un brote epidémico o en un modelo que servirá para dirigir la publicidad con precisión. Si finalmente se utilizan estas categorías especiales de datos, los responsables deben tener en cuenta la normativa aplicable a su tratamiento y la necesaria aplicación de las garantías adecuadas, capaces de proteger los derechos, intereses y libertades de los interesados. Debe garantizarse la proporcionalidad entre el objetivo de la investigación y el uso de las categorías especiales de datos. Además, los responsables del tratamiento deben asegurarse de que la normativa de sus Estados miembros no proteja los datos genéticos, biométricos y sanitarios introduciendo más condiciones o limitaciones, ya que el RGPD les faculta para ello.

Si los datos personales son necesarios, el responsable de la IA debe, al menos, intentar reducir al máximo la cantidad de datos considerados (véase la sección “Minimización de datos” en el capítulo “Principios”). Debe recordar siempre que sólo puede tratar los datos si el tratamiento es adecuado y pertinente. Por lo tanto, deben evitar el uso de cantidades excesivas de datos personales. A menudo, esto es más fácil de hacer de lo que parece. Como afirma la Agencia Noruega de Protección de Datos, “cabe señalar que la calidad de los datos de entrenamiento, así como las características utilizadas, pueden ser en muchos casos sustancialmente más importantes que la cantidad. A la hora de entrenar un modelo, es importante que la selección de los datos de entrenamiento sea representativa de la tarea que se va a resolver posteriormente. Los grandes volúmenes de datos son de poca ayuda si sólo cubren una fracción de lo que el modelo trabajará posteriormente.” Por ello, es especialmente importante no recoger datos innecesarios. Un etiquetado correcto podría ser un buen antídoto contra la recogida innecesaria. Tenga en cuenta que, si los datos ya están almacenados, la selección implica la eliminación de los elementos innecesarios.

El desarrollador debe intentar siempre evitar la “maldición de la dimensionalidad”, es decir, “un mal rendimiento de los algoritmos y su alta complejidad asociada a un marco de datos con un gran número de dimensiones/características, lo que a menudo hace que la función objetivo sea bastante compleja y puede llevar a un sobreajuste del modelo, ya que a menudo el conjunto de datos descansa en el colector de menor dimensionalidad.” Para ello, podría ser muy importante contar con un experto capaz de seleccionar las características relevantes. Esto contribuiría a reducir significativamente la cantidad de datos personales utilizados sin perder calidad. Ello no debería ser difícil si el científico conoce bien el conjunto de datos y los significados de sus características numéricas. En estas condiciones, sería fácil determinar si algunas de las variables son necesarias o no. Sin embargo, sólo es posible llevar a cabo este enfoque en el caso de que el conjunto de datos sea fácilmente interpretable y se conozcan bien las interdependencias entre las variables. Por lo tanto, el desarrollador necesitará una menor cantidad de datos si se han clasificado adecuadamente. Los datos inteligentes podrían ser mucho más útiles que los big data. Por supuesto, esto puede suponer un gran esfuerzo de unificación, homogeneización, etc., pero ayudará a aplicar el principio de minimización de datos de forma mucho más eficiente.

Además, los responsables deberían intentar limitar la resolución de los datos a lo mínimamente necesario para los fines que persigue el tratamiento. También deben determinar un nivel óptimo de agregación de datos antes de iniciar el tratamiento (véase el apartado “Adecuado, pertinente y limitado” de la sección “Minimización de datos” del capítulo “Principios”).

La minimización de datos puede ser compleja en el caso del aprendizaje profundo, en el que la discriminación por características puede ser imposible. Existe una forma eficaz de regular la cantidad de datos recopilados y de aumentarla solo si parece necesario: la curva de aprendizaje. El desarrollador debe empezar por recopilar y utilizar una cantidad limitada de datos de entrenamiento, y luego supervisar la precisión del modelo a medida que se alimenta con nuevos datos.

Cuadro 16: Una práctica de minimización de datos que no se aplicó adecuadamente

Una herramienta desarrollada por la Administración Tributaria noruega para filtrar las declaraciones de impuestos en busca de errores probó 500 variables en la fase de entrenamiento. Sin embargo, sólo se incluyeron 30 en el modelo final de IA, ya que resultaron ser las más relevantes para la tarea en cuestión. Esto significa que probablemente podrían haber evitado la recogida de tantos datos personales si hubieran realizado una mejor selección de las variables que eran relevantes desde el principio.