Minimización de datos - Guidelines Panelfit

El principio de minimización de datos estipula que los datos personales deben ser “adecuados, pertinentes y limitados a lo necesario en relación con los fines para los que se traten”.^[1] En el contexto de la IA, esto significa, en primer lugar, que los responsables del tratamiento deben evitar utilizar datos personales si no son necesarios; es decir, si el objetivo que persigue el responsable del tratamiento puede obtenerse sin tratar datos personales (véase el apartado “Licitud, imparcialidad y transparencia” dentro de “Principios” en la Parte II de estas Directrices). En efecto, a veces los datos personales pueden sustituirse por datos no personales sin que ello afecte a los fines de la investigación. En tales circunstancias, el uso de datos anonimizados es obligatorio, de conformidad con el artículo 89.1 del RGPD.

Si la anonimización no es posible, los responsables del tratamiento deben intentar al menos trabajar con datos seudonimizados. En última instancia, cada responsable del tratamiento debe definir qué datos personales son realmente necesarios (y cuáles no) para los fines del tratamiento, incluidos los periodos de conservación de datos pertinentes. De hecho, los responsables del tratamiento deben tener en cuenta que la necesidad del tratamiento debe demostrarse en el caso de la mayoría de las bases jurídicas, incluidas todas las bases establecidas en el artículo 6 del RGPD, excepto el consentimiento, y la mayoría de las bases incluidas en el artículo 9, apartado 2, relativo a las categorías especiales de datos. En otras palabras, para la mayoría de las bases jurídicas para el tratamiento de datos personales, tanto la minimización de datos como los principios de legalidad exigen que los responsables del tratamiento garanticen que el desarrollo de la IA no puede realizarse sin utilizar datos personales.

Sin embargo, el concepto de necesidad es complejo y tiene un significado independiente en la legislación de la Unión Europea.^[2] En general, requiere que el tratamiento sea una forma selectiva y proporcionada de lograr un fin específico. No basta con alegar que el tratamiento es necesario porque los responsables del tratamiento han optado por desarrollar su actividad de una manera determinada. Deben ser capaces de demostrar que el tratamiento es necesario para el objetivo que se persigue y es menos intrusivo que otras opciones para lograr el mismo objetivo; no que sea una parte necesaria de los métodos elegidos.^[3] Si existen alternativas realistas menos intrusivas, el tratamiento de datos personales no se considera necesario. ^[4]

Por lo tanto, el principio de minimización de datos exige que los desarrolladores de IA opten por aquellas herramientas cuyo desarrollo implique un uso mínimo de datos personales en comparación con las alternativas disponibles. Una vez alcanzado este objetivo, deben establecerse procesos específicos para excluir la recogida y/o transferencia de datos personales innecesarios, reducir los campos de datos y prever mecanismos de supresión automatizada.^[5] La minimización de datos puede ser especialmente compleja en el caso del aprendizaje profundo, en el que la discriminación por características podría ser imposible. Por lo tanto, si otras soluciones alternativas pueden dar los mismos resultados, es mejor evitar el aprendizaje profundo.

Además, el CIPL señala que “los datos personales que se consideran “necesarios” varían en función del sistema de IA y del objetivo para el que se utiliza, pero la gobernanza del RGPD en este ámbito debería evitar que lo perfecto sea enemigo de lo bueno para los diseñadores de IA: el hecho de que los datos personales deban ser limitados no significa que el propio sistema de IA se vuelva inútil, especialmente porque no todos los sistemas de IA necesitan proporcionar un resultado preciso”.^[6] Para determinar con precisión el alcance y la cantidad de datos personales necesarios, resulta extremadamente importante contar con un experto capaz de seleccionar las características relevantes. Esto debería reducir significativamente el riesgo para la privacidad de los interesados, sin perder calidad.

Existe una herramienta eficaz para regular la cantidad de datos recogidos y aumentarla sólo si parece necesario: la curva de aprendizaje.^[7] El controlador debe empezar recopilando y utilizando una cantidad restringida de datos de entrenamiento y, a continuación, controlar la precisión del modelo a medida que se alimenta con nuevos datos. Esto también ayudará a un controlador a evitar la “maldición de la dimensionalidad”, es decir, “un rendimiento deficiente de los algoritmos y su elevada complejidad asociada a un marco de datos con un gran número de dimensiones/características, lo que a menudo hace que la función objetivo sea bastante compleja y puede llevar a un sobreajuste del modelo, siempre y cuando el conjunto de datos se encuentre a menudo en el colector de menor dimensionalidad”. ^[8]

Algunas medidas adicionales relacionadas con el principio de minimización incluyen:

limitar la extensión de las categorías de datos (por ejemplo, nombres, datos físicos y direcciones, campos sobre su salud, situación laboral, creencias, ideología, etc.)
limitar el grado de detalle o precisión de la información, la granularidad de la recogida en tiempo y frecuencia, y la antigüedad de la información utilizada
limitar la ampliación en el número de interesados de quienes tratan los datos
limitar la accesibilidad de las distintas categorías de datos al personal del responsable del tratamiento o incluso al usuario final (si hay datos de terceros en los modelos de IA) en todas las fases del tratamiento.^[9]

Por supuesto, la adopción de estas medidas puede requerir un gran esfuerzo en términos de unificación de datos, homogeneización, etc., pero contribuirá a aplicar el principio de minimización de datos de una manera mucho más eficiente. ^[10]

Por último, es útil recordar que los responsables del tratamiento deben evitar conservar largas bases de datos históricos, por ejemplo más allá del periodo necesario para los fines empresariales normales, o para cumplir obligaciones legales, o simplemente porque su herramienta analítica es capaz de producir un gran número de datos y su capacidad de almacenamiento lo hace posible. En su lugar, las empresas que utilicen big data deben aplicar calendarios de conservación adecuados (véase la sección “Limitación del almacenamiento” en los “Principios”, Parte II de estas Directrices).

Cuadro 6. Un ejemplo de las ventajas de la minimización de datos en la IA

Una herramienta de IA desarrollada por la administración tributaria noruega para filtrar las declaraciones de la renta en busca de errores probó quinientas variables en la fase de entrenamiento. Sin embargo, sólo se incluyeron treinta en el modelo final de IA, ya que resultaron ser las más relevantes para la tarea en cuestión. Es probable que los desarrolladores de la herramienta hubieran podido evitar recopilar tantos datos personales si hubieran realizado una mejor selección de las variables relevantes al principio del proceso de desarrollo.

Fuente: Autoridad Noruega de Protección de Datos (2018) Inteligencia artificial y privacidad. Autoridad noruega de protección de datos, Oslo. Disponible en: https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf

Lista de control: minimización de datos

☐ Los responsables del tratamiento se han asegurado de que solo utilizan los datos personales en caso necesario.

☐ Los controladores han tenido en cuenta la proporcionalidad entre la cantidad de datos y la precisión de la herramienta de IA.

☐ Los responsables del tratamiento revisan periódicamente los datos que conservan y suprimen todo lo que no necesitan.

☐ Los controladores en la fase de entrenamiento del sistema de IA depuran toda la información que no sea estrictamente necesaria para dicho entrenamiento.

☐ Los responsables del tratamiento comprueban si se tratan datos personales en la fase de distribución del sistema de IA y los suprimen, salvo que exista una necesidad justificada y legitimidad para conservarlos con otros fines compatibles.

Información complementaria

ENISA (2015) Privacy by design in big data. Agencia de Ciberseguridad de la Unión Europea, Atenas / Heraklion, p.23. Disponible en: www.enisa.europa.eu/publications/big-data-protection

ICO (sin fecha) Principio (c): minimización de datos. Oficina del Comisario de Información, Wilmslow. Disponible en: https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/principles/data-minimisation/

Autoridad Noruega de Protección de Datos (2018) Inteligencia artificial y privacidad. Autoridad noruega de protección de datos, Oslo. Disponible en: https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf

Pure Storage (2015) Big data’s big failure: the struggles businesses face in accessing the information they need. Pure Storage, Mountain View, CA. Disponible en: http://info.purestorage.com/rs/225-USM-292/images/Big%20Data%27s%20Big%20Failure_UK%281%29.pdf

Artículo 5, apartado 1, letra c), del RGPD. ↑
Véase TJUE, asunto C524/06‑, Heinz Huber contra Bundesrepublik Deutschland, 18 de diciembre de 2008, párr. 52. ↑
SEPD (2017) Necessity toolkit: assessing the necessity of measures that limit the fundamental right to the protection of personal data, p.5. Supervisor Europeo de Protección de Datos, Bruselas. Disponible en: https://edps.europa.eu/data-protection/our-work/publications/papers/necessity-toolkit_en (consultado el 15 de mayo de 2020); ICO (sin fecha) Lawful basis for processing. Oficina del Comisario de Información, Wilmslow. Disponible en: https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/lawful-basis-for-processing/ (consultado el 15 de mayo de 2020). ↑
Véase TJUE, asuntos acumulados C92/09 ‑y C93/09‑, Volker und Markus Schecke GbR y Hartmut Eifert contra Land Hessen, 9 de noviembre de 2010. ↑
ENISA (2015) Privacy by design in big data. Agencia de Ciberseguridad de la Unión Europea, Atenas / Heraklion, p.23. Disponible en: www.enisa.europa.eu/publications/big-data-protection (consultado el 28 de mayo de 2020). ↑
CIPL (2020) Inteligencia artificial y protección de datos: cómo regula el GDPR la IA. Centre for Information Policy Leadership, Washington DC / Bruselas / Londres, p.13. Disponible en: www.informationpolicycentre.com/uploads/5/7/1/0/57104281/cipl-hunton_andrews_kurth_legal_note_-_how_gdpr_regulates_ai__12_march_2020_.pdf (consultado el 15 de mayo de 2020). ↑
Véase : www.ritchieng.com/machinelearning-learning-curve/ (consultado el 28 de mayo de 2020). ↑
Oliinyk, H. (2018) Por qué y cómo deshacerse bien de la maldición de la dimensionalidad (con visualización de conjunto de datos de cáncer de mama). Hacia la ciencia de datos, 20 de marzo. Disponible en: https://towardsdatascience.com/why-and-how-to-get-rid-of-the-curse-of-dimensionality-right-with-breast-cancer-dataset-7d528fb5f6c0 (consultado el 15 de mayo de 2020). ↑
AEPD (2020) Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Agencia Española Protección Datos, Madrid, p.39-40. Disponible en: www.aepd.es/sites/default/files/2020-02/adecuacion-rgpd-ia.pdf (consultado el 15 de mayo de 2020). ↑
Autoridad Noruega de Protección de Datos (2018) Inteligencia artificial y privacidad. Autoridad Noruega de Protección de Datos, Oslo. Disponible en: https://iapp.org/media/pdf/resource_center/ai-and-privacy.pdf (consultado el 15 de mayo de 2020). ↑