Comprensión de los datos - Guidelines Panelfit

Descripción

“La fase de comprensión de los datos comienza con una recogida inicial de datos. A continuación, el analista procede a familiarizarse con los datos, a identificar los problemas de calidad de los mismos, a descubrir las primeras ideas sobre los datos o a detectar subconjuntos interesantes para formar hipótesis sobre la información oculta. La fase de comprensión de los datos comprende cuatro pasos, que incluyen la recopilación de los datos iniciales, la descripción de los datos, la exploración de los datos y la verificación de la calidad de los datos”.^[1]

Todos estos pasos tienen como objetivo identificar los datos disponibles. En esta fase, debe ser consciente de los datos con los que tendrá que trabajar y empezar a tomar decisiones sobre cómo se aplicarán los principales principios relacionados con la protección de datos. Debe consultar el documento de Ética y protección de datos del 14 de noviembre de 2018 para cumplir con los requisitos legales y éticos. En el caso de utilizar datos de redes sociales, la información proporcionada en el Recuadro 4 Uso de datos de “código abierto” en la página 13 es especialmente relevante.

También debe tener en cuenta que las bases de datos que contienen datos personales sobre juicios relacionados con condenas y delitos penales son sensibles, y que usted como desarrollador normalmente no podrá acceder a ellas.

Principales acciones abordar

En esta fase es necesario abordar un gran número de cuestiones fundamentales relacionadas con la protección de los datos personales. En función de las decisiones que se tomen, se establecerán adecuadamente principios como la minimización de datos, la privacidad por diseño o por defecto, la legalidad, la equidad y la transparencia, etc. Debe establecerse una comunicación entre los expertos en ética y derecho, por un lado, y los desarrolladores de proyectos, por otro, para poder hacer realidad los principios de “privacidad desde diseño” o “por defecto

Toma de decisiones sobre los tipos de datos que se van a tratar

De acuerdo con el RGPD “. El responsable del tratamiento aplicará las medidas técnicas y organizativas apropiadas con miras a garantizar que, por defecto, solo sean objeto de tratamiento los datos personales que sean necesarios para cada uno de los fines específicos del tratamiento. Esta obligación se aplicará a la cantidad de datos personales recogidos, a la extensión de su tratamiento, a su plazo de conservación y a su accesibilidad. Tales medidas garantizarán en particular que, por defecto, los datos personales no sean accesibles, sin la intervención de la persona, a un número indeterminado de personas físicas.”^[2] (ver Protección de datos desde el diseño y por defecto en el capítulo de Conceptos). Tal exigencia debe tenerse especialmente en cuenta durante esta etapa, ya que las decisiones sobre el tipo de datos que se utilizarán suelen tomarse en este momento.

Así, hay que asegurarse de si realmente se necesitan grandes cantidades de datos. Los “datos inteligentes” focalizados pueden ser mucho más útiles que los grandes datos. Por supuesto, utilizar datos inteligentes y bien preparados puede suponer un gran esfuerzo de unificación, homogeneización, etc., pero ayudará a aplicar el principio de minimización de datos de una forma mucho más eficiente. Para ello, es esencial disponer de conocimientos especializados para seleccionar las características pertinentes. Este paso también implica la comprobación de la necesidad del tratamiento para cada categoría de datos; lo que conlleva demostrar que no podrían aplicarse medidas o métodos alternativos, menos infractores desde el punto de vista de la protección de datos y los derechos humanos, para lograr el mismo resultado.

Además, debe intentar limitar la resolución de los datos a lo mínimamente necesario para los fines que persigue el tratamiento. También debe determinar un nivel óptimo de agregación de datos antes de iniciar el tratamiento (véase la parte Adecuados, pertinentes y limitados, sección Minimización de datos en el capítulo Principios). En el caso de la IA aplicada a la predicción, prevención o investigación de la delincuencia, el posible nivel de agregación de datos, es decir, la anonimización de los datos, es indudablemente limitado, al menos para las implementaciones y usos posteriores de los sistemas desarrollados. Dado que uno de los objetivos principales es identificar a los (posibles) autores, debe ser posible al menos (re)-personalizar los datos sobre las posibles amenazas.

La minimización de los datos podría ser complicada en el caso del aprendizaje profundo, donde la diferenciación por características podría ser imposible. Existe una forma eficaz de regular la cantidad de datos recopilados y de aumentarla solo si parece necesario: la curva de aprendizaje. Hay que empezar recogiendo y utilizando una cantidad limitada de datos de entrenamiento, y luego supervisar la precisión del modelo a medida que se alimenta con nuevos datos.

Comprobar el uso legítimo de los datos

Los conjuntos de datos pueden obtenerse de diferentes maneras. En primer lugar, el desarrollador puede optar por adquirir u obtener acceso a una base de datos que ya ha sido construida por otra persona. Si este es el caso, debe tener especial cuidado, ya que hay muchas cuestiones legales relacionadas con la adquisición de acceso a una base de datos (véase la sección Adquiriendo acceso a una base de datos en el capítulo Acciones y herramientas).^[3]

En segundo lugar, la alternativa más común consiste en crear una base de datos. Obviamente, en este caso tiene que asegurarse de que cumple con todos los requisitos legales impuestos por el RGPD (véase la sección Creando una base de datos en el capítulo Acciones y herramientas).

En tercer lugar, puede elegir una vía alternativa. Puede mezclar datos con licencia de terceros con su propio conjunto de datos para crear un enorme conjunto de datos de entrenamiento y otro para fines de validación. Esto podría conllevar algunas cuestiones, como la posibilidad de que la combinación de diferentes conjuntos de datos proporcione alguna información adicional sobre los sujetos de los datos. Por ejemplo, podría permitir identificar a los sujetos de los datos, algo que antes no era posible, utilizando sólo uno de los conjuntos de datos. Esto podría implicar la desanonimización de los datos anonimizados y la creación de nueva información personal que no estaba contenida en el conjunto de datos original. Esta situación implicaría importantes problemas éticos y jurídicos. Por ejemplo, “si los sujetos de los datos dieron su consentimiento informado para el tratamiento de la información personal en los conjuntos de datos originales para fines particulares, no necesariamente dieron por extensión su permiso para la fusión de conjuntos de datos y para la extracción de datos que revelen nueva información. La nueva información producida de este modo también puede basarse en probabilidades o conjeturas, y por tanto ser falsa, o contener sesgos en la representación de las personas.”^[4] Por lo tanto, debe tratar de evitar estas consecuencias asegurándose de que la fusión de conjuntos de datos no vaya en contra de los derechos e intereses de los interesados.

Por último, si utiliza varios conjuntos de datos que persiguen fines diferentes, debe aplicar medidas adecuadas para separar las distintas actividades de tratamiento. De lo contrario, podría utilizar fácilmente los datos para una finalidad para la que no han sido recogidos. Esto podría plantear problemas relacionados con el principio de limitación de la finalidad.

Tenga en cuenta que las medidas mencionadas anteriormente sólo son suficientes para la fase de ejecución del proyecto de investigación. El consentimiento informado tendrá, por lo general, una utilidad muy limitada en el contexto de la actividad policial. Lo mismo ocurre con la creación y el uso de datos ficticios o sintéticos. El uso de datos sintéticos todavía puede implicar problemas de reidentificación potencial, así como la cuestión de si se puede confiar en tales datos cuando se entrenan algoritmos de IA. Todas estas medidas pueden contribuir eficazmente a mitigar o eliminar los problemas éticos o legales en la fase de investigación. Es esencial asegurarse de que los conjuntos de datos necesarios para las implementaciones en el mundo real también cumplen con los requisitos éticos y legales impuestos por la normativa de la UE y de los estados miembros nacionales; esto también es válido para el uso de conjuntos de datos propiedad de la policía o del gobierno. También hay que tener en cuenta que puede ser difícil o incluso imposible acceder a suficientes conjuntos de datos reales de gran tamaño, necesarios para el entrenamiento práctico de la herramienta de IA.

Seleccionar las bases legitimadoras del tratamiento adecuadas

Debe decidir la base jurídica que utilizará para el tratamiento antes de iniciarlo, documentar su decisión (junto con los fines) e incluir las razones por las que ha hecho su elección (véase la sección de Responsabilidad proactiva en el capítulo Principios).

Debe seleccionar la base jurídica que mejor refleje la verdadera naturaleza de su tratamiento de datos personales. En caso de que haya participantes humanos, también hay que tener en cuenta la relación con los participantes y la finalidad del tratamiento. Esta decisión es clave, ya que no es posible cambiar la base jurídica del tratamiento si no hay razones sólidas que lo justifiquen (véase la sección Limitación de la finalidad en el capítulo Principios).

En el caso de las herramientas de IA desarrolladas con fines de predicción y prevención de la delincuencia, etc., hay que distinguir de nuevo entre la fase de investigación y las implementaciones posteriores. Para la fase de investigación, puede utilizar el consentimiento como fundamento jurídico para el tratamiento (véase la sección Consentimiento en el capítulo Conceptos principales), en función de la implicación concreta de los participantes humanos. Algunos ejemplos podrían ser las herramientas de IA que utilizan la identificación biométrica o la interpretación de datos de vídeo, que requieren la participación de seres humanos para las pruebas. El consentimiento también podría constituir un fundamento jurídico válido si se reutilizan datos ya recogidos para otro fin y el éste fue la base que permitió el uso primario de los datos. El RGPD permite la reutilización de datos con fines científicos y el artículo 5.1 (b) establece que el tratamiento posterior con fines de investigación científica no se considerará incompatible con los fines iniciales (“limitación de la finalidad”). Así pues, en principio, usted podría reutilizar esos datos sobre la base del consentimiento original. Sin embargo, debe tener en cuenta que, según el artículo 9.4 del RGPD, “los Estados miembros podrán mantener o introducir otras condiciones, incluidas limitaciones, en relación con el tratamiento de datos genéticos, datos biométricos o datos relativos a la salud.” Por lo tanto, puede ocurrir que su normativa nacional pertinente introduzca excepciones o condiciones específicas para la reutilización de los datos personales. En cualquier caso, debe recordar siempre que sus deberes de información se mantienen. Debe proporcionar al interesado, antes de cualquier tratamiento posterior de sus datos, información sobre esa otra finalidad y cualquier otra información pertinente, tal como se indica en el apartado 2 del artículo 13 del RGPD.

Tenga en cuenta que las disposiciones anteriores sólo son válidas para la realización de la investigación como tal. Los usos futuros de los sistemas desarrollados deben ajustarse a la legislación vigente de la UE y de los Estados miembros en materia de actividades policiales. Asimismo, tenga en cuenta que el desarrollo de tecnologías que no se ajusten a la normativa aplicable o a los principios éticos o valores europeos supondría un desperdicio de esfuerzos y recursos.

Reutilización de datos

En la actualidad, existe un animado debate sobre la reutilización de los datos con fines de investigación. Según el artículo 5.1 (b) del RGPD, el tratamiento posterior con fines científicos no se considerará incompatible con los fines iniciales. Por lo tanto, a menos que su normativa nacional establezca lo contrario, puede reutilizar los datos disponibles para fines de investigación, ya que éstos son compatibles con la finalidad original para la que fueron recogidos.

Sin embargo, el SEPD sostiene que, “para garantizar el respeto de los derechos del interesado, la prueba de compatibilidad prevista en el artículo 6, apartado 4, debe seguir considerándose antes de la reutilización de los datos para fines de investigación científica, en particular cuando los datos se recogieron originalmente para fines muy diferentes o fuera del ámbito de la investigación científica”. De hecho, según un análisis desde la perspectiva de la investigación médica, la aplicación de esta prueba debería ser sencilla”. Según esta interpretación, sólo debería reutilizar los datos personales si se dan las circunstancias del artículo 6.4. Por favor, compruebe también en este contexto la aplicabilidad del artículo 10 “El tratamiento de datos personales relativos a condenas e infracciones penales o a medidas de seguridad conexas basadas en el apartado 1 del artículo 6 sólo se efectuará bajo el control de la autoridad oficial o cuando el tratamiento esté autorizado por el Derecho de la Unión o de los Estados miembros que prevea garantías adecuadas para los derechos y libertades de los interesados.”

Colin Shearer, The CRISP-DM Model: The New Blueprint for Data Mining, p. 15 ↑
Artículo 25(2). ↑
Yeong Zee Kin, Legal Issues in AI Deployment, At: https://lawgazette.com.sg/feature/legal-issues-in-ai-deployment/ Accessed 15 May 2020 ↑
SHERPA, Guidelines for the Ethical Development of AI and Big Data Systems: An Ethics by Design approach, 2020, p 38. At: https://www.project-sherpa.eu/wp-content/uploads/2019/12/development-final.pdf Accessed 15 May 2020 ↑