Los conjuntos de datos pueden obtenerse de diferentes maneras. En primer lugar, el programador puede optar por adquirir u obtener acceso a una base de datos que ya ha sido construida por otra persona. Si este es el caso, el responsable debe tener especial cuidado, ya que hay muchas cuestiones legales relacionadas con la adquisición de acceso a la base de datos (véase la sección “Adquisición de acceso a una base de datos” en el capítulo “Acciones y herramientas”).
En segundo lugar, la alternativa más común consiste en crear una base de datos. Obviamente, en este caso los responsables tienen que asegurarse de que cumplen con todos los requisitos legales impuestos por el RGPD para crear una base de datos (véase la sección “Creación de una base de datos” en el capítulo “Acciones y herramientas”).
En tercer lugar, a veces los desarrolladores eligen un camino alternativo. Mezclan datos con licencia de terceros entre sí o con el propio conjunto de datos de los responsables del tratamiento, para crear un enorme conjunto de datos para el entrenamiento y otro para la validación. Esto podría plantear algunos problemas, como por ejemplo la posibilidad de que la combinación de estos datos personales proporcione alguna información adicional sobre los interesados. Por ejemplo, podría permitir al responsable identificar a los interesados, algo que antes no era posible. Eso podría implicar la desanonimización de los datos anonimizados y la creación de nueva información personal que no estaba contenida en el conjunto de datos original, una circunstancia que traería consigo dramáticos problemas éticos y legales. Por lo tanto, la reidentificación debe comprobarse mediante métodos como las técnicas de k-anonimato, l-diversidad o t-cercanía.
Otro problema común es que la base legitimadora inicial para el tratamiento de los datos recogidos, en cada conjunto de datos, es diversa. Si un responsable del tratamiento fusiona los conjuntos de datos y luego una de las bases jurídicas deja de ser aplicable, ese responsable se enfrenta a una situación terrible. Por ejemplo, si una de las bases de datos se creó sobre la base del consentimiento y algunos de los interesados retiran su consentimiento, el responsable tendrá que eliminarlos del conjunto de datos fusionado. Esto podría ser realmente difícil de hacer en la práctica.
Por otra parte, la nueva información producida de esta manera también puede basarse en probabilidades o conjeturas, y por lo tanto ser falsa, o contener sesgos en la representación de las personas (véase el apartado “5.2. Disposiciones del RGPD: el principio de protección de datos lealtad y sesgos”). Por lo tanto, los responsables del tratamiento deben tratar de evitar estas consecuencias asegurándose de que la fusión de conjuntos de datos no vaya en contra de los derechos e intereses de los titulares de los datos.
Por último, si los responsables del tratamiento utilizan varios conjuntos de datos que persiguen fines diferentes, deben aplicar medidas adecuadas para separar las distintas actividades de tratamiento. De lo contrario, podrían utilizar fácilmente los datos recogidos con una finalidad para actividades diferentes. Esto podría plantear problemas relacionados con el principio de limitación de la finalidad.