Seleccionar los datos de forma que sirvan para evitar sesgos

Los sesgos son uno de los principales problemas del desarrollo de la IA, un problema que contraviene el principio de lealtad. Los sesgos pueden deberse a muchas cuestiones diferentes. Cuando se recogen los datos, pueden contener sesgos, inexactitudes, errores y fallos construidos socialmente. A veces, puede ocurrir que los conjuntos de datos estén sesgados debido a acciones maliciosas. Introducir datos maliciosos en un sistema de IA puede cambiar su comportamiento, sobre todo en los sistemas de autoaprendizaje. Por ejemplo, en el caso del robot conversacional Tay, desarrollado por Microsoft, un gran número de internautas comenzó a publicar comentarios racistas y sexistas que sirvieron para alimentar el algoritmo. Como resultado final, Tay empezó a enviar tuits racistas y sexistas tras unas pocas horas de funcionamiento. En otras ocasiones, el principal problema es que el conjunto de datos no representa bien a la población considerada y para el fin previsto. Por lo tanto, contiene sesgos ocultos que se trasladarán a la herramienta entrenada que reflejará dichos sesgos, y esto podría llevar a que los resultados del modelo sean incorrectos o discriminatorios.

Por lo tanto, las cuestiones relacionadas con la composición de las bases de datos utilizadas para el entrenamiento plantean cuestiones éticas y jurídicas cruciales, no sólo cuestiones de eficiencia o de carácter técnico. Así pues, deben abordarse antes de entrenar el algoritmo. Los modelos de IA deben “ser entrenados utilizando datos relevantes y correctos y debe aprender qué datos enfatizar. El modelo no debe hacer hincapié en la información relativa al origen racial o étnico, las opiniones políticas, la religión o las creencias, la pertenencia a un sindicato, la genética, el estado de salud o la orientación sexual, si ello pudiera dar lugar a un tratamiento discriminatorio arbitrario.” Los sesgos identificables y discriminatorios deben eliminarse en la fase de construcción del conjunto de datos siempre que sea posible.

Cuadro 18: Entender los sesgos: el caso “gorila”

En 2015, un ingeniero de software, Jacky Alciné denunció que los algoritmos de reconocimiento de imágenes utilizados en Google Photos clasificaban a algunas personas negras como “gorilas.” Google reconoció el problema inmediatamente y prometió solucionarlo.

Este fallo se produjo por un grave error en la fase de entrenamiento. El algoritmo fue entrenado para reconocer a las personas con un conjunto de datos compuesto principalmente por fotografías de personas caucásicas. Como consecuencia, el algoritmo consideró que una persona negra era mucho más parecida al objeto “gorila” que había sido entrenado para reconocer, que al objeto “humano”. Este ejemplo muestra perfectamente la importancia de la selección de datos para el entrenamiento.

Así, para integrar los requisitos éticos en esta fase, el responsable del tratamiento debe evaluar las consecuencias éticas de la selección de datos en relación con la diversidad y realizar cambios, si es necesario. En efecto, el responsable del tratamiento “debe utilizar procedimientos matemáticos o estadísticos adecuados para la elaboración de perfiles, aplicar las medidas técnicas y organizativas apropiadas para garantizar, en particular, que se corrijan los factores que dan lugar a inexactitudes en los datos personales y que se reduzca al mínimo el riesgo de errores, asegurar los datos personales de manera que se tengan en cuenta los riesgos potenciales para los intereses y derechos del interesado y que se eviten, entre otras cosas, los efectos discriminatorios sobre las personas físicas por razón de su origen racial o étnico, sus opiniones políticas, su religión o sus convicciones, su pertenencia a un sindicato, su situación genética o sanitaria o su orientación sexual, o que den lugar a medidas que tengan tales efectos.”

Los responsables del tratamiento deben tener siempre presente que lo que hace que esta cuestión sea tan específica es que la selección de un conjunto de datos para el entrenamiento implica la toma de decisiones y elecciones a veces de forma casi inconsciente (mientras que la codificación de un algoritmo tradicional y determinista es siempre una operación deliberada). Quien entrena un algoritmo incorpora en cierto modo su propia forma de ver el mundo, los valores o, al menos, los valores que son más o menos directamente inherentes a los datos recogidos del pasado. Esto significa que los equipos encargados de seleccionar los datos que se integrarán en los conjuntos de datos deben estar compuestos por personas que garanticen la diversidad que se espera que muestre el desarrollo de la IA. En cualquier caso, los conocimientos jurídicos sobre la normativa antidiscriminatoria podrían ser relevantes en este punto.