Sesgo: las causas
Home » IA » Marco general » Equidad, diversidad y no discriminación » Disposiciones del RGPD » Sesgo: las causas

Los sesgos pueden deberse a diversas causas y, cuando se recopilan datos, éstos pueden contener sesgos, imprecisiones, errores y equivocaciones construidos socialmente. Hay múltiples razones que explican estos sesgos. A veces, puede ocurrir que los conjuntos de datos estén sesgados debido a acciones malintencionadas. Introducir datos maliciosos en un sistema de IA puede cambiar su comportamiento, sobre todo en los sistemas de autoaprendizaje.[1] Por ejemplo, en el caso del chatbot Tay, desarrollado por Microsoft, un gran número de internautas empezaron a publicar comentarios racistas y sexistas que sirvieron para alimentar el algoritmo. Como resultado, Tay empezó a enviar tuits racistas y sexistas tras unas pocas horas de funcionamiento. En otros casos, los datos son simplemente de mala calidad y esto crea sesgos. Por ejemplo, los datos tomados de plataformas de medios sociales presentan graves riesgos para los investigadores, debido a las características del entorno en línea, que no garantiza la exactitud y representatividad de los datos.

Otra razón de los sesgos son los datos de entrenamiento desequilibrados (véase el recuadro 8), que surgen cuando la proporción de diferentes categorías en los datos de entrenamiento no está equilibrada. Por ejemplo, en el contexto de los ensayos clínicos, puede haber muchos más datos de hombres que de mujeres. En estos casos, es probable que el modelo de IA resultante discrimine a las mujeres. Por lo tanto, las cuestiones relacionadas con la composición de las bases de datos utilizadas para el entrenamiento plantean problemas éticos y jurídicos cruciales, no sólo cuestiones relacionadas con la eficiencia o de carácter técnico.

Cuadro 8. Sesgos causados por una formación de datos desequilibrada

El caso Beauty.AI

Lanzada en 2016, la herramienta Beauty.AI se creó para seleccionar a “la primera reina o rey de la belleza juzgada por robots”, utilizando algoritmos de reconocimiento facial y de edad. Siete mil personas enviaron sus fotos a través de una app, pero la mayoría de las 44 ganadoras eran blancas; solo un puñado eran asiáticas, y solo una tenía la piel oscura. Y ello a pesar de que, aunque la mayoría de los concursantes eran blancos, muchas personas de color enviaron fotos, incluidos grandes grupos de África e India. Esto se consideró inmediatamente un resultado racista, debido a una mala selección del conjunto de datos de entrenamiento. El principal problema era que los datos que el proyecto utilizaba para establecer estándares de belleza estaban compuestos principalmente por personas blancas. Aunque los desarrolladores no construyeron el algoritmo para tratar la piel clara como signo de belleza, los datos de entrada llevaron efectivamente a los jueces robot a llegar a esa conclusión.[2]

La herramienta de reclutamiento de Amazon

En diciembre de 2018, Amazon desechó su herramienta de reclutamiento de IA cuando la compañía descubrió que el sistema de IA mostraba sesgos contra las mujeres. Amazon había estado construyendo programas informáticos desde 2014 para revisar los currículos de los solicitantes de empleo, con el objetivo de mecanizar la búsqueda de los mejores talentos. La herramienta utilizaba IA para puntuar a los candidatos de una a cinco estrellas. En 2015, sin embargo, Amazon descubrió que la herramienta no estaba puntuando a los candidatos para puestos de desarrollador de software y otros puestos técnicos de forma neutral en cuanto al género. Esto se debió a que los modelos informáticos de Amazon fueron entrenados para examinar a los solicitantes mediante la observación de patrones en los currículos enviados a la empresa durante un período de 10 años. La mayoría procedían de hombres, lo que refleja el predominio masculino en el sector tecnológico.[3]

En tercer lugar, los datos de entrenamiento pueden reflejar discriminaciones pasadas producidas por tendencias sociales (véase el recuadro 9). Si los controladores utilizan datos históricos, deben ser conscientes de las probables diferencias entre los contextos sociales en comparación con la actualidad. De lo contrario, los sesgos serán inevitables. A veces, los sesgos proceden de los diferentes contextos sociales de la comunidad que proporcionó los datos y la comunidad que debe utilizar el algoritmo. Si el controlador no presta especial atención a este aspecto, es probable que la herramienta también contenga sesgos.

Recuadro 10. Sesgos producidos por las tendencias sociales

En el pasado, las solicitudes de préstamo de las mujeres se rechazaban con más frecuencia que las de los hombres, debido a los prejuicios. En este caso, es probable que cualquier modelo de IA entrenado con datos históricos reproduzca el mismo patrón de discriminación. Estos problemas pueden producirse incluso si los datos de entrenamiento no contienen ninguna característica protegida, como el sexo o la raza. Una serie de características de los datos de entrenamiento suelen estar estrechamente correlacionadas con las características protegidas (por ejemplo, ocupación, raza, etc.). Estas “variables proxy” permiten que el modelo reproduzca patrones de discriminación asociados a esas características, aunque sus diseñadores no lo pretendieran.

Estos problemas pueden darse en cualquier modelo estadístico. Sin embargo, es más probable que se produzcan en los sistemas de IA porque pueden incluir un mayor número de características y pueden identificar combinaciones complejas de características que son sustitutos de características protegidas. Muchos métodos modernos de aprendizaje automático son más potentes que los enfoques estadísticos tradicionales porque son mejores a la hora de descubrir patrones no lineales en datos de alta dimensión. Sin embargo, estos también incluyen patrones que reflejan discriminación.[4]

Por último, es posible que los sesgos estén causados por una herramienta de IA mal diseñada (véase el recuadro 11). Puede ocurrir que el diseñador introduzca correlaciones por aproximación que no se ajusten bien a la realidad. Si es así, el modelo hará predicciones inexactas, ya que sus bases conceptuales no son sólidas.

Cuadro 11. Sesgo causado por una herramienta de IA mal diseñada: algoritmos

El sistema sanitario estadounidense utiliza algoritmos comerciales para orientar las decisiones sanitarias. Obermeyer et al.[5] hallaron indicios de sesgo racial en un algoritmo muy utilizado, lo que significaba que, entre los pacientes negros y blancos a los que el algoritmo asignaba el mismo nivel de riesgo, los negros estaban más enfermos que los blancos. Los autores calcularon que este sesgo racial redujo en más de la mitad el número de pacientes negros identificados para recibir cuidados adicionales. El sesgo se produjo porque el algoritmo utilizó los costes sanitarios como indicador de las necesidades sanitarias. Se gastó menos dinero en pacientes negros con el mismo nivel de necesidad que en pacientes blancos, por lo que el algoritmo concluyó falsamente que los pacientes negros estaban más sanos que los pacientes blancos igualmente enfermos. En realidad, el menor gasto se debía a una serie de factores con sesgo racial, como el diferente acceso al tratamiento, los niveles de confianza en el sistema, los desequilibrios causados por los prestadores de asistencia sanitaria, etc.

 

 

  1. Grupo de expertos de alto nivel sobre IA (2019) Ethics guidelines for trustworthy AI. Comisión Europea, Bruselas, p.17. Disponible en: https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai (consultado el 20 de mayo de 2020).
  2. Levin, s. (2016) ‘a beauty contest was judged by AI and the robots didn’t like dark skin’, The Guardian, 8 de septiembre. Disponible en: www.theguardian.com/technology/2016/sep/08/artificial-intelligence-beauty-contest-doesnt-like-black-people (consultado el 26 de mayo de 2020).
  3. Dastin, J. (2018) ‘Amazon desecha herramienta secreta de reclutamiento de IA que mostró sesgo contra las mujeres’, Reuters, 10 de octubre. En: www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  4. ICO (2020) AI auditing framework: draft guidance for consultation, p.54. Oficina del Comisario de Información, Wilmslow. Disponible en: https://ico.org.uk/media/about-the-ico/consultations/2617219/guidance-on-the-ai-auditing-framework-draft-for-consultation.pdf (consultado el 26 de mayo de 2020).
  5. Obermeyer, Z. et al. (2019) ‘Diseccionando el sesgo racial en un algoritmo utilizado para gestionar la salud de las poblaciones’, Science, 25 de octubre, 447-453.

 

Ir al contenido