Nueva herramienta contra sesgos en la inteligencia artificial de Google

Herramienta para entrenar la inteligencia artificial de Google

Que los algoritmos de inteligencia artificial de Google y otras empresas resultaran discriminatorios por razones de raza o género impactó a toda la comunidad tecnológica. ¿Cómo podía ser?

Pues bien, el gigante tecnológico acaba de lanzar Know Your Data, una herramienta que pretende poner fin al sesgo de los datos usados para entrenar la inteligencia artificial.

Un caso real de sesgo en machine learning

Imagina esto: desarrollamos un algoritmo que analiza cientos de miles de cuentas bancarias para determinar la asignación de crédito en función de incontables variables. 

Y empezamos el proceso de machine learning con bases de datos reales e históricos de asignación de crédito. 

Al tiempo, nos damos cuenta de que este algoritmo está asignando menos crédito a personas afrodescendientes o a mujeres. 

Es decir, como los datos que la IA está utilizando para entrenarse están plagados de sesgos socioculturales, los nuevos cálculos de esta inteligencia, también. 

Y así, en lugar de asignar los créditos de forma más objetiva y neutral, las IA continúan perpetuando discriminaciones por razones de etnia o género.

Este es un caso real descubierto en un estudio, pero la problemática ha crecido rápidamente hasta dar lugar al nacimiento del concepto de xIA o Inteligencia Artificial Explicable

Esta es una tendencia que pretende hacer más transparentes y comprensibles los procesos por los cuales las IA toman decisiones.

Y es en el contexto de esta problemática donde la inteligencia artificial de Google entra en juego, con su nueva herramienta Know Your Data.

¿Cómo funciona la herramienta Know Your Data de Google?

Todo empieza con los datos.Son la base de gran parte de la investigación y el desarrollo del machine learning.

Ayudan a estructurar lo que aprende un algoritmo y cómo se evalúan y comparan los modelos.

Sin embargo, la recopilación y el etiquetado de los datos pueden ser complicados debido a sesgos, limitaciones de acceso a datos y los problemas de privacidad.

Como resultado, los conjuntos de datos de aprendizaje automático pueden reflejar sesgos sociales injustos en relación con la raza, el género, la edad, etc.

Y la inteligencia artificial de Google, como todos los demás algoritmos que se están desarrollando y entrenando, tampoco está libre de esto. 

De ahí la necesidad de una herramienta que ayude a detectar en los datos sesgos que a simple vista, no se detectan.

Know Your Data (KYD) ayuda a los equipos de investigación de machine learning, de productos y de cumplimiento legal, a entender los sets KYD ofrece una serie de funciones que permiten a los usuarios explorar y examinar conjuntos de datos de aprendizaje automático: los usuarios pueden filtrar, agrupar y estudiar correlaciones basadas en anotaciones ya presentes en un determinado conjunto de datos. 

Fuente: Google ai

Además, Google ha desarrollado en esta herramienta una funcionalidad que presenta etiquetas calculadas automáticamente a partir de la API Cloud Vision de Google.

Asi, de de forma sencilla los usuarios puedan encontrar señales que no estaban presentes originalmente en el conjunto de datos.

Cómo va a servir Know Your Data a la inteligencia artificial de google en la práctica

Google ha compartido un primer caso de uso de su herramienta detectando discriminaciones por género o edad en el análisis de sets de datos visuales.

Ejemplo de set de datos para entrenar la inteligencia artificial de Google

En concreto, analizando de la base de datos COCO Captions unas 300.000 imágenes de personas realizando actividades y las anotaciones sobre ellas. Y ha confirmado sesgos en los datos.

Para realizar el análisis, se examina la relación entre dos señales diferentes en un conjunto de datos.

Esto es, cuantas veces suelen aparecer juntas en comparación con lo que cabría esperar por pura probabilidad o azar.

Por ejemplo, cuántas veces los términos “joven” y “correr” o “anciano” y “correr” aparecen representados juntos.

Cada celda indica una correlación positiva (color azul) o negativa (color naranja) entre dos valores de señal específicos junto con la fuerza de esa correlación.

Ejemplo de funcionamiento de herramienta Know Your Data para entrenar la inteligencia artificial de Google

Entre los sesgos detectados, destacan la escasez de imágenes de mujeres interpretando música, practicando ‘skate’, saltando o haciendo ‘snowboard’ frente a los hombres.

Sin embargo, las mujeres aparecen mayoritariamente representadas en actividades como cocinar o hacer la compra. 

Y también asociadas a las palabras como “guapa”, “bonita” y similares (en inglés no existe el género en adjetivos, la misma palabra sirve para todos).

Con Know Your Data, Google también ha detectado un sesgo de representación en actividades por edad.

En concreto, un menor número de personas mayores de 65 años realizando actividades como bailar, nadar o jugar con respecto a las personas jóvenes.

La herramienta se encuentra todavía en versión beta pero ya ofrece a los usuarios varias decenas de datasets visuales. Y tiene previsión de seguir incorporando nuevas en el futuro. 

Noticias y Publicaciones

Cómo ser ingeniero de datos: funciones, skills y salario

Cómo ser ingeniero de datos: funciones, skills y salario

¿Quieres aprender sobre uno de los perfiles más demandados en el mercado laboral? En este artículo te contamos como ser ingeniero de datos. ...
Cómo retener talento sin recurrir al dinero usando el salario emocional

Cómo retener talento sin recurrir al dinero usando el salario emocional

Viajes, salud, formación, mascotas... Aprende a usar el salario emocional para fidelizar empleados, como ya lo están haciendo otras empresas. ...
Hablamos con la judoka Marta García, medalla de plata en el Campeonato de Europa Junior

Hablamos con la judoka Marta García, medalla de plata en el Campeonato de Europa Junior

Entrevistamos a la judoka Marta García, medalla de plata en el Campeonato de Europa Junior y deportista del Judo Club Fontenebro. ...
¿Por qué es tan importante el perfil de Científico de Datos en el 2022?

¿Por qué es tan importante el perfil de Científico de Datos en el 2022?

¿Te imaginas todo lo que podrías hacer si conocieras en qué momento un cliente puede perder su interés por tus servicios o productos? El científico de datos puede ayudar a las empresas a darle respuesta a esta y muchas interrogantes más. ¿Qué es un científico de datos? Un científico de datos es ...
¿Es recomendable externalizar servicios? + Ejemplos de outsourcing

¿Es recomendable externalizar servicios? + Ejemplos de outsourcing

Conoce os argumentos a favor de de externalizar servicios y ejemplos de outsourcing fácil ...