Google lanza una herramienta para ayudar a comprender los datos que entrenan la IA

Los datos son la base de gran parte de la investigación y el desarrollo del aprendizaje automático (ML), lo que ayuda a estructurar lo que aprende un algoritmo de aprendizaje automático y cómo se evalúan y comparan los modelos. Sin embargo, la recopilación y el etiquetado de datos pueden complicarse por sesgos inconscientes, limitaciones de acceso a los datos y preocupaciones por la privacidad, entre otros desafíos. Como resultado, los conjuntos de datos de aprendizaje automático pueden reflejar sesgos sociales injustos a lo largo de dimensiones de raza, género, edad y más.
Google ha lanzado su nueva herramienta para la exploración de datos, ‘Know Your Data0, que busca ayudar a los creadores de nuevos algoritmos de Inteligencia Artificial (IA) a que comprendan mejor los datos que usan para entrenarlos y evitar problemas como los sesgos.
La nueva herramienta de Google, que se incorpora a su kit de herramientas de IA responsable, tiene el objetivo de mejorar la calidad de los datos que se usan para el aprendizaje automático, ayudando a mitigar problemas como los sesgos por edad, sexo o raza, como ha informado la compañía en un comunicado.
‘Know Your Data’ ofrece una serie de funciones que permiten a los usuarios explorar y examinar los conjuntos de datos utilizados para el aprendizaje automático. Es posible filtrarlos, agruparlos y estudiar las correlaciones basándose en anotaciones ya presentes en las bases de datos.
La herramienta también proporciona etiquetas generadas automáticamente por la API en la nube de Google Cloud Vision, de manera que los usuarios pueden acceder a señales que no estaban presentes en la base de datos original.
Google ha demostrado el funcionamiento de su herramienta utilizando la base de datos COCO Captions, con 300,000 imágenes de personas y anotaciones sobre ellas. De esta manera, ha demostrado la existencia de sesgos de género en las actividades que hacen los sujetos fotografiados y también en las anotaciones que las describen.
Entre estos sesgos se encuentra la escasez de imágenes de mujeres interpretando música, practicando ‘skate’, saltando o haciendo ‘snowboard’, mientras que ellas son mayoritarias en actividades como cocinar o hacer la compra. Además, las descripciones de las imágenes dejan entrever una mirada masculina, ya que a ellas se las asocia más con adjetivos como ‘atractiva’ o ‘sexy’.
Otro sesgo que ha confirmado ‘Know Your Data’ a partir de la base de datos analizada es el sesgo de edad, con un menor número de personas mayores de 65 años realizando actividades como bailar, nadar o jugar con respecto a las personas jóvenes.