DeepMind aprende a jugar a 57 videojuegos de Atari
La empresa especializada en Inteligencia Artificial (IA) DeepMind ha adaptado sus herramientas para que aprendan a jugar a 57 videojuegos retro de consolas clásicas de Atari, logrando en todos ellos superar a la media de los jugadores humanos.
Agent57, como se ha denominado a la IA de DeepMind, es la primera IA que logra mediante un refuerzo del aprendizaje automático superar el rendimiento medio de los jugadores humanos en todos los juegos de la Atari 2600, como ha asegurado la empresa en un comunicado.
Los 57 videojuegos constituyen todos los títulos que se lanzaron para la consola clásica Atari 2600, que la empresa estadounidense Atari lanzó al mercado en 1977 y que hizo populares los cartuchos intercambiables. Entre ellos se encuentran Alien, Pitfall, y La venganza de Montezuma, Skiing y Solaris, entre otros.
Our newest blog explores Agent57, the first deep reinforcement learning agent to outperform the human baseline on all 57 Atari games. Read more here: https://t.co/O6zOj42996
— DeepMind (@DeepMind) March 31, 2020
Estos títulos proporcionan una amplia variedad de desafíos y se utilizan a menudo como referencia para crear algoritmos versátiles en diferentes tareas con un rendimiento similar o superior al de las personas, como explica la compañía.
Para mejorar los resultados de la IA en los juegos, Agent57 hace uso de un algoritmo que logra una exploración más eficiente y lo combina con un metacontrolador que adapta la exploración y el comportamiento de la IA a corto y largo plazo.
El sistema hace uso de una memoria para almacenar la exploración a corto plazo que permite que la IA aprenda solo de sus acciones directas, combinando un modelo de redes neuronales con un aprendizaje guiado para mejorar su rendimiento a través de las repeticiones.
A esto se añade una forma adicional de memoria, denominada memoria episódica, que funciona más a largo plazo. Así, detecta nuevas partes del juego y las recompensas asociadas a ella, encontrando un equilibrio entre la exploración y conseguir puntuaciones altas.
Por su parte, el metacontrolador también contribuye a lograr un equilibrio entre exploración y buenos resultados, logrando aprender cuál es la mejor combinación entre ir rápido y descubrir nuevas partes del juego, y adaptándose a ello de forma dinámica.
A pesar de los buenos resultados de Agent57 en comparación con las herramientas actuales, DeepMind ha destacado que “todos los algoritmos actuales están lejos de lograr un rendimiento óptimo en algunos juegos“.