La inteligencia artificial llamada Agent57 ha aprendido a jugar a los 57 juegos de Atari en el entorno de aprendizaje Arcade, una colección de juegos clásicos que los investigadores utilizan para probar los límites de sus modelos de aprendizaje profundo. Desarrollado por DeepMind, Agent57 utiliza el mismo algoritmo de aprendizaje de refuerzo profundo para lograr niveles de juego sobrehumanos incluso en juegos con los que las IAs anteriores han tenido dificultades. Ser capaz de aprender 57 tareas diferentes hace que Agent57 sea más versátil que los anteriores IA de juegos.
La inteligencia artificial que se divierte con los juegos de atari
Lo cierto es que los videojuegos son una gran manera de probar las IA. Proporcionan una variedad de retos que obligan a una IA a idear una serie de estrategias y, sin embargo, tienen una clara medida de éxito, una puntuación contra la que entrenarse.
Hay cuatro juegos Atari en particular que han demostrado ser más difíciles de superar. En «La venganza y la trampa de Moctezuma», la IA debe probar muchas estrategias diferentes antes de dar con una ganadora. Y en Solaris y Esquí puede haber largas esperas entre la acción y la recompensa, lo que hace difícil para que una IA pueda aprender qué movimientos son los que mejor se pagan.
Para afrontar estos retos, Agent57 reúne múltiples mejoras que DeepMind ha hecho a su red Deep-Q, la IA que venció por primera vez a un puñado de juegos de Atari en 2012, incluyendo una forma de memoria que le permite basar sus decisiones en cosas que ha visto anteriormente en el juego y sistemas de recompensa que animan a la IA a explorar sus opciones más a fondo antes de decidirse por una estrategia. Estas diversas técnicas son gestionadas por un metacontrolador, que equilibra las compensaciones entre seguir adelante con una estrategia particular y hacer más exploración.
¿Por qué ha supuesto un reto que una inteligencia artificial juegue a videojuegos?
A pesar de su éxito, los mejores modelos de aprendizaje profundo que tenemos hoy en día no son muy versátiles. La mayoría tienden a ser buenos en una cosa y sólo en una cosa. Entrenar una IA para sobresalir en más de una tarea es uno de los mayores retos abiertos en el aprendizaje profundo. La capacidad de aprender 57 tareas diferentes hace que el Agente57 sea más versátil que las IA de juegos anteriores, pero todavía no puede aprender a jugar más de un juego a la vez. Agent57 puede aprender a jugar 57 juegos, pero no puede aprender a jugar 57 juegos a la vez. Necesita volver a entrenarse para cada nuevo juego aunque puede usar el mismo algoritmo para hacerlo. De esta manera el Agent57 es similar al AlphaZero, el algoritmo de aprendizaje de refuerzo profundo de DeepMind, que puede aprender a jugar al ajedrez, al Go y al shogi, pero de nuevo, no todos a la vez.
En definitiva, la verdadera versatilidad, que le llega tan fácilmente a un niño humano, está todavía muy lejos del alcance de AIs.