CUANDO COVID-19 ENVIÓ a la gente a casa a principios de 2020, el informático Tom Zahavy redescubrió el ajedrez. Había jugado de niño y acababa de leer Deep Thinking (Pensamiento profundo), de Garry Kasparov, un libro de memorias sobre las partidas que el gran maestro disputó en 1997 contra Deep Blue, el ordenador de ajedrez de IBM. Veía vídeos de ajedrez en YouTube y el Gambito de la Reina en Netflix.
A pesar de su renovado interés, Zahavy no buscaba formas de mejorar su juego. "No soy un gran jugador", dice. "Me gustan más los rompecabezas de ajedrez", es decir, la disposición de las piezas, a menudo artificiosa y poco probable en una partida real, que desafía al jugador a encontrar formas creativas de obtener ventaja.
Los rompecabezas pueden ayudar a los jugadores a perfeccionar sus habilidades, pero más recientemente han contribuido a revelar las limitaciones ocultas de los programas de ajedrez. Uno de los rompecabezas más notorios, ideado por el matemático Sir Roger Penrose en 2017, coloca piezas negras más fuertes (como la reina y las torres) en el tablero, pero en posiciones incómodas. Un jugador humano experimentado, jugando con blancas, podría llevar fácilmente la partida a tablas, pero los potentes programas informáticos de ajedrez dirían que las negras tienen una clara ventaja. Esa diferencia, según Zahavy, sugería que, aunque los ordenadores podían derrotar a los mejores jugadores humanos del mundo, aún no podían reconocer y resolver todo tipo de problemas difíciles. Desde entonces, Penrose y otros han ideado extensas colecciones de rompecabezas que los ordenadores se esfuerzan por resolver.
El ajedrez ha sido durante mucho tiempo una piedra de toque para probar nuevas ideas en inteligencia artificial, y los rompecabezas de Penrose despertaron el interés de Zahavy. "Intentaba entender por qué estas posiciones son tan difíciles para los ordenadores, cuando al menos algunas de ellas las podemos resolver los humanos", explica. "Estaba completamente fascinado". Pronto se convirtió en un interés profesional: Como científico investigador en Google DeepMind, Zahavy explora enfoques creativos de resolución de problemas. El objetivo es idear sistemas de IA con un espectro de posibles comportamientos más allá de realizar una única tarea.
Un programa de ajedrez de IA tradicional, entrenado para ganar, puede no tener sentido en un rompecabezas de Penrose, pero Zahavy sospechaba que un programa formado por muchos sistemas diversos, trabajando juntos como un grupo, podría avanzar. Así que él y sus colegas desarrollaron una forma de entrelazar múltiples (hasta 10) sistemas de IA de toma de decisiones, cada uno optimizado y entrenado para diferentes estrategias, comenzando con AlphaZero, el potente programa de ajedrez de DeepMind. Según informaron en agosto, el nuevo sistema jugaba mejor que AlphaZero por sí solo y mostraba más habilidad y creatividad a la hora de resolver los rompecabezas de Penrose. Estas habilidades surgieron, en cierto sentido, de la autocolaboración: Si un enfoque se topaba con un muro, el programa simplemente recurría a otro.
Tom Zahavy ayudó a diseñar un sistema informático que juega al ajedrez de forma más creativa combinando los enfoques y estrategias de hasta 10 programas diferentes. CORTESÍA DE TOM ZAHAVY
Según Allison Liemhetcharat, científica informática de DoorDash que ha trabajado con enfoques multiagente para la resolución de problemas en robótica, este enfoque tiene sentido. "Con una población de agentes, hay una mayor probabilidad de que los rompecabezas estén en el dominio en el que al menos uno de los agentes fue entrenado".
El trabajo sugiere que equipos de diversos sistemas de IA podrían abordar eficazmente problemas difíciles mucho más allá del tablero de juego. "Este es un gran ejemplo de que buscar más de una forma de resolver un problema -como ganar una partida de ajedrez- aporta muchas ventajas", afirma Antoine Cully, investigador de IA del Imperial College de Londres que no participó en el proyecto de DeepMind. Lo comparó con una versión artificial de las sesiones humanas de brainstorming. "Este proceso de pensamiento conduce a soluciones creativas y eficaces que uno se perdería sin hacer este ejercicio".
Persiguiendo fracasos
Antes de incorporarse a DeepMind, Zahavy se interesó por el aprendizaje profundo por refuerzo, un área de la inteligencia artificial en la que un sistema utiliza redes neuronales para aprender alguna tarea mediante ensayo y error. Es la base de los programas de ajedrez más potentes (y se utiliza en otras aplicaciones de IA como los coches autoconducidos). El sistema parte de su entorno. En el ajedrez, por ejemplo, el entorno incluye el tablero de juego y las posibles jugadas. Si la tarea consiste en conducir un coche, el entorno incluye todo lo que rodea al vehículo. A continuación, el sistema toma decisiones, emprende acciones y evalúa lo cerca que está de su objetivo. A medida que se acerca al objetivo, acumula recompensas, y a medida que el sistema acumula recompensas mejora su rendimiento. La parte "profunda" de este enfoque describe las redes neuronales utilizadas para analizar y evaluar los comportamientos.
Primer plano de un robot jugando al ajedrez
El aprendizaje por refuerzo es la forma en que AlphaZero aprendió a convertirse en un maestro del ajedrez. DeepMind informó que durante las primeras nueve horas de entrenamiento del programa, en diciembre de 2017, jugó 44 millones de partidas contra sí mismo. Al principio, sus movimientos se determinaron al azar, pero con el tiempo aprendió a seleccionar movimientos con más probabilidades de conducir al jaque mate. Tras solo horas de entrenamiento, AlphaZero desarrolló la capacidad de derrotar a cualquier ajedrecista humano.
Pero por mucho éxito que tenga el aprendizaje por refuerzo, no siempre conduce a estrategias que reflejen una comprensión general del juego. En la última media década, Zahavy y otros observaron un aumento de los fallos peculiares que podían producirse en los sistemas entrenados con ensayo y error. Un sistema que juega a videojuegos, por ejemplo, puede encontrar un resquicio y averiguar cómo hacer trampas o saltarse un nivel, o puede quedarse atascado en un bucle repetitivo. Los rompecabezas del estilo de Penrose sugerían una especie de punto ciego, o fallo, en AlphaZero: no podía averiguar cómo abordar un problema que nunca había visto antes.
Pero quizá no todos los fallos sean simples errores. Zahavy sospechaba que los puntos ciegos de AlphaZero podían ser en realidad algo más: decisiones y comportamientos ligados a las recompensas internas del sistema. Según él, los sistemas de aprendizaje por refuerzo profundo no saben fracasar, ni siquiera reconocer el fracaso. La capacidad de fracasar está vinculada desde hace tiempo a la resolución creativa de problemas. "La creatividad tiene una cualidad humana", escribió Kasparov en Deep Thinking. "Acepta la noción del fracaso".
Antoine Cully ha creado robots capaces de aportar múltiples soluciones a un mismo problema. CORTESÍA DEL IMPERIAL COLLEGE DE LONDRES
Los sistemas de IA no suelen hacerlo. Y si un sistema no reconoce que ha fracasado en su tarea, puede que no intente otra cosa. En su lugar, seguirá intentando hacer lo que ya ha hecho. Esto es probablemente lo que lleva a los callejones sin salida de los videojuegos, o a quedarse atascado en algunos desafíos de Penrose, explica Zahavy. El sistema perseguía "extraños tipos de recompensas intrínsecas" que había desarrollado durante su entrenamiento. Cosas que desde fuera parecían errores eran probablemente consecuencia del desarrollo de estrategias específicas pero en última instancia infructuosas.
El sistema consideraba estas extrañas recompensas como pasos hacia un objetivo mayor, que en realidad no podía alcanzar, y no sabía si debía probar algo nuevo. "Intentaba darles sentido", afirma Zahavy.
Un juego mejor
Parte de la razón por la que estos fallos pueden resultar tan importantes -y tan útiles- se debe a lo que los investigadores reconocen como un problema de generalización. Aunque los sistemas de aprendizaje por refuerzo pueden desarrollar una estrategia eficaz para relacionar una situación determinada con una acción específica -lo que los investigadores denominan una "política"-, no pueden aplicarla a problemas diferentes. "Lo que suele ocurrir con el aprendizaje por refuerzo, independientemente del método, es que se obtiene la política que resuelve el caso concreto del problema sobre el que se ha entrenado, pero no se generaliza", explica Julian Togelius, informático de la Universidad de Nueva York y director de investigación de modl.ai.
Intentaba entender qué hace que estas posiciones [de ajedrez] sean tan difíciles para los ordenadores, cuando al menos algunas de ellas podemos resolverlas como humanos".
Zahavy consideró que los rompecabezas de Penrose requerían precisamente este tipo de generalización. Puede que AlphaZero no pudiera resolver la mayoría de los puzles porque estaba muy centrado en ganar partidas enteras, de principio a fin. Pero ese enfoque introducía puntos ciegos expuestos por la improbable disposición de las piezas en los puzles de Penrose. Tal vez, razonó, el programa podría aprender a superar el rompecabezas si tuviera suficiente espacio creativo para pensar y acceder a diferentes métodos de entrenamiento.
Así que él y sus colegas recopilaron primero un conjunto de 53 rompecabezas de Penrose y 15 rompecabezas de desafío adicionales. Por sí solo, AlphaZero resolvió menos del 4 por ciento de los rompecabezas de Penrose y menos del 12 por ciento del resto. Zahavy no se sorprendió: Muchos de estos rompecabezas fueron diseñados por maestros de ajedrez para confundir intencionadamente a los ordenadores.
A modo de prueba, los investigadores intentaron entrenar a AlphaZero para que jugara contra sí mismo utilizando la disposición de los rompecabezas de Penrose como posición inicial, en lugar del tablero completo de las partidas típicas. Su rendimiento mejoró espectacularmente: Resolvió el 96% de los rompecabezas de Penrose y el 76% del desafío. En general, cuando AlphaZero se entrenaba en un rompecabezas específico, podía resolver ese rompecabezas, igual que podía ganar cuando se entrenaba en un juego completo. Tal vez, pensó Zahavy, si un programa de ajedrez pudiera de algún modo tener acceso a todas esas versiones diferentes de AlphaZero, entrenado en esas posiciones diferentes, entonces esa diversidad podría despertar la capacidad de abordar nuevos problemas de forma productiva. Tal vez podría generalizar, en otras palabras, resolviendo no sólo los rompecabezas de Penrose, sino cualquier problema de ajedrez más amplio.
Su grupo decidió averiguarlo. Construyeron la nueva versión diversificada de AlphaZero, que incluye múltiples sistemas de IA que se entrenaron de forma independiente y en diversas situaciones. El algoritmo que gobierna el sistema en su conjunto actúa como una especie de casamentero virtual, explica Zahavy, diseñado para identificar qué agente tiene más posibilidades de éxito cuando llega el momento de hacer un movimiento. Zahavy y sus colegas también codificaron una "bonificación por diversidad", una recompensa para el sistema cada vez que extraía estrategias de una amplia selección de opciones.
Cuando el nuevo sistema se puso a jugar sus propias partidas, el equipo observó una gran variedad. La diversificada IA experimentó con aperturas nuevas y eficaces y con decisiones novedosas, pero acertadas, sobre estrategias específicas, como cuándo y dónde enrocar. En la mayoría de las partidas, derrotó a la AlphaZero original. El equipo también descubrió que la versión diversificada podía resolver el doble de rompecabezas de desafío que la original y más de la mitad del catálogo total de rompecabezas de Penrose.
"La idea es que en lugar de encontrar una solución, o una única política, que derrote a cualquier jugador, aquí [se utiliza] la idea de la diversidad creativa", dijo Cully.
Con acceso a más y diferentes juegos jugados, dijo Zahavy, el diversificado AlphaZero tenía más opciones para las situaciones difíciles cuando surgían. "Si puedes controlar el tipo de juegos que ve, básicamente controlas cómo generalizará", afirmó. Esas extrañas recompensas intrínsecas (y sus movimientos asociados) podrían convertirse en fortalezas para diversos comportamientos. Así, el sistema podría aprender a evaluar y valorar los distintos enfoques y ver cuándo tienen más éxito. "Descubrimos que este grupo de agentes puede realmente llegar a un acuerdo sobre estas posturas".
Y, lo que es más importante, las implicaciones van más allá del ajedrez.
Creatividad en la vida real
Cully afirma que un enfoque diversificado puede ayudar a cualquier sistema de IA, no sólo a los basados en el aprendizaje por refuerzo. Lleva mucho tiempo utilizando la diversidad para entrenar sistemas físicos, incluido un robot de seis patas al que se permitió explorar varios tipos de movimiento, antes de "lesionarlo" intencionadamente, permitiéndole seguir moviéndose utilizando algunas de las técnicas que había desarrollado antes. "Sólo intentábamos encontrar soluciones diferentes a todas las anteriores que habíamos encontrado hasta ahora". Recientemente, también ha estado colaborando con investigadores para utilizar la diversidad con el fin de identificar nuevos candidatos prometedores a fármacos y desarrollar estrategias eficaces de negociación de acciones.
"El objetivo es generar una gran colección de miles de soluciones diferentes, en la que cada solución sea muy distinta de la siguiente", explica Cully. Así, al igual que el ajedrecista diversificado aprendió a hacer, para cada tipo de problema, el sistema global podría elegir la mejor solución posible. El sistema de IA de Zahavy, dijo, muestra claramente cómo "la búsqueda de estrategias diversas ayuda a pensar fuera de la caja y encontrar soluciones".
Zahavy sospecha que para que los sistemas de IA piensen de forma creativa, los investigadores simplemente tienen que conseguir que consideren más opciones. Esa hipótesis sugiere una curiosa conexión entre humanos y máquinas: Quizá la inteligencia sea sólo una cuestión de potencia de cálculo. Para un sistema de IA, quizá la creatividad se reduzca a la capacidad de considerar y seleccionar entre un abanico de opciones lo suficientemente amplio. A medida que el sistema obtiene recompensas por seleccionar una variedad de estrategias óptimas, este tipo de resolución creativa de problemas se refuerza y fortalece. En última instancia, en teoría, podría emular cualquier tipo de estrategia de resolución de problemas reconocida como creativa en los seres humanos. La creatividad se convertiría en un problema computacional.
Liemhetcharat señaló que es poco probable que un sistema de IA diversificado resuelva por completo el problema de la generalización en el aprendizaje automático. Pero es un paso en la dirección correcta. "Mitiga una de las deficiencias", afirmó.
Desde un punto de vista más práctico, los resultados de Zahavy resuenan con los esfuerzos recientes que muestran cómo la cooperación puede conducir a un mejor rendimiento en tareas difíciles entre los seres humanos. Por ejemplo, la mayoría de los éxitos de la lista Billboard 100 fueron escritos por equipos de compositores, no por individuos. Y aún hay margen de mejora. El enfoque diverso es actualmente caro desde el punto de vista computacional, ya que debe considerar muchas más posibilidades que un sistema típico. Zahavy tampoco está convencido de que incluso el diversificado AlphaZero capte todo el espectro de posibilidades.
"Sigo [pensando] que hay margen para encontrar soluciones diferentes", afirma. "No tengo claro que, dados todos los datos del mundo, haya [sólo] una respuesta a cada pregunta".