aprendiendo a jugar

El programa Alpha Zero logró aplastar a otro software fuerte en un match a cien partidas sin perder ninguna. Pero lo revolucionario no fue el resultado, sino cómo se logró: Alpha Zero no necesitó aprender de millones de partidas anteriores, sino que simplemente se le enseñaron las reglas y en 24 horas se convirtió en el jugador más potente del planeta. Las décadas que a los humanos nos llevaron desechar aperturas se transformaron en horas en al caso del algoritmo: en las primeras dos horas, el programa parecía entusiasta probando la apertura francesa, pero luego la descartó. Su enamoramiento de la Caro-Kahn duró mucho menos.
“Lo interesante aquí es que no se necesitó big data para superar la performance humana: sólo las reglas y tiempo para aprender (un día)”, dice (...) Marcelo Rinesi, experto en ciencia de datos e investigador del Instituto Baikal. “La observación inevitable, creo, es que la experiencia y el conocimiento acumulados por la especie humana son realmente pocos: no sabíamos nada de ajedrez, y seguramente no sabemos nada de matemáticas, programación, medicina, diseño industrial ni arquitectura”, agrega.
Tres años atrás, la empresa DeepMind, que pertenece a Google, se puso como objetivo desarrollar un algoritmo que pudiera competir contra los mejores jugadores de Go del mundo, un juego tremendamente complejo, con trillones de jugadas probables, que no puede abordarse con la “fuerza bruta” computacional como la que IBM usó con Deep Blue 20 años atrás para derrotar a Kasparov. En marzo de 2016, cuando el programa Alpha Go se enfrentó a Lee Sedol, el mejor jugador del mundo, las apuestas estaban diez a uno a favor del humano. El resultado fue un 4-1 para el algoritmo. El programa aprendía, a velocidad supersónica, de millones de partidas previas, y un año después derrotó con un inapelable 3-0 al chino Ke Jie, un joven prodigio cuyo talento en Go es comparable al de Carlsen en ajedrez.
El salto cuántico se produjo luego, cuando la firma logró una versión más potente sin necesidad de acudir a partidas previas y pudo, en muy pocas semanas, traducir esa expertise del Go al ajedrez. Demis Hassabis, el fundador de DeepMind, fue a los 13 años un genio del juego ciencia, segundo a nivel mundial en esa categoría detrás de la húngara Judit Polgar.
(…)
La historia de Alpha Zero no está exenta de críticas. La semana pasada, José Camacho Collado, matemático, investigador en IA y gran maestro de ajedrez, publicó un análisis en Medium donde señaló una decena de razones para tomar con cautela el logro de DeepMind, entre ellas que sólo se publicaron algunas partidas y que no se eligió como contrincante la versión de software más poderosa.
(…)
...la forma de juego de Alpha Zero, resaltó Albert Silver, el sitio de ajedrez Chess News, es mucho más “humana”: su dinámica se basa en “filtrar” los caminos que parecen más promisorios y enfocar la profundidad y esfuerzo de análisis por ahí, como hacen los jugadores de carne y hueso.
Al contrario de los programas anteriores, mucho más agresivos, que van “a todo o nada”, Alpha Zero no escapa de posiciones cerradas, en las cuales se trata de sacar una mínima ventaja y luego exprimirla con paciencia al máximo, ahogando al contrincante en forma lenta. Esta estrategia de boa constrictor fue refinada en su momento por el ex campeón Tigran Petrosian y llevada a su máximo nivel de brillantez por el propio Karpov. Por eso, destacó el artículo de Chess News, si Alpha Zero tuviera que emparentar su juego con alguno de los humanos conocidos, sería sin duda con el de Anatoly Karpov.
SEBASTIÁN CAMPANARIO
“Anatoly Karpov y una lección sobre cómo aprendemos”
(la nación, 17.12.17)