Inteligencia artificial generativa para la decisión y su uso en robots

Publicado el 24 enero 2024 por Ignacio G.r. Gavilán @igrgavilan
¿Te imaginas la inteligencia artificial generativa adoptando decisiones? ¿Te la imaginas controlando un robot? ¿Tiene sentido?

Pues más de lo que un 'bote pronto' nos puede hacer pensar.

Veamos.

El objetivo original de la inteligencia artificial generativa 

El nombre de inteligencia artificial generativa proviene de lo que considero es su objetivo original, a saber, crear, o quizá sea más aceptable decir 'generar' contenido nuevo, como contrapunto a la inteligencia artificial discriminativa que, de alguna forma, pretende dar una solución a un problema o pregunta.

Sería algo así como 'crear' versus 'resolver'.

Y ese papel se nos refleja de forma clara, sencilla e intuitiva cuando creamos una nueva imagen con DALL-E o cuando escribimos un artículo con ayuda de ChatGPT.

Transversalidad y los modelos fundacionales

Y, sin embargo, y como ya hemos mencionado no hace mucho en este mismo blog, parece como que la inteligencia artificial generativa, ya en sus realizaciones actuales, ha desbordado un poco, o quizá un bastante, ese objetivo que le da nombre y que se traspone a multitud de casos de uso más allá de lo meramente generativo.

Como razonaba en el post 'Modelos fundacionales y la inteligencia artificial general', los modelos de inteligencia artificial generativa ya han conseguido y avanza en la denominada multimodalidad, es decir trabajar con diferentes medios como texto, imagen vídeo, música, código, etc) e incluso en que sus 'razonamientos' (con comillas) ganen una cierta generalidad, una cierta transversalidad. 

Y esa capacidad de ser adaptados a nuevos problemas y esa transversalidad, como explicaba en el mismo post, ha hecho que se reclame para ellos el nombre de modelos 'fundacionales' 

Decisiones e Inteligencia artificial generativa: la viabilidad.

¿Pero podemos ir más allá? ¿Podemos utilizar la inteligencia artificial generativa para tomar decisiones?

Pues resulta que si.

Hay una forma muy sencilla y fácil de entenderlo. Imagina que tienes que tomar una decisión cualquiera, por decir algo sencillo qué comida te vas a a preparar hoy. Y ante la duda, le preguntas a ChatGPT y ChatGPT te sugiere un plato, te indica los ingredientes necesarios y cómo se prepara. Y, como te parece bien, eso es lo que haces: vas al supermercado, compras lo que necesitas y preparas el plato.

Está claro que en este caso tú, humano, has supervisado la respuesta de ChatGPT ('human-in-the-loop'), pero también está claro que has seguido su consejo.

Imagina ahora que el texto de respuesta de ChatGPT lo procesas mediante un software, también de IA, que 'extrae' los ingredientes que necesitas y se conecta a Amazon (directamente o usando robots RPA) y compra esos ingredientes.

Ese escenario te aseguro que, aunque no sé si es muy práctico, es técnicamente posible ya hoy en día, aunque probablemente fuese algo propenso a errores.

Pero en cualquier caso, una vez que te has quitado del bucle, una vez que ya no hay 'human-in-the-loop' como se expresa formalmente, la decisión la ha tomado ChatGPT, es decir, la inteligencia artificial generativa.

El escenario, aunque viable, no es que sea de lo mejor que se puede hacer, pero me sirve para argumentar que es perfectamente viable tomar decisiones con base en inteligencia artificial generativa.

Decision Transformer

Entrando en un territorio más concreto y técnico, Gerhard Paaß y Sven Giesselbach en su libro 'Foundation Models for Natural Language Processing' nos explican, ya bastante avanzado el libro, la arquitectura y planteamiento del 'decision transformer'.

Nos recuerdan que, en esencia, y aunque tendamos a pensar en secuencias de palabras (textos), los modelos generativos del tipo transformer realmente operan con secuencias de, digamos, tokens. En el caso de tratar texto, esos tonkes representan palabras, partes de palabras u otros elementos textuales. Cuando entramos en el campo de la multimodalidad, los tokens pueden representar partes de imágenes, vídeos, notas musicales y cosas así. pero seguimos operando con secuencias de tokens y, a partir de una secuencia de entrada, generar una secuencia de salida.

Cambiando el tipo de secuencias que tratamos, podemos cambiar lo que hace el modelo transformer.

El decision transformer es una variación del 'transformer normal' usado en grandes modelos de lenguaje y otras soluciones generativas pero en este caso, se va a usar a un problema en que un agente debe tomar decisiones (decidir la siguiente acción) basada en el estado del problema.

No voy a entrar en los detalles más técnicos, pero en la obra citada, los autores nos describen aspectos de cómo se adapta el modelo transformer para este caso, la política para los 'embeddings' contextuales y un entrenamiento, apoyado en un aprendizaje por refuerzo ligeramente especializado, y con base en datos de trayectorias. 

Los autores aportan referencias de benckmarks aplicados a este transformer que arrojan buenos o muy buenos resultados. Es decir, demuestran que uun decision transformer, actua como un agente que toma decisiones adecuadas sobre qué acción realizar ante un estado del problema.

Ahora la prueba ya no es intuitiva como en la sección anterior argumentaba. Estos benchmarks demuestran que, al menos en terrenos acotados, los modelos de inteligencia artificial generativa  son aptos para la toma de decisiones.

Inteligencia artificial generativa y robótica

La traslación de lo anterior a la robótica es casi inmediata.

Como explico en uno de los primeros videos de mi proyecto 'The robot notes', en concreto el titulado 'The robot concepts', un robot es, en esencia un agente inteligente. Un agente que obtiene información de su entorno y de sí mismo vía sensores (con lo que conoce el 'estado del problema) y decide las siguientes acciones que implican, al final qué hacer con los actuadores que le permiten actuar sobre sí mismo y sobre su entorno.

Es decir, mantenemos la estructura de sensores y actuadores del robot al modo tradicional pero la decisión sobre las acciones, la toma ahora un modelo generativo.

De hecho, los benchmarks a que me refería más arriba y que aportan los autores, son del campo de la robótica. Por ejemplo, citan el benchmark D4RL que simula robots del tipo HalfChetaa, Hopper o Walker)

¿Cómo lo ves?

Una par de advertencias

Se me vienen a la mente, no obstante, un par de advertencias.

Por un lado, no tengo datos suficientes para afirmarlo, pero intuyo que estos primeros resultados, siendo muy satisfactorios, probablemente no apliquen todavía a todo tipo de robots ni a robots en entornos muy complejos, aunque intuyo que se conseguirá y a buena velocidad.

Por otro lado, como advierto en algunos cursos, si los algoritmos tradicionales, tanto de informática como de robótica, y en buena medida la inteligencia artificial discriminativa, están orientados a la exactitud, a la obtención de la respuesta correcta, los generativos están orientados a contener una respuesta coherente. En ese sentido, pudieran ser menos predecibles y, quizá, y no lo afirmo con rotundidad, sólo lo señalo como posible, no fueran óptimos o convenientes en entornos de automatización industrial (entorno muy predecible y donde, por decirlo de alguna forma, no vale la pena 'improvisar') o entornos críticos donde no queremos arriesgarnos a un comportamiento no previsto. 

Conclusiones

Parece claro y demostrado que la inteligencia artificial generativa, trasciende su misión original, la de crear contenido, y ya es capaz de tomar decisiones aplicables, incluso, en robótica.