Y lo bueno, y lo interesante, es que es posible, y no sólo posible sino que además es muy sencillo, fusionar ambas tecnologías, proporcionando unos resultados sorprendentes, casi futuristas.
La sencillez de unir la inteligencia artificial generativa con un robot
A cualquier lector con una cierta base técnica no le resultará difícil entenderlo e incluso puede que ese lector ya se lo hubiese imaginado.
Muchas de las capacidades de inteligencia artificial generativa se ofrecen, no sólo como una interfaz de usuario para humanos (como sucede, por ejemplo con ChatGPT), sino también en forma de APIs ('Application Programming Interface'). De hecho, OpenAI, por ejemplo, ofrece esas APIs que permiten la invocación externa de los modelos que utiliza en su ChatGPT o DALL-E, permitiendo, por tanto, usar sus capacidades generativas en materia de texto o imagen por parte de cualquier sistema externo.
Y como digo es tremendamente sencillo. Hace unos meses, y sólo como una prueba de concepto, hice la invocación de un servicio de este API de OpenAI desde un robot RPA (un robot software) y me llevó unos pocos minutos hacerlo, y eso que era la primera vez que utilizaba el API y no la conocía bien. De hecho, era la primera vez en mi vida, creo, que hacía 'con mis manos' la invocación de un API REST desde un software (es que ya hace mucho que no programo salvo detalles muy pequeños y puntuales).
Lo único que hay que hacer ahora es que ese robot externo sea un robot humanoide, cosa absolutamente posible e igualmente sencilla, ya que los robots medianamente avanzados incluyen software de control. Y si lo hacemos si fusionamos un robot humanoide, que, añade, a las capacidades de procesamiento de los modelos de inteligencia artificial, sus propias capacidades sensoras y actuadoras y, en el caso de los robots humanoides más avanzados capacidades de expresión facial y de movimiento 'corporal' razonablemente realistas y acompasados con su expresión verbal, el efecto es espectacular, futurista.
Es posible que tenga sentido en un robot aportar las capacidades generativas, cuando se justifique, como un sistema empotrado local, en lugar de invocar servicios en la nube, pero a corto plazo, esa invocación de APIs en la nube es perfectamente viable y razonablemente práctica.
Robots y una conversación generativa
Si unimos pues a un robot la interacción con un gran modelo del lenguaje, tal y como un GPT (que está detrás del ChatGPT), nos encontraremos con un robot capaz de tener una conversación coherente, la mayoría de las veces acertada y con unos conocimientos en apariencia casi infinitos. Eso es lo que experimentaron hace unos meses los ingenieros de Engineered Arts con su robot Ameca, probablemente uno de los robots humanoides más avanzados y con mejor uso de la expresión facial y corporal. Este es el vídeo que muestra el resultado.
Explican que se quedaron con un modelo GPT3, dado que, aunque probaron con el GPT4, el resultado fue peor. No estoy seguro de ello, pero creo que uno de los motivos puede ser la velocidad. En el video se nota que el robot presenta 'latencia', que tarda en contestar. Y GPT4 es un modelo de lenguaje más potente que GPT3, pero también más lento, a lo mejor ya demasiado lento.
Imaginemos ahora que combinamos un GPT3 estático (sin actualización de datos) con unas capacidades de buscador (como hace Microsoft con su Bing dotado de IA generativa). Con eso, mejoramos la respuesta con información más reciente o de actualidad.
Robots que saben dibujar
Pero esta fusión de robots humanoides con inteligencia artificial generativa puede conseguir mucho más.
Si ahora nos concentramos en la generación de imágenes, con soluciones de tipo DALL-E, Stable Diffusion o Midjourney, podríamos conseguir robots capaces de dibujar o pintar cuadros. La idea sería generar una imagen a partir de algo que se le pide al robot (o que a éste 'se le ocurre' de forma autónoma) y luego plasmar eso en movimientos del robot orientados a pintarlo realmente. Eso es lo que se muestra en un nuevo experimento con Ameca y Stable Difusion,
Los resultados son relativamente pobres porque las capacidades mecánicas de Ameca en sus manos robóticas, están lejos de ser las adecuadas para hacer un dibujo. Pero nos da una idea de las posibilidades y, sobre todo, la viabilidad.
Robots que saben traducir, programar, componer música y quién sabe qué más...
Los grandes modelos de lenguaje también permiten de forma muy efectiva, reconocer el idioma en que 'se les habla' y 'expresarse' en multitud de idiomas. El icónico robot C3PO de La Guerra de las Galaxias, un robot de protocolo, era capaz, según decía de hablar correctamente seis o siete millones de la galaxia. Pues bien, uniendo un gran modelo de lenguaje como GPT con un robot humanoide, podríamos tener nuestra versión propia de un robot de protocolo capaz de hablar correctamente al menos unas decenas de idiomas de la Tierra.
Y teniendo en cuenta que con inteligencia artificial generativa ya se consigue crear código software o música ¿Qué nos impide tener robots desarrolladores capaces de teclear en un ordenador el código fuente en Python o HTML, o robots compositores capaces de escribir partituras o de robots capaces de tocar al piano una melodía que se 'acaban de inventar'?
Los aspectos prácticos de la integración
Técnicamente, nada impide ninguno de esos escenarios, aunque en muchos casos el resultado todavía sería algo pobre, en algún caso bastante pobre, pero no por la parte generativa o de inteligencia sino por la ausencia o precariedad, como pasaba en el caso del dibujo, de las capacidades mecánicas y de control 'finas' para ejecutar alguna de esas tareas 'manualmente'.
Por otro lado, desde un punto de vista práctico, salvo que estemos pensando en experimentación o en demostración, muchos escenarios no tienen demasiado sentido práctico.
¿Para qué queremos que un robot, con cierta torpeza, dibuje 'a mano' una figura cuando un ordenador normal es capaz de hacerlo muy rápido, con mucha precisión y, si queremos, imprimirlo incluso con calidad fotográfica?
¿Para qué querríamos que un robot tocase al piano una melodía cuando un ordenador puede reproducirla en alta fidelidad e, incluso, el propio robot, podría simplemente, si le dotamos de altavoces de alta calidad, emitirlo sin necesidad de teclear en un piano?
¿Para qué un robot que teclee código fuente en un ordenador, cuando cualquier computador dotado de IA generativa puede hacerlo directamente y de forma mucho más rápida y menos sujeta a error?
Quizá tendría algo más de sentido, en el caso de robots sociales utilizados como una suerte de 'azafatas' en eventos, complementarlos con las capacidades dialógicas y, sobre todo, de interacción en diferentes idiomas, que aporta la inteligencia artificial generativa basada en grandes modelos de lenguaje.
En fin, como ocurre con cualquier elemento tecnológico, una vez conseguida la viabilidad técnica, y no hay duda de la viabilidad de unir robots con inteligencia artificial generativa, identificar los casos de uso que tengan sentido, para los que haya demanda y alrededor de los cuales se pueda hacer una proposición de valor y montar un modelo de negocio viable.
Conclusión
La integración de la robótica, y la robótica humanoide, es técnicamente posible y, además, relativamente sencilla y nos abre la puerta a escenarios y casos de uso alucinantes, futuristas.
Ahora sólo necesitamos sentido común para implementar y llevar a la práctica los que realmente tengan sentido.