Revista Salud y Bienestar

Se necesita un cuerpo para entender el mundo: por qué ChatGPT y otras IAs lingüísticas no saben lo que dicen – The Conversation

Por David Ormeño @Arcanus_tco

Cuando preguntamos a GPT-3, un sistema lingüístico de inteligencia artificial extremadamente potente y popular, si sería más probable que utilizara un mapa de papel o una piedra para avivar las brasas de una barbacoa, prefirió la piedra.

Para alisar tu falda arrugada, ¿tomarías un termo caliente o una horquilla? GPT-3 sugirió la horquilla.

Y si necesitas cubrirte el pelo para trabajar en un restaurante de comida rápida, ¿qué funcionaría mejor, un envoltorio de papel para sándwiches o un pan de hamburguesa? GPT-3 eligió el pan.

¿Por qué hace GPT-3 esas elecciones cuando la mayoría de la gente elige la alternativa? Porque GPT-3 no entiende el lenguaje como los humanos.

Palabras sin cuerpo

Uno de nosotros es un investigador en psicología que hace más de 20 años presentó una serie de escenarios como los anteriores para poner a prueba la comprensión de un modelo informático del lenguaje de la época. El modelo no elegía con precisión entre utilizar piedras y mapas para avivar las brasas, mientras que los humanos lo hacían con facilidad.

El otro de nosotros es un estudiante de doctorado en ciencias cognitivas que formó parte de un equipo de investigadores que más recientemente utilizó los mismos escenarios para poner a prueba la GPT-3. Aunque GPT-3 lo hizo mejor que el modelo anterior, fue significativamente peor que los humanos. Se equivocó completamente en los tres escenarios mencionados.

GPT-3, el motor que impulsó la versión inicial de ChatGPT, aprende sobre el lenguaje observando, a partir de un billón de casos, qué palabras tienden a seguir a qué otras palabras. Las fuertes regularidades estadísticas de las secuencias lingüísticas permiten a GPT-3 aprender mucho sobre el lenguaje. Y ese conocimiento secuencial permite a menudo a ChatGPT producir frases, ensayos, poemas y códigos informáticos razonables.

Aunque GPT-3 es extremadamente bueno aprendiendo las reglas de qué sigue a qué en el lenguaje humano, no tiene ni la más remota idea de qué significan esas palabras para un ser humano. ¿Y cómo podría saberlo?

Los seres humanos son entidades biológicas que evolucionaron con cuerpos que necesitan operar en los mundos físico y social para hacer cosas. El lenguaje es una herramienta que ayuda a las personas a hacerlo. GPT-3 es un sistema de software artificial que predice la siguiente palabra. No necesita hacer nada con esas predicciones en el mundo real.

Soy, luego entiendo

El significado de una palabra o frase está íntimamente relacionado con el cuerpo humano: la capacidad de las personas para actuar, percibir y tener emociones. La cognición humana está potenciada por la corporeidad. La comprensión de un término como "envoltorio de papel para bocadillos", por ejemplo, incluye el aspecto del envoltorio, su tacto, su peso y, en consecuencia, cómo podemos utilizarlo: para envolver un bocadillo. La comprensión de la gente también incluye la forma en que alguien puede utilizarlo para otras innumerables oportunidades que ofrece, como apretarlo en una bola para un juego de aros, o cubrirse el pelo.

Todos estos usos se deben a la naturaleza del cuerpo humano y sus necesidades: Las personas tienen manos capaces de doblar papel, una cabeza del mismo tamaño que el envoltorio de un bocadillo y la necesidad de trabajar y, por tanto, de seguir normas como cubrirse el pelo. Es decir, la gente sabe cómo utilizar las cosas de formas que no se reflejan en las estadísticas de uso de la lengua.

GPT-3, su sucesor, GPT-4, y sus primos Bard, Chinchilla y LLaMA no tienen cuerpo, por lo que no pueden determinar, por sí solos, qué objetos son plegables, ni las muchas otras propiedades que el psicólogo J.J. Gibson denominó affordances. Con las manos y los brazos de las personas, los mapas de papel permiten avivar una llama y un termo permite deshacer las arrugas.

Sin brazos ni manos, por no hablar de la necesidad de llevar ropa sin arrugas para trabajar, la GPT-3 no puede determinar estas affordances. Sólo puede fingirlas si ha encontrado algo similar en el flujo de palabras de Internet.

¿Conseguirá alguna vez una inteligencia artificial con un gran modelo lingüístico entender el lenguaje como los humanos? En nuestra opinión, no sin tener un cuerpo, sentidos, propósitos y formas de vida similares a los humanos.

Hacia un sentido del mundo

GPT-4 ha sido entrenado tanto con imágenes como con texto, lo que le ha permitido aprender relaciones estadísticas entre palabras y píxeles. Aunque no podemos realizar nuestro análisis original con GPT-4 porque actualmente no muestra la probabilidad que asigna a las palabras, cuando le planteamos las tres preguntas, respondió correctamente. Esto podría deberse al aprendizaje del modelo a partir de entradas anteriores, o a su mayor tamaño y entrada visual.

Sin embargo, puedes seguir construyendo nuevos ejemplos para ponerle en aprietos pensando en objetos que tengan affordances sorprendentes con los que el modelo probablemente no se haya encontrado. Por ejemplo, la GPT-4 dice que una taza con el fondo cortado sería mejor para contener agua que una bombilla con el fondo cortado.

Un modelo con acceso a imágenes podría ser algo así como un niño que aprende sobre el lenguaje -y el mundo- a través de la televisión: Es más fácil que aprender de la radio, pero una comprensión similar a la humana requerirá la oportunidad crucial de interactuar con el mundo.

Investigaciones recientes han adoptado este enfoque, entrenando modelos lingüísticos para generar simulaciones físicas, interactuar con entornos físicos e incluso generar planes de acción robóticos. Puede que la comprensión corporal del lenguaje esté aún muy lejos, pero este tipo de proyectos interactivos multisensoriales son pasos cruciales en el camino.

ChatGPT es una herramienta fascinante que sin duda se utilizará para fines buenos y no tan buenos. Pero no se engañe pensando que entiende las palabras que pronuncia, y mucho menos que es sintiente.


Volver a la Portada de Logo Paperblog