Historias y memoria: creatividad y grandes modelos de lenguaje

Publicado el 22 enero 2024 por Ignacio G.r. Gavilán @igrgavilan
Permítaseme en este post una breve digresión, algo así como un juego mental, un devaneo con la imaginación y con la especulación, aunque basado en aspectos técnicos reales.

Y todo ello a propósito de la memoria en la escritura, comparando lo que puede dar de sí la inteligencia artificial generativa y los grandes modelos de lenguaje por un lado, y lo que hacemos los humanos por otro.

El contexto en los LLMs. La atención

Una de las grandes aportaciones de las nuevas arquitectura de deep learning utilizadas en los modelos de inteligencia artificial generativa es el de la atención, tan importante que el artículo seminal de la arquitectura Transformer, que está en la base de muchos de esos grandes modelos de lenguaje, se titulaba 'Attention is all you need'.

La atención es un mecanismo por el que una red neuronal tiene en cuenta en sus resultados un amplio contexto permitiendo, además, 'fijar más la atención' en unas partes o en otras del contexto (que incluye de manera notable el 'prompt' recibido).

Este mecanismo ha permitido superar a lo aportado hasta el momento por las redes neuronales recurrentes (RNN, 'Recurrent Neural Networks') que guardaban un contexto muy limitado (en esencia, la palabra anterior).

La memoria de lo escrito en LLM

Pero hay un segundo ingrediente, en realidad apoyado en el anterior, que completa el dibujo: la autoatención.

Mediante la autoatención, la red neuronal, no sólo tiene en cuenta el contexto recibido como entrada, sino el propio texto generado por el modelo en su labor 'creativa'. Y esto da lugar a los llamados modelos autorregresivos, de los cuales, por cierto, el muy famoso GPT es un ejemplo notable. 

De alguna forma, pues, los grandes modelos del lenguaje tienen 'memoria de lo escrito', de lo que han plasmado en sus respuestas y 'composiciones'.

Limitaciones en la memoria. El tamaño del contexto.

Pero la memoria de estos modelos no es infinita. Aunque los grandes fabricantes de estos modelos, los OpenAI, Google, Meta, Microsoft, etc buscan aumentar más y más ese contexto, al final siempre existe un límite,

Así nos lo recuerdan Gerhard Paaß y Sven Giesselbach en su libro 'Foundation Models for Natural Language Processing' cuando nos dicen, refiriéndose a los PLM, ('Pretrained Language Models') que

As the story generated by the PLM gets longer, often the earlier context is forgotten and the text develops in an aimless fashion.

No sólo es que ese contexto sea limitado sino que, de cara a 'fiarnos' de la respuesta de uno de estos grandes modelos de lenguaje, parece que podemos dar más credibilidad a las respuestas relativamente cortas y contextos sencillos, puesto que la capacidad del modelo abarca suficientemente todo el contexto incluyendo el texto ya generado. 

Ante contextos grandes y, sobre todo, ante una respuesta larga, se empieza a perder el contexto y, por tanto, entra en riesgo la coherencia del texto generado.

Y eso es lo que puede ocurrir, por ejemplo, en la narrativa.

Exactitud versus creatividad

Si queremos la respuesta del modelo para tomar una decisión, para aplicarla en el mundo real, esa pérdida de contexto, evidentemente, tiene sus riesgos, puesto que en el mundo práctico, buscamos la coherencia e incluso la exactitud.

Pero ¿y en el caso de la escritura 'creativa'? ¿Y si lo que estamos creando en un cuento o una novela?

La memoria en la escritura humana

La verdad es que no creo que exista, y si existe la desconozco, una teoría sobre el uso de la memoria en la escritura. Así que lo que digo a continuación nace de mi intuición y de mi experiencia en la escritura, no de un estudio sesudo.

Y creo que la memoria tiene un papel importante. Porque, en general, en los textos, incluso en los literarios, se busca la coherencia. Y para ello debemos recordar el contexto y lo ya escrito.

En narrativa, existe un referente, una historia que se quiere contar y que tiene su propia lógica que se debe respetar para que la narración tenga sentido y para eso debemos recordar el contexto (el referente, en cierto sentido) y lo ya contado. Existen unos personajes que, en el caso de la literatura de calidad, tienen sus personalidades bien delineadas y, de hecho, los tipos psicológicos definidos e interesantes, suelen ser un valor interesante en esa narrativa. Y para mantener unos tipos psicológicos acertados es importante la coherencia con el contexto y con lo ya escrito.

Probablemente nosotros, los humanos, nos acordemos sin dificultad de lo que hemos escrito y, si no, basta con releerlo.

Parece, pues, que nuestra escritura, la escritura humana, mantiene la coherencia y es, por decirlo de alguna forma, autorregresiva.

La creatividad última

Pero quizá no siempre suceda así.

Quizá a veces prescindamos del contexto o de la coherencia, y así sucede, por ejemplo, en un ejercicio como la escritura automática u otras formas surrealistas de escritura, o en muchas realizaciones de escritura poética, donde la coherencia no es un valor, porque quizá estamos buscando, más bien, lo que acabo de bautizar como 'creatividad extrema' y en ese caso, puede que prefiramos romper amarras con el contexto y con la lógica.

Y eso, quizá, sólo quizá, se emularía mejor con un modelo de lenguaje que sí mantuviese un buen conocimiento de la estructura sintáctica y morfológica del lenguaje humano, pero que se liberase un poco de la parte semántica, que limitase su contexto y que fuese algo menos autorregresivo. 

Conclusiones

Cuando utilizamos los grandes modelos de lenguaje en tareas de índole práctica nos interesa que mantengan de la mejor forma posible la coherencia que nace en buena medida de un contexto amplio y una autorregresión que 'recuerde' mucho de lo ya dicho.

Incluso, en 'escritura creativa' en general será bueno ese contexto amplio, pero puede que existan rincones de la creatividad, natural o artificial, que se vean favorecidos por un contexto y coherencia limitados.