Revista Economía

La explicabilidad en los grandes modelos de lenguaje

Publicado el 17 enero 2024 por Ignacio G.r. Gavilán @igrgavilan
La explicabilidad en los grandes modelos de lenguajeUna de las problemáticas éticas más frecuentemente mencionadas en relación con la inteligencia artificial, es la de la falta de explicabilidad de los algoritmos. 

Nos preguntamos, ahora que están tan en boga la inteligencia artificial generativa y los grandes modelos de lenguaje (LLM, 'Large Language Models'), en qué punto estamos en relación con la explicabilidad en este caso.

Bueno, creo que no muy diferente de como estábamos ya antes de su popularización y 'explosión mediática 

Pero veamos...

El problema de la explicabilidad

El problema de la explicabilidad, o más bien de la falta de explicabilidad de los algoritmos de la inteligencia artificial, radica en que una buena parte de los algoritmos de inteligencia artificial, y muy en especial los más potentes incluyendo a todo el 'deep learning', no nos permiten conocer su 'razonamiento', la forma en que llegan a sus conclusiones y expresado en un lenguaje que podamos entender los humanos.

Y eso, como conté en el último capítulo de mi libro 'Robots en la sombra', es importante en cierto tipo de decisiones que nos afectan mucho como personas (ascensos, contrataciones, condenas, concesión de préstamos, etc) y que, por tanto, querríamos entender e, incluso, recurrir.

Poniendo en su justo término la explicabilidad

Y aquí lo de 'en un lenguaje que podamos entender los humanos' es muy relevante porque, como defendí en su momento en el post 'Los algoritmos de inteligencia artificial sí saben explicarse...', los algoritmos de inteligencia artificial, en general, son absolutamente deterministas (aunque pueda parecer lo contrario) y tienen una línea de 'razonamiento', o casi mejor decir, de cálculo, absolutamente concreta, cerrada y explicable.

Y me importa destacarlo para evitar fantasías y terrores acerca de una especie de voluntad propia, un libre albedrío o un descontrol de los algoritmos.

No es así.

Lo que ocurre, lo que realmente ocurre, es que esa explicación se produce en términos numéricos y algorítmicos y no de forma simbólica y en lenguaje natural, que es lo que entendemos los humanos. Y tampoco sigue, o no tiene por qué seguir, la forma de razonamiento consciente humano, nuestras lógicas, heurísticas, presupuestos y valores.

Los grandes modelos de lenguaje como no explicables

Dicho, lo anterior ¿Qué pasa con los grandes modelos de lenguaje?

Pues pasa que, al tratarse de algoritmos de deep learning estamos ante el caso de algoritmos no explicables.

Así de simple.

La situación difiere poco, en cuanto a explicabilidad, de la que teníamos anteriormente, salvo por dos hechos: uno la potencia y popularidad de estos algoritmos, que hace que quizá les debamos prestar aún más atención, y otro la, en mi opinión, particular presencia de lo que he denominado la 'falsa' explicabilidad.

La 'falsa' explicabilidad de los modelos de lenguaje

Tú mismo, lector, puedes experimentar muy fácilmente lo que quiero decir.

Sitúate delante de tu ChatGPT, Bing chat, Bard o tu herramienta generativa del ámbito del lenguaje que prefieras. Formúlale una pregunta compleja y luego pídele que te explique cómo ha llegado a esa conclusión. 

Aunque con los algoritmos generativos nunca puedes tener total seguridad, y aunque en parte depende de los 'prompts' que hayas utilizado y en qué contexto, lo más probable es que la explicación que te aporte la herramienta sea comprensible y correcta.

¿Hemos resuelto entonces el problema de la explicabilidad?

No realmente.

Suelo destacar en algunos cursos y charlas, que los algoritmos generativos sólo buscan la coherencia (no la exactitud), y una coherencia en esencia probabilista, de aquello que generan, coherencia con la estructura del lenguaje humano, con las relaciones entre palabras, con el 'prompt' dado por el usuario, con el contexto (prompts y respuestas anteriores) y con lo ya generado por el propio algoritmo.

Es coherente, pero no necesariamente exacto, y no se basa en el más mínimo entendimiento real de 'lo que dice' ni en ninguna regla lógica en términos humanos.

A pesar de las apariencias, en realidad esa explicación es falsa: no es así como ha 'razonado' el algoritmo sino que se trata, de nuevo, de un texto coherente con el contexto, con el prompt, etc

Como, a pesar de todo, la respuesta tiende a ser acertada, para tareas poco sensibles, y siempre bajo supervisión humana, esa explicación puede ser muy útil a nivel práctico, pero no es una verdadera explicación de cómo ha 'razonado' el algoritmo, no tienes garantías de que sea correcta y, desde luego, no debería ser válida, eso creo yo, en ningún tipo de valoración ética o legal.

Mecanismos para la explicabilidad en grandes modelos de lenguaje

Así que no, pese a las apariencias, los grandes modelos de lenguaje son algoritmos no explicables (o no explicados).

Pero, como en toda la inteligencia artificial, se trabaja en intentar conseguir esa explicabilidad. Gerhard Paaß y Sven Giesselbach en su libro 'Foundation Models for Natural Language Processing', nos cuentan algunas de las líneas de trabajo. En concreto, nos mencionan las siguientes:

  • Importancia de características: Se trata de determinar de alguna forma el peso que tiene una entrada concreta, por ejemplo un token, en la salida. Vendría a ser como una derivada de la salida respecto a esa entrada. Esto nos indica qué ha pesado más en el resultado (aunque, creo que, en el fondo, eso delega en el humano el entender el porqué esa característica pesa más y si tiene sentido que sea así).

  • Explicaciones contrafactuales: investiga cómo hay que modificar las entradas o las variables de entrada para conseguir una salida diferente.

  • Modelos surrogados: Se usa para la explicación un segundo modelo, más sencillo como podría ser el caso de LIME para entrenar un modelo local acerca de alguna variable que nos interesa.

  • Explicaciones dirigidas por ejemplos: ilustran la predicción para una entrada, con base en lo que se obtiene en otras ya etiquetadas y semánticamente similares.

  • Cita de fuentes: Cuando los modelos de lenguaje utilizan un mecanismo de recuperación ('retrieval'), pueden actuar de forma parecida a como se hace en textos científicos, citando las fuentes.

Estos mecanismos son, hasta donde se me alcanza, similares a los que ya se estaban utilizando o experimentando antes de la popularización de los grandes modelos de lenguaje.

Y, en general, aunque el esfuerzo me parece interesante, loable, útil en muchos casos y casi necesario, creo que no dejan de ser soluciones, por decirlo de alguna forma, 'parciales', que sirven en algunos caso, o que nos ayudan, pero que no resuelven completamente el problema de la explicabilidad.

Una reflexión: ¿es realmente posible la explicabilidad?

Y justo al escribir este post se me ha venido a la mente una reflexión que dejaré abierta.

Me pregunto si realmente es posible conseguir la explicabilidad. 

Y lo digo porque, si los algoritmos 'razonan' o calculan de una forma algorítmico-matemática, una forma que no es la humana, conseguir, si es que lo consiguiéramos, que nos explicaran cómo han razonado en términos simbólico lingüísticos, en términos humanos, podría ser, en el fondo, sólo una aproximación, una ayuda, casi una metáfora, quizá incluso una impostura, pero nunca una verdadera explicación de cómo han llegado a sus conclusiones.

Conclusiones

Los grandes modelos de lenguaje, pues, 'heredan' la falta de explicabilidad de todos los algoritmos de deep learning y la investigación se enfrenta a ellos, poco más o menos, con las mismas armas con que venía haciéndolo hasta ahora.

Y así, se consiguen avances, se consiguen éxitos locales, se consiguen resultados en ocasiones útiles, pero no parece que lleguemos a resolver completamente el problema de la explicabilidad y, además, es posible, sólo posible, que sea, en el fondo, un problema irresoluble.


Volver a la Portada de Logo Paperblog