Revista Economía

Diez retos y líneas de evolución de los agentes conversacionales

Publicado el 25 abril 2022 por Ignacio G.r. Gavilán @igrgavilan
Diez retos y líneas de evolución de los agentes conversacionalesTodo la disciplina de la Inteligencia Artificial se encuentra en rápida evolución. Eso incluye  todo el campo relativo al procesamiento del lenguaje natural y de la voz y alcanza de lleno, por tanto, al mundo de los agentes conversacionales, ya sean estos chatbots, voice bots, robots sociales o, en general, las diferentes formas de agentes que identificamos en el artículo 'Cinco tipos de agentes conversacionales'.

Nos preguntamos ahora cuáles son las principales áreas de trabajo, los principales retos a que se enfrentan hoy en día los científicos, técnicos y lingüistas que trabajan en este campo de los agentes conversacionales.

Al final de su libro 'Conversational AI. Dialogue systems, conversational agents and chatbots', el profesor Michael McTear identifica diez retos o direcciones de futuro para los sistemas dialógicos (sistemas de diálogo o agentes conversacionales).

Veámoslos muy brevemente.

1. Multimodalidad

La mayoría de los agentes conversacionales utilizan fundamentalmente dos modalidades: el texto y la voz. Sin embargo, la interacción persona-máquina puede involucrar otras modalidades como son el tacto, las imágenes o el vídeo.

En este empeño, se distingue entre lo que se denomina la fusión multimodal, es decir, el procesamiento de una entrada multimodal, y la fisión multimodal, que se ocupa de la salida multimodal

Algunas de las ventajas de esta multimodalidad son la flexibilidad, permitiendo al usuario elegir la forma de entrada que más le convenga y la reducción de errores y problemas asociados a la referencia anafórica, al disponer el agente de nuevas entradas, como el feedback visual, para la desambiguación. 

2. Diálogo visual

Se trata de la combinación de la visión artificial con la inteligencia artificial conversacional de forma que los agentes conversacionales puedan mantener un diálogo con los humanos sobre un contenido visual. Esto puede aportar mucho en áreas como la robótica o la ayuda a personas con limitaciones visuales.

3. Entrenamiento con datos escasos

Se trata de conseguir entrenar a sistemas o algoritmos conversacionales, muy demandantes habitualmente en datos, con unos datos escasos. Se experimenta con diferentes algoritmos y mecanismos, que incluyen el transfer learning pero buscan también otras alternativas.

4. Gráficos de conocimiento

Se trata de que los agentes conversacionales dispongan de conocimiento del mundo exterior, un conocimiento que no se limite, como sucede en muchas implementaciones actuales, a la información que han obtenido en conversaciones o interacciones previas.

Una forma de representar ese conocimiento es mediante árboles como el Google Knowledge Graph lanzado en 2012 y para el que el autor nos aporta el dato (seguramente ya superado) de que contiene 500.000 millones de hechos ('facts') sobre más de cinco mil millones de entidades.

5. Razonamiento y resolución de problemas colaborativos

Se trata de conseguir la colaboración entre el agente conversacional y otros agentes externos (incluyendo los humanos, claro) lo que implica que el agente sea capaz de razonar no sólo sobre sus propias acciones sino también sobra la de el o los agentes con que colabora.

6. Fenómenos en el discurso y el diálogo

McTear agrupa bajo este epígrafe una serie de elementos dispersos que afectan al diálogo y la conversación. 

Así nos habla, por ejemplo, de las problemáticas de referencia a objetos y entidades de diversas formas (co-referencia, referencia anafórica, etc)

También se refiere a problemáticas y retos como son la detección de cambios en la materia de la conversación, las conversaciones con múltiples intervinientes (no solo dos), procesado incremental (anticiparse a lo que el humano u otro agente va a decir) y al cambio de turnos en el diálogo.

7. Sistemas conversacionales híbridos

Se trataría enfoques que combinarían en la conversación las tres grandes formas actuales de implementar la estrategia de la conversación: basada en reglas, estadística y neuronal, tres formas a cuya explicación el autor ha dedicado gran parte de su libro en capítulos precedentes al abordaje de los retos y tendencias.

8. Diálogo con robots sociales

El diálogo en el caso de los robots sociales ofrece  algunas particularidades. Una de ellas, que ya mencionábamos en un artículo anterior, es que éstos son capaces de detectar y utilizar elementos de lenguaje no verbal como los gestos, la distancia o el movimiento.

Además, en el caso de los robots sociales, además de la interacción cara a cara (lo que denomina el micro entorno) se suele disponer de información procedente tanto de sus sensores como la accesible a través de internet, lo que constituye el macroentorno. 

9. Diálogo e Internet de las Cosas

Se trataría ahora de la incorporación de elementos conversacionales en más y más dispositivos interconectados mediante Internet de las Cosas. Estos elementos conversacionales proporcionan interfaces más naturales a esos dispositivos y, por cierto, formarían parte decisiva de lo que he llamado 'la explosión robótica'. 

10. Problemáticas sociales y éticas

Finalmente, se recogen las problemáticas de naturaleza social y ética como la adquisición de comportamientos inadecuados, los sesgos, la prevención de salidas ofensivas, el uso para extender noticias falsas, etc y también las posibilidades de su uso para el bien.

Conclusión

El campo de los agentes conversacionales, con mucho foco en el tratamiento del lenguaje, es un área apasionante dentro de la inteligencia artificial, tanto por sus grandes posibilidades de aplicación como porque, quizá, el lenguaje es una de las manifestaciones más tangibles de inteligencia.

Hay mucha investigación, experimentación e implantación en marcha y, seguro que, en los aspectos que menciona McTear, y en algunos otros, vamos a ver cosas sorprendentes y emocionantes en los próximos meses y años. 


Volver a la Portada de Logo Paperblog