El nuevo buscador de Google dará respuestas en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas

.

por Julio Alonso Arévalo

Ejemplo de búsqueda en la web (izquierda), modelo lingüístico (centro) y respuestas de expertos (sistema previsto)

Metzler, D., Tay, Y., Bahri, D., & Najork, M. Rethinking Search: Making Experts out of Dilettantes. arXiv:2105.02274 [cs], 2021. http://arxiv.org/abs/2105.02274

Un nuevo artículo de cuatro investigadores de Google propone un sistema "experto" capaz de responder con autoridad a las preguntas de los usuarios sin presentar una lista de posibles resultados de búsqueda, de forma similar al paradigma de las preguntas y respuestas que ha saltado a la palestra pública gracias a la aparición del algoritmo GPT-3 el año pasado. Este enfoque podría cambiar no sólo el funcionamiento de los motores de búsqueda, sino también lo que hacen, y la forma en que interactuamos con ellos.

El documento, titulado Rethinking Search: Making Experts out of Dilettantes, sugiere que la norma actual de presentar al usuario una lista de resultados de búsqueda en respuesta a una consulta es una "carga cognitiva", y propone mejoras en la capacidad de un sistema de procesamiento del lenguaje natural (PLN) para dar una respuesta autorizada y definitiva que sustituye el enfoque de clasificación por un único gran modelo de lenguaje de inteligencia artificial (IA).

la mayoría de los motores de búsqueda siguen funcionando de la misma manera que hace 20 años: las páginas web son indexadas por rastreadores (software que lee la web sin parar y mantiene una lista de todo lo que encuentra), los resultados que coinciden con la consulta de un usuario se recogen de este índice, y los resultados se clasifican. Hasta ahora las búsquedas en Google se han basado en el algoritmo Page Rank para arrojar los resultados de búsqueda a partir de la calidad y cantidad de los enlaces que le dan otras páginas a una página determinada. El problema es que los motores de búsqueda actuales siguen respondiendo con una lista de documentos que incluyen la información solicitada, no con la información en sí, si no con una lista de referencias. Es como si pidieras consejo a tu médico y recibieras una lista de artículos para leer en lugar de una respuesta directa. Por ello, Google se está replanteando este método por el de una búsqueda basada en un nuevo algoritmo de lenguaje denominado GPT-3. GPT-3 extrae información de múltiples fuentes para responder a las preguntas en lenguaje natural. Lo que proporcionará al usuario de una búsqueda, no la lista de los resultados más relevantes como ocurre ahora, si no una respuesta en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Metzler y sus colegas están interesados en un motor de búsqueda que se comporte como un experto humano. Debería producir respuestas en lenguaje natural, sintetizadas a partir de más de un documento, y respaldar sus respuestas con referencias a pruebas de apoyo, como pretenden hacer los artículos de Wikipedia. Cuando existe una necesidad de información, los usuarios desearían preguntar a un experto, pero a menudo recurren a un sistema de recuperación de información, como un motor de búsqueda. Los sistemas clásicos de recuperación de información no responden directamente a las necesidades de información, sino que proporcionan referencias a respuestas (que se espera sean autorizadas). Los sistemas de respuesta a preguntas de éxito ofrecen un corpus limitado creado a la carta por expertos humanos, que no es ni oportuno ni escalable. En cambio, los grandes modelos lingüísticos pre entrenados son capaces de generar directamente una prosa que puede responder a una necesidad de información, pero en la actualidad son más aficionados que expertos: no tienen una verdadera comprensión del mundo, son propensos a alucinar y, lo que es más importante, son incapaces de justificar sus enunciados haciendo referencia a documentos de apoyo en el corpus sobre el que fueron entrenados. Este artículo examina cómo las ideas de la recuperación de información clásica y los grandes modelos lingüísticos preformados pueden sintetizarse y evolucionar hacia sistemas que realmente cumplan la promesa del asesoramiento experto.

Julio Alonso Arévalo | mayo 24, 2021 a las 12:37 pm | Categorías: Noticias | URL: https://wp.me/p72Cm4-rkF