Revista Ciencia

Las matemáticas al servicio de la investigación literaria

Publicado el 27 noviembre 2011 por Trebede
¿Es posible conocer la autoría de una obra literaria por las palabras y la frecuencia de uso de éstas que contiene? Esta es una pregunta recurrente entre los estudios de obras que nos han llegado hasta hoy como anónimas y de las que se sospecha una autoría que no ha podido ser confirmada por estudios historico-literarios tradicionales.
Dos matemáticos y un físico, DaríoBenedetto, Emanuele Caglioti y Vittorio Loreto de la Universidad deLa Sapienza en Roma, decidieron poner a prueba el algoritmo Lempel-Ziv como método de identificación de creadores literarios. Su objetivo era identificar a los autores de obras literarias. Noventa textos escritos por 11 autores italianos (entre ellos Dante Alighieri y Pirandello) sirvieron como material de base. Se elegía el texto de un autor determinado y se le unían dos pequeños textos de igual tamaño: uno del mismo autor y otro de un autor diferente. Se introducían estos archivos en un programa de compresión, como el popular WinZip, y los científicos comparaban cuánto espacio de almacenamiento necesitaba cada uno. Conjeturaron que la entropía relativa del texto combinado les daría una idea sobre la autoría del texto anónimo. Si ambos eran obra del mismo autor, el algoritmo necesitaría menos espacio de almacenamiento que si el texto adjunto estaba escrito por otro diferente. En el segundo caso, la entropía relativa sería mayor, dado que el algoritmo tendría que considerar los distintos estilos y palabras usadas por ambos autores. En consecuencia, necesitaría más espacio para almacenar el archivo. Cuanto más pequeño fuera el archivo comprimido de los dos textos combinados, más probable era que el texto original y el adjunto pertenecieran al mismo autor. Los resultados del experimento fueron francamente increíbles. Cerca del 95% de las veces los programas de compresión permitieron identificar correctamente al autor.
 
Seguramente embargados por la emoción del éxito de su nuevo enfoque, los tres científicos no se dieron cuenta, o al menos olvidaron mencionar en su bibliografía, que su método no era tan original como creían. De hecho, no fueron los primeros en pensar que los métodos matemáticos se podrían usar para atribuir textos literarios a sus autores. George Zipf, profesor de Lingüística en Harvard, ya había abordado temas como la frecuencia de palabras en 1932. Y el escocés George Yule había demostrado en 1944, en un artículo titulado Estudio estadístico del vocabulario literario, cómo había podido atribuir el manuscrito De imítatione Christi al conocido místico Tomás de Kempis, que vivió en los Países Bajos en el siglo XV. Y por supuesto, hay que mencionar los papeles federalistas del siglo XVIII, cuya autoría por parte de Alexander Hamilton, Iames Madison y Iohn Iay fue determinada por los estadísticos americanos R. Prederick Mosteller y David L. Wallace
Las matemáticas al servicio de la investigación literaria
Dado que todo les había ido tan bien, Benedetto, Caglioti y Loreto decidieron llevar a cabo otro experimento. Analizaron los grados de afinidad entre lenguajes diferentes. Dos lenguas que pertenezcan a la misma familia lingüística deberían tener una entropía(1) relativa baja. Por tanto, podría comprimirse de forma más eficiente una combinación de dos textos escritos en lenguas que estén emparentadas que dos que pertenezcan a familias diferentes. Los científicos analizaron 52 lenguas europeas. De nuevo, tuvieron éxito. Usando el programa de compresión, pudieron clasificar cada lengua en su grupo lingüístico correspondiente. El italiano y el francés, por ejemplo, tienen una entropía relativa baja y por tanto pertenecen a la misma familia. El sueco y el croata, por otro lado, tienen una entropía relativa alta y por tanto han de provenir de grupos lingüísticos diferentes. WinZip consiguió incluso identificar el maltés, el vasco y el húngaro como lenguajes aislados que no pertenecían a ninguno de los grupos lingüísticos conocidos. 
 
El estudio completo se puede consultar en. Dario Benedetto, Emanuele Caglioti, Vittorio Loreto, "Language Trees and Zipping", Phys. Rev. Lett., 88, 048702 (2002) 
(1)
Para entender la compresión de datos, es necesario familiarizarse con el concepto de entropía. En física, la entropía es una medida del desorden de un sistema, por ejemplo un gas. En telecomunicaciones, la entropía es una medida del contenido en información de un mensaje. Un mensaje que consista, por ejemplo, en 1.000 repeticiones del número 0 tiene muy poco contenido en información y una entropía muy baja. Se puede comprimir a la pequeña formula 1000x0 Por otro lado, una secuencia totalmente aleatoria de unos y ceros tiene una entropía muy alta. No se puede comprimir en absoluto, y la única forma de almacenar dicha secuencia es repitiendo todos sus caracteres. La entropía relativa indica cuánto espacio de almacenamiento se ocupa si una secuencia de caracteres se comprime, con un método que se había optimizado para una secuencia diferente. El código morse, concebido para el inglés, puede ser un ejemplo. La letra que aparece mas frecuentemente en inglés, la e, obtuvo el código mas corto: un punto. Las letras que aparecen menos obtienen códigos mas largos, por ejemplo <<—.-» para la -q-. Para otras lenguas, el código morse no es idóneo, porque las longitudes de los códigos no corresponden con la frecuencia de las letras. La entropía relativa mide entonces cuántos puntos y guiones adicionales se necesitan para transmitir un texto, digamos en italiano, con un código que esta pensado para el inglés. 
Las matemáticas al servicio de la investigación literaria
La mayoría de las rutinas de compresión de datos estén basadas en algoritmos desarrollados a finales de los años setenta por dos científicos israelíes del Technion en Haifa. El método que desarrollaron Abraham Lempel, informático, y de Jacob Ziv, ingeniero electrónico, se basa en el hecho de que en un archivo aparecen secuencias idénticas de bits y bytes. La primera vez que una secuencia aparece en el texto, se introduce en una especie de diccionario. Cuando vuelve a aparecer la misma secuencia, un marcador señala el lugar adecuado del diccionario. Dado que el marcador ocupa menos espacio que la secuencia, el texto se comprime. Pero aún hay mas. La distribución de la tabla que lista todas las secuencias no sigue las reglas de clasificación de un diccionario normal, si no que se adapta al archivo en concreto que queremos comprimir. El algoritmo <<aprende>> a distinguir qué secuencias aparecen mas a menudo y adapta la compresión a ellas. Cuando el tamaño del archivo aumenta, el espacio necesario para almacenarlo crece hacia la entropía del texto.
Fuente: La vida secreta de los números. GEORGE G. SZPIRO, ALMUZARA, 2009 ISBN 9788492573288
Este artículo es mi primera colaboración con la Edición 2.8 del Carnaval de Matemáticas, que en esta ocasión organiza Ciencia Conjunta.
Las matemáticas al servicio de la investigación literaria

Volver a la Portada de Logo Paperblog