La ley de Zipf para la seña

Publicado el 11 agosto 2016 por Icmat

El coro del St Mary’s School for Deaf Girls interpreta Fix You (Coldplay)

Continuamos nuestro recorrido por el mundo de los sordos que iniciamos ayer con esta entrada en la que hablaremos de los lenguajes de signos y de la ley de Zipf.

El acrónimo ASL se refiere al “American Sign Language” o lenguaje de signos americano. Podría parecer algo egocéntrico por parte del continente denominar al lenguaje con su propio nombre. Sin embargo, la razón reside en que el lenguaje de signos procedente de Norteamérica es el más común en el mundo, y no sólo en Canadá o EEUU.

Nos podríamos preguntar: ¿Y por qué no denominarlo entonces GSL? Como Global Sign Language. La razón es que no existe un único lenguaje de signos, sino que cambia entre países, aunque el ASL es el más estandarizado. Por ejemplo, el lenguaje de signos francés es el más parecido al estandarizado ASL. Las diferencias principales están presentes en rasgos criollos, localismos muy influyentes en el ASL.

El alfabeto manual norteamericano

Aunque no sea un hecho muy conocido, el lenguaje de signos también tiene una fuerte influencia de otros lenguajes de signos utilizados en poblados, o características propias adquiridas en cada familia. Por ejemplo, el acuerdo de construcción de oraciones de acuerdo con el orden:

⁃   sujeto, verbo,objeto-

se ve alterado en muchas ocasiones por diferentes influencias en componentes fonéticos reforzados por movimientos de la cara, del torso o de las manos. Incluso dentro del ASL estandarizado, existen diferencias entre un mismo continente. Por ejemplo, entre EEUU y Canadá existen diferencias entre los llamados Atlántico ASL y ASL de Ontario. Además, la segregación racial ha contribuido a estas diferencias. Por ejemplo, las comunidades negras utilizan signos más arcaicos.

Existe otra variante del ASL, el denominado TASL, o “Tactile American Sign Language” destinado a personas con el síndrome de Usher: ciegas y sordas. Este lenguaje, como la propia palabra lo describe, es un lenguaje táctil.

A pesar de que el ASL es un lenguaje muy desarrollado con cientos de miles de usuarios, estos se sienten discriminados porque el resto de personas creen en la superioridad de los lenguajes hablados frente a los mímicos. Principalmente, se debe a la aparente inexistencia de una correspondencia entre el lenguaje de signos y un lenguaje escrito. Pero en 1825 se desarrolló una correspondencia entre los signos del ASL y su escritura, por el lingüista Roch-Ambroise Auguste Bébian. Un siglo más tarde, el lingüista W. Stokoe creó su notación específica con letras, acentos diacríticos para cada fonema, orientación, movimiento o posición. Como no pueden representarse formas faciales, este lenguaje escrito es más útil para palabras que para textos completos.

En 2010 surgió un nuevo proyecto muy ambicioso que permita el uso de internet a personas mudas y enseñar lenguaje de signos al resto de personas que desconozcan el lenguaje para poder comunicarse a través de él. Este proyecto es parte de WebSign que pretende diseminar todos los resultados de manera gratuita y accesible a toda la comunidad de educadores, estudiantes, investigadores, etc.

Signos para contar

La traducción del lenguaje de signos es una tarea complicada debido a la cantidad de datos que hay que aprender y procesar. Para poder lidiar con el conjunto de datos de forma sostenible, las matemáticas son el medio idóneo para el diseño de algoritmos que permitan el procesado e implementación de todas las combinaciones de forma computacional.

La rama de las Matemáticas dedicada a esta tarea es el análisis estadístico. El procesamiento del bilingüismo entre el inglés y el ASL se hace a través de la proposición de leyes de transformación entre el signo y la palabra. De 880 palabras iniciales para las que se busca una ley de transformación, surgen 800 millones de interpretaciones con palabras escritas. La estadística de formación de palabras y el número de frases construibles es enorme. Imaginemos todas las posibilidades de formación de oraciones como sujeto-verbo-predicado en textos largos. Esta computación puede llevar varias semanas.

La formación de reglas simples da lugar a la formación de reglas complejas. La sistematización y prueba de un lenguaje correcto están basados en la lógica formal: devolviendo verdaderos o falsos en el proceso de verificación.

La introducción de signos de ASL se realiza mediante una serie de símbolos que nos recuerdan a lenguajes de programación. A cada signo se le asocia una palabra, representada en mayúsculas. Las palabras deletradas con los dedos se traducen en palabras precedidas del símbolo # o guiones entre las letras. Los signos no manuales o miradas se representan con una serie de signos con una línea de escritura por encima de las palabras.

Para realizar un análisis estadístico del texto tiene que existir una biyección entre datos de textos en inglés y el lenguaje de signos. Sin embargo, dado que el ASL escrito aún está poco desarrollado, existen pocos datos accesibles, por lo que para la iniciativa de este proyecto se realizó el rastreo de nuevos textos para la conversión de más términos de ASL al lenguaje escrito.

Durante el proceso de recopilación de datos, se puso de manifiesto de nuevo la ley de Zipf, comentada en una de nuestras entradas pasadas. Brevemente, la ley de Zipf es una ley estadística que describe el número de apariciones de las palabras más frecuentes frente al número de apariciones del resto de ellas. Se ve una correlación numérica entre tales apariciones, como: que la palabra que más veces aparece se cuenta un número de veces correspondiente al doble del número de veces que aparece la segunda y tres veces más frecuente que la tercera, etc.

Dado el volumen de datos, la interpretación del texto se hace mediante cortes en las frases, la tokenización, la discriminación entre abreviaturas (del estilo “can’t” para “ can not”), el genitivo sajón (man’s), cuya inclusión hacen del análisis estadístico del texto una tarea más complicada en la computación de las diferentes probabilidades y significados.

Este es un ejemplo de reinterpretación de una frase cuando el lenguaje entrada es el inglés escrito.

Como vemos, la frase se transcribe de manera que el orden gramatical puede cambiar de diferentes formas, atendiendo a la probabilidad de diferentes interpretaciones. A cada palabra se le asocia una transcripción escrita de ASL y se combinan los significados de interpretación. La validación de las reglas de transformación es una tarea inconclusa por el momento, dado el gran número de datos que modelizan un texto.

Big Data y la computación, junto con las matemáticas,  son las ciencias del futuro en la vida de la era de los grandes números, internet, la globalización, el crecimiento exponencial de los recursos…, un largo número de recursos que deben ser interpretados de forma meticulosa, analizados lógicamente mediante exposición matemática.

La Neurociencia es un ejemplo de rama científica en auge que hace uso de las disciplinas recién mencionadas. Su estudio es multidisciplinar: desde el estudio puramente molecular hasta el específicamente conductual y cognitivo, pasando por el nivel celular. Las matemáticas, el análisis estadístico y Big Data juegan un papel importante en el estudio de las operaciones de redes neuronales. La Física, juega un papel trascendental en la conducción del estímulo en la sinapsis, la psicología en el área cognitiva, etc.

El estudio de las redes neuronales se realiza seleccionando células apropiadas con conexiones sinápticas cuyas proyecciones axonales en nuestro cerebro se distribuyen de forma ordenada formando un mapa topográfico que se interpreta desde el punto de vista analítico y estadístico.

Y es que, la neurociencia, o ASL son sólo ejemplos de un gran conjunto de disciplinas que requieren “las ciencias de las altas cifras”. ¿Qué es, sino, la humanidad? Más que una mera estadística, un número de personas que nacen que contabilizar, desgraciadamente, un número de personas que mueren y que contabilizar y que cuyo trabajo a lo largo de los años se cuantifica con los grandes números tratados con ciencias “de las altas cifras”? El siglo XXI es el siglo del contaje, del almacenamiento y de la tratabilidad de los números (a los que se traducen los datos de una u otra manera).

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias, ICSU) y Cristina Sardón (ICMAT-CSIC).

Compartir