Almacenando millones de palabras para alcanzar la traducción automática perfecta

Los seres humanos siempre han soñado con máquinas para traducir las lenguas de los extranjeros, acaso como ese dispositivo tipo Star Trek que nos permitiría acceder a la comunicación universal. Latraducción automática, de hecho, ya fue un objetivo de los pioneros de la informática en la década de 1940, cuando los ordenadores ocupaban habitaciones enteras.

En 1954, combinando reglas gramaticales y un diccionario bilingüe, un ordenador de IBM tradujo 60 frases rusas al inglés. Concretamente usó 250 pares de palabras de vocabulario y 6 reglas gramaticales. Alguna de las frases que se tradujeron impecablemente fueron, por ejemplo, “Mi pyeryedayem mislyi posryedstvom ryechyi”. Tras el reverberar del IBM 701, por medio de tarjetas perforadas, salió: “Transmitimos pensamientos por medio del habla”.

El logro fue tan celebrado, resultó tan impresionante para todo el mundo, que al director del programa de investigación, Leon Dostert, no le dolieron prendas al pronosticar que en un plazo de cinco años, aproximadamente, la traducción automática constituiría un “hecho acabado.”

Sin embargo, con el transcurrir de los años, los expertos advirtieron que traducir automáticamente entrañaba más obstáculos de lo que parecía. El ordenador no sólo debe aprender las reglas, sino las excepciones; y la traducción no consiste sólo en memorizar y recordar, sino en usar la inteligencia para escoger las palabras correctas entre muchas opciones.

A partir de 1980, los investigadores empezaron a permitir que el ordenador usara la probabilidad estadística para calcular qué palabra o frase de un idioma en concreto era la más oportuna, además de tener en cuenta las reglas lingüísticas explícitas junto con un diccionario. En la década de 1990, el programa Candide de IBM usó el equivalente a 10 años de transcripciones de sesiones del Parlamento de Canadá publicadas en francés y en inglés: unos tres millones de pares de frases.

Empezaba, pues, un salto conceptual, una nueva era llamada traducción estadística automática, lo que permitió que las traducciones a través de un ordenador se volvieran mucho más precisas. Con todo, las buenas traducciones distaban mucho de producirse. Hasta 2006.

Artículo completo en: XATAKA Ciencia