Revista Ciencia

Un algoritmo para gobernarlos a todos

Publicado el 31 mayo 2020 por Scarioshr Óscar Huertas @ScariosHR

Un algoritmo para gobernarlos a todos

Cuando José María Aznar llega a ser presidente del gobierno, Google acababa de nacer, pero aún ni se llamaba Google (por poner un antecedente que muchos tendremos en la cabeza seguramente por traumático). Durante un tiempo su partido aspiraba a aglutinar a toda la derecha, a ser el anillo de poder del liberalismo en España. El tiempo ha desgajado en varios partidos la derecha (porque la izquierda era difícil partirla en más facciones), pero los poderes de sus anillos siguen unidos de alguna forma. Y ahora vamos a relacionar Google con poder y el señor de los anillos.

La referencia a Aznar la he usado porque debería hacernos pensar el poco tiempo que hace que existe este buscador y es bueno que sepamos que no es el único. Que hoy día se usan otros y que antes que Google, había más.

Un algoritmo para gobernarlos a todos

Un algoritmo para gobernarlos a todos

La World Wide Web existía antes pero fue en 1989 cuando Tim Berners-Lee se dio cuenta de que los enlaces entre documentos podrían resultar útiles para distribuir y compartir información. Sin embargo hasta 1993, el contenido de la web se indexaba a mano. En Junio de ese año el investigador del MIT Matthew Gray escribió en lenguaje Perl el código Wanderer, el primer bot capaz de indexar de forma automática. Ese mismo verano el profesor Oscar Marius Nierstrasz escribió también en Perl un conjunto de script que copiaba periódicamente los índices de la web. Comenzaba así la automatización de la WWW. Poco después aparecen Lycos, Yahoo y el gigante Google.

El factor diferenciador de Google, aunque no sólo, sería el algoritmo PageRank y es que realmente funciona muy bien. Hay pocos sitios del mundo donde google no se haya impuesto (Rusia, que usa Yandex, China que usa Baidu, Japón y Taiwan con Yahoo, surcoreanos con Naver y en República Checa Seznam).

Los creadores de Google fueron Larry Page (Ingeniero informático por la U. de Michigan y Dr. en informática en Stanford) y Serguéi Brin (Graduado en informática y matemáticas por la U. de Maryland y Dr. en informática en Stanford). Se conocieron en Stanford.

Las matemáticas han tenido mucho que decir en la creación de Google. Brin tenía una habilidad innata para las matemáticas y es hijo de dos matemáticos. Page, al poco de llegar a Stanford, asistió a una conferencia que le daría la idea de explorar las propiedades matemáticas de la WWW asemejando su estructura de hiperenlaces a un enorme grafo de relaciones binarias.

No en vano el propio nombre de Google hace referencia a un juego de palabras "googol" que representa al 1 seguido de 100 ceros.

Page se dió cuenta de que los hiperenlaces de las páginas de internet eran lo mismo que las citas de las publicaciones científicas, una forma de medir su relevancia. Así que escribió un rastreador al que llamó BackRub que le permitía explorar e indexar las páginas web de aquella estructura. Brin se unió en esta tarea, pero aún les faltaba algo más. Un algoritmo capaz de recoger los datos devueltos por su indexador para transformarlos en una medida de "impacto" o relevancia de la página. Y este sería el germen de PageRank.

Básicamente se trata de localizar todos los enlaces que dirigen a una página, darles un valor proporcional a la importancia y ordenar las páginas en función de este valor. Si una página es referenciada muchas veces será porque tiene más importancia y/o valor y por tanto la pongo arriba del ranking intuyendo que será la que mejor se ajuste a una búsqueda determinada.

BackRub y PageRank fueron puestos a prueba en 1996 en la red de Stanford y un años después se convirtió en una empresa al detectar la potencia comercial de la herramienta.

Como la filosofía del algoritmo es fácil de intuir y actuar en consecuencia, muchas páginas no tardaron en hacer trampas para posicionarse mejor y los mejoradores de posicionamiento SEO no tardaron en llegar. En la actualidad Google cambia su algoritmo unas 500 veces al año y resulta difícil seguirles la pista. El peso que se da a cada hiperenlace va variando en función de varios criterios. Por destacar algunos que se han puesto en marcha:

  • PANDA es una actualización lanzada en 2011 que penaliza el contenido de baja calidad por ser corto, contener información poco relevante o por estar mal redactado.

  • PENGUIN se lanzó en 2012 e incluía una mejor detección de enlaces de poco valor, comprados, redes de artículos, directorios y básicamente cualquier dinámica de modificación de links de tu web.

  • HUMMINGBIRD salió en 2013 y se centra en búsquedas semánticas y knowledge graph para buscar conexiones entre conceptos.

Se trata en definitiva de que las páginas se posicionen por la calidad de su contenido y no por estrategias de conocimiento del algoritmo que falsean los datos pero no aportan nada. Pero no pensemos en Google como un gran benefactor. Es cierto que cuánto más útil nos sea el buscador, más lo vamos a usar, pero además el peso e importancia de un enlace se puede modificar también con la cantidad adecuada de dinero.

Esto nos lleva a un problema. Si solamente usamos este buscador para encontrar información en la web nos estamos perdiendo toda la información en páginas mal posicionadas, las que no están posicionadas de ninguna forma en este buscador. En definitiva, estamos usando el anillo (buscador y algoritmo) único para buscar el resto de anillos de poner... pero igual nos estamos dejando muchos anillos preciosos por el camino que sin tener tanto poder pueden contener ideas e historias dignas de ser tenidas en cuenta.


Volver a la Portada de Logo Paperblog