Cómo funcionan los buscadores

Por Desamark

Vamos a ver cómo funcionan los buscadores.

¿Cómo funciona un buscador como Google?

Cuando hablamos de buscadores casi siempre nos referiremos a Google porque es el que tiene practicante todo el mercado. Pero si te dedicas a mercados locales la cosa cambia.

En las búsquedas desde EEUU el buscador más usado es Google

Pero en las búsquedas desde China el buscador más usado es Baidu.

Pero independientemente del buscador usado, si quieres dedicarte al SEO el primer paso es entender cómo funcionan los motores de búsqueda para facilitarles su trabajo y que te premien por ello.

¿Cómo funciona un buscador?

Antes de mostrar un resultado en la SERP (página de resultados del buscador), Google tiene que rastrear y luego indexar los billones de páginas que existen en internet. Es decir, antes de rankear o mostrar un resultado, un buscador debe de conocerlo.

A continuación vamos a ver todas las fases del funcionamiento de un buscador para saber cómo podemos hacer que nuestra web sea encontrada por los buscadores y como consecuencia, por las personas.

1 - Rastrear

El rastreo, también conocido como crawling, es la primera fase del funcionamiento de un buscador.

En esta fase Google utiliza Googlebot, una serie de robots (programas también conocidos como crawlers o spiders) que van siguiendo los enlaces que hay en las páginas web. Gracias a estos spiders, Google es capaz de encontrar prácticamente todas las páginas que existen.

Si en tu web los enlaces no son accesibles, los buscadores tendrán dificultadas para seguirlos y encontrar todas las páginas de tu sitio.

Por ejemplo en la siguiente imagen vemos el menú de una web que a priori parece que no debería tener problemas.

Los enlaces se pueden pulsar pero en realidad los buscadores no pueden acceder a ellos. ¿Cómo podemos saberlo?

Una manera de ver si un enlace es accesible es comprobar cómo google tiene guardada tu página en su caché. Para ello pondremos en nuestro navegador, delante de la URL de tu sitio la palabra "cache:" de la siguiente forma.

Tienes que cambiar www.tudominio.com por la página que quieras ver.

A continuación pulsamos "enter" y luego pulsamos en el link que dice "versión de solo texto":

Si usas Internet explorer, para ver la caché, busca la página en Google y luego pincha sobre la flecha que hay a la derecha de la url de la página. Luego pincha "En caché".

Lo que veremos en este momento es cómo guarda Google nuestra página en su caché. Y es aquí donde podemos ver si los enlaces anteriores son o no son accesibles.

Siguiendo con el ejemplo nos encontramos que Google no ve como enlace los links "Furgoneta", "Camión", "Tractora" y "Semirremolque", por lo tanto Google no podrá acceder a estas secciones y en consecuencia esas páginas no aparecerán en Google (a menos que estén enlazadas correctamente desde otro lugar).

Esto es muy común si se usa Javascript, Ajax o Flash en los elementos de navegación.
En ocasiones, aunque los enlaces sean accesibles, si tu web es muy grande y tiene una arquitectura de la información mal hecha, es muy probable que el buscador tenga problemas para acceder a ciertas páginas. Generalmente ocurre con páginas que se encuentran en los niveles más profundos de la arquitectura del sitio como fichas de producto de categorías poco populares.

Para solucionarlo lo mejor es tener una arquitectura muy bien trabajada donde las páginas que nos interese posicionar no se encuentren a un nivel muy interno (a muchos clics de distancia de la home). También ayuda el hacer acciones de link-building contra secciones internas, es decir, crear una red de enlaces internos hacia estas páginas que permita a los buscadores encontrarlas más fácilmente.

No es habitual, paro también podría ocurrir que nuestro sitio no sea rastreable por los buscadores por el despiste del programador al lanzar la web, por olvidarse de abrir el archivo robots.txt a los buscadores. Si entráis en www.tudominio.com/robots.txt y tenéis las siguientes instrucciones entonces ningún buscador podrá acceder a vuestro sitio web:

User-agent: *
Disallow: /

Cuando el crawler rastrea una web, el segundo paso es indexar, en inglés "indexing".

Esta fase es necesaria porque una vez que Google tiene todas las páginas debe prepararlas para que puedan indexar. Lo que hacen los buscadores es clasificar las páginas en función de la relevancia de los contenidos que hay en ellas y esto permita que la entrega de los resultados de búsqueda sea mucho más rápida.

¿Cómo funciona el índice de Google?

Por ejemplo, imaginar en que en todo internet existen solamente 100 páginas web. De ellas que contengan la palabra "curso" solo hay 7 páginas (las páginas 10, 2, 23, 5, 56, 44 y 38) y que contengan la palabra "seo" existen 6 (las páginas 15, 2, 23, 90, 9 y 44).

Los buscadores guardan y clasifican en su índice toda esta información. De una forma muy simplificada el índice de Google sería así:

Donde cada fila se llama "posting list".

Ahora imaginaros que alguien busca "curso seo". Gracias al índice que se ha creado, Google sabrá cuales son los documentos que contienen ambas palabras:

En este caso la fila "curso seo" es la intersección de las dos "posting list" creadas. Gracias a esta intersección se sabe que las páginas 2, 23 y 44 son las candidatas a mostrarse en la fase de ranking.

Problemas en la indexación

Los problemas de indexación más comunes son producidos por problemas de accesibilidad (recordar lo que hemos comentado en el apartado de rastreo).

También es probable que una página no se indexe porque esté duplicada o sea de baja calidad. Porque cuando Google se encuentra una página duplicada se guarda el derecho a indexarla.

¿Cómo ver rápidamente problemas de indexación?

Una manera de ver si tenemos problemas de indexación es la siguiente:
1. Pide que te pasen todas las urls de tu web (lo puedes sacar de BBDD o pasando un crawler).

2. Haz la siguiente búsqueda en google con tu nombre de dominio.

El comando site: te da un número aproximado de las páginas indexadas que tiene tu sitio.

Si por ejemplo tuviera 1000 artículos en mi blog, y veo que Google solo tiene 164 indexados, esto sería una señal de que tengo problemas con mi sitio. Es decir, que estoy perdiendo una oportunidad de aparecer en Google.

Por último llegamos a la tercera y última fase, la más compleja para un buscador. Esta fase consiste en mostrar los resultados más relevantes para una búsqueda determinada.

Como vimos en la fase de indexación, las páginas 2, 23 y 44 eran las mejores para ser mostradas para la búsqueda "curso seo". Es ahora, justo en el momento de la búsqueda, cuando Google determina cuál es la mejor y para ello comprueba más de 200 factores. Por ejemplo, se fija en:

- Si la página tiene esas palabras en lugares clave (title, url, alt, h1...)
- Si la página tiene esas palabras juntas. Es decir, para esa query es mucho más relevante que la página tenga escrito "curso seo" que "curso para aprender de una vez por todas seo". Y otros muchos conceptos semánticos.
- La cantidad, fuerza y calidad de los enlaces que reciba esa página.
- Tu historial de búsqueda, localización, dispositivo usado... para entender la intención y el contexto de la búsqueda. Por eso los rankings fijos no existen.
- La confianza de esa página.

¡Y todo esto lo hace en menos de medio segundo!

Por último en este video Matt Cutts, ingeniero de calidad de Google, nos explica cómo funciona un buscador de forma más sencilla y visual.