El nombre de los robots de Google

Publicado el 11 septiembre 2012 por Tomasesteban @tomasesteban

El nombre de los robots de Google

Deja una respuesta

Google utiliza varios robots (9) que recorren la red evaluando y clasificando las páginas que visitan. Google elabora su índice a partir de la información que recopilan estos robots. Podemos permitir o denegar el acceso total o parcial (excluir directorios, páginas y archivos) a nuestro site de estos robots mediante el archivo robots.txt y mediante las metaetiquetas robots.

El archivo robots.txt se encuentra en la raíz de nuestra web y es lo primero que consultan los robots para saber qué pueden o no recorrer e indexar. Hay tres sentencias básicas:

  • User-agent: * (se refiere al nombre del crawler, el asterisco representa a todos los robots)
  • Allow: / directorios, páginas o archivos a los que damos acceso a los robots
  • Disallow: / los directorios, páginas o archivos que impedimos sean rastreados por el robot.

Las metaetiquetas robots <meta name=”robots” content=”…, …” /> nos permiten dar instrucciones muy concretas a los crawlers de forma genérica (noindex, nofollow, nosnippet, noodp, noarchive, unavailable_after:[date], noimageindex) e incluso podemos personalizarla sustituyendo el término “robots” por el nombre del bot que deseamos no indexe nuestros contenidos (<meta name= Googlebot  content=”…, …” />

  • Googlebot: rastrea páginas web para indexarlas. No sólo extrae información del HTML, sino además de archivos PDF, DOC, XLS, PPT, etc. La frecuencia de rastreo es directamente proporcional a la importancia (PageRank) que tenga la web
  • Feedfetcher: es un user-agent asociado a Googlebot que se encarga de registrar el acceso a los feeds RSS o Atom que los usuarios añaden a sus páginas de iGoogle o Google Reader. Este es el único robot que como es activado de forma manual por un humano no obedece las indicaciones del archivo robots.txt
  • Googlebot News: también es conocido como “freshbot” rastrea páginas de noticias (CNN, Reuters, BBC, periódicos diarios, etc ), o páginas que Google considera que actualizan con frecuencia sus contenidos
  • Googlebot-Image: rastrea páginas para el índice de imágenes
  • Googlebot Video: rastrea páginas buscando vídeos
  • Googlebot-Mobile: rastrea páginas para el índice móvil. Utiliza dos user-agent (crawlers o rastreadores) uno para las páginas destinadas a móviles tradicionales (utilizan navegadores muy limitados para poder visualizar páginas) y otro user-agent para las páginas destinadas a teléfonos inteligentes (smartphones) con navegadores más completos y similares a los navegadores de ordenadores de escritorio. Si la página para móviles redirige a una página específica para smartphone, Google indexa esta URL final para evitar la latencia (entre 0,5 y 1 segundo) de demora que causa la redirección. Es decir, identifica el modelo del móvil y navegador que hace la consulta para ofrecerle en la página de resultados las URL’s optimizadas.
  • Google Mobile AdSense: rastrea las páginas móviles para el contenido de AdSense
  • Mediapartners-Google: rastrea páginas para determinar el contenido de AdSense.
  • Adsbot-Google: sólo rastrea las landing pages utilizadas en las campañas de Adwords para  para evaluar la calidad de la página de destino en función de 3 criterios: “contenido relevante y original, transparencia y facilidad de navegación”.