El nombre de los robots de Google

Nombre de los robots de Google

El nombre de los robots de Google

Google utiliza varios robots (9) que recorren la red evaluando y clasificando las páginas que visitan. Google elabora su índice a partir de la información que recopilan estos robots. Podemos permitir o denegar el acceso total o parcial (excluir directorios, páginas y archivos) a nuestro site de estos robots mediante el archivo robots.txt y mediante las metaetiquetas robots.

El archivo robots.txt se encuentra en la raíz de nuestra web y es lo primero que consultan los robots para saber qué pueden o no recorrer e indexar. Hay tres sentencias básicas:

User-agent: * (se refiere al nombre del crawler, el asterisco representa a todos los robots)
Allow: / directorios, páginas o archivos a los que damos acceso a los robots
Disallow: / los directorios, páginas o archivos que impedimos sean rastreados por el robot.

Las metaetiquetas robots <meta name=”robots” content=”…, …” /> nos permiten dar instrucciones muy concretas a los crawlers de forma genérica (noindex, nofollow, nosnippet, noodp, noarchive, unavailable_after:[date], noimageindex) e incluso podemos personalizarla sustituyendo el término “robots” por el nombre del bot que deseamos no indexe nuestros contenidos (<meta name= Googlebot content=”…, …” />

Googlebot: rastrea páginas web para indexarlas. No sólo extrae información del HTML, sino además de archivos PDF, DOC, XLS, PPT, etc. La frecuencia de rastreo es directamente proporcional a la importancia (PageRank) que tenga la web
Feedfetcher: es un user-agent asociado a Googlebot que se encarga de registrar el acceso a los feeds RSS o Atom que los usuarios añaden a sus páginas de iGoogle o Google Reader. Este es el único robot que como es activado de forma manual por un humano no obedece las indicaciones del archivo robots.txt
Googlebot News: también es conocido como “freshbot” rastrea páginas de noticias (CNN, Reuters, BBC, periódicos diarios, etc ), o páginas que Google considera que actualizan con frecuencia sus contenidos
Googlebot-Image: rastrea páginas para el índice de imágenes
Googlebot Video: rastrea páginas buscando vídeos
Googlebot-Mobile: rastrea páginas para el índice móvil. Utiliza dos user-agent (crawlers o rastreadores) uno para las páginas destinadas a móviles tradicionales (utilizan navegadores muy limitados para poder visualizar páginas) y otro user-agent para las páginas destinadas a teléfonos inteligentes (smartphones) con navegadores más completos y similares a los navegadores de ordenadores de escritorio. Si la página para móviles redirige a una página específica para smartphone, Google indexa esta URL final para evitar la latencia (entre 0,5 y 1 segundo) de demora que causa la redirección. Es decir, identifica el modelo del móvil y navegador que hace la consulta para ofrecerle en la página de resultados las URL’s optimizadas.
Google Mobile AdSense: rastrea las páginas móviles para el contenido de AdSense
Mediapartners-Google: rastrea páginas para determinar el contenido de AdSense.
Adsbot-Google: sólo rastrea las landing pages utilizadas en las campañas de Adwords para para evaluar la calidad de la página de destino en función de 3 criterios: “contenido relevante y original, transparencia y facilidad de navegación”.

Revista Informática

El nombre de los robots de Google

El nombre de los robots de Google

Sobre el autor

Sus últimos artículos

Dossiers Paperblog

Revistas

LA COMUNIDAD INFORMÁTICA

JUEGOS EN ES.PAPERBLOG.COM