Revista Informática

Para que sirve y como hacer un robot.txt

Publicado el 06 septiembre 2011 por Marigema

Lo que llamamos  robots.txt no es más que un archivo de texto que se puede puede crear con cualquier procesador de textos como  el bloc de notas por ejemplo. Se utiliza para indicarle a los buscadores que páginas o entradas de un blog o web queremos que aparezcan en los motores de búsqueda y cuáles no. Los buscadores encuentran los sitios web mediante robots y crawlers (rastreadores también llamdos bots o spiders-arañas-) que acceden a las páginas de un sitio web buscando información para añadirlas a los resultados de búsqueda,
El nombre del rastreador de Google es Googlebot, slurp el de Yahoo, scooter el de Altavista, etc., existen muchos más.
El uso de un robot.txt en el directorio raíz de nuestro sitio web es muy beneficioso pues con él podemos controlar el acceso de estos rastreadores ya que algunos tienen tal descontrol en sus peticiones que pueden llegar a saturar el servidor; otros no son “amigos” ni siquiera son de buscadores solo nos tratan de robar información tal como direcciones de correo para hacer spam ; eliminamos contenido duplicado lo que hará que los buscadores nos puntúen mejor y así aumentamos el flujo de visitantes al nuestro sitio, en él es posible indicarle donde está nuestro sitemap, y otros beneficios más.

Como crear un robots.txt

Este fichero consta de tres tags muy importantes que son:

User-agent:  Aquí debemos colocar el nombre del robot o el símbolo * para que nos visiten todos los robots.
Allow : Indica que páginas o secciones queremos que encuentren.
Disallow:
Oculta la información que no deseamos que parezca en las búsquedas.

Ejemplo para que nos visten todos los robots:


User-agent *

Allow: /robots.txt  (este post)
Allow: /los-buscadores
Disallow: /contacto
Disallow: /
política de privacidad

En este ejemplo permitimos la entrada a todos los buscadores y les pedimos que indexen robots.txt y los buscadores y que no indexen política de privacidad ni contacto.

Ejemplo solo para Google:

User-agent: Googlebot
Allow:
/robots.txt
Disallow: /contacto

Aquí solo le permitimos a Google que indexe robots.txt y que no indexe contacto.

Se pueden usar los comodines $  * en las rutas de Googlebot y Slurp:

User-agent: Slurp
Disallow: /*js$
Disallow: /2003/*
Disallow: /página/*/viaje/*


Volver a la Portada de Logo Paperblog