Revista Comunicación

Robots.txt: Guía para Optimizar en los Motores de Búsqueda

Publicado el 27 mayo 2014 por Elchesemueve Alberto Díaz Calatayud @Elchesemueve
Robots.txt: Guía para Optimizar en los Motores de Búsqueda

Robots.txt es un pequeño archivo en tamaño pero enorme en importancia. Una mala configuración de este archivo, en un par de líneas y nuestro Sitio se puede caer sin remisión. Por ejemplo, si por error le decimos al archivo que no rastree determinadas páginas, no apareceremos en los resultados -SERP´s- de búsqueda en Google o Bing. Es, por tanto, un archivo que hay que mirar con especial cuidado.

Afortunadamente, los errores son fáciles de detectar y solucionar. En este artículo vamos a intentar explicar su funcionamiento y cómo configurar nuestro robots.txt para ser encontrados por los Motores de Búsqueda.


¿Qué es Robots.txt?

En síntesis: Un archivo ubicado en la raíz de tu Sitio Web que permite o restringe el acceso de los Motores de Búsqueda a determinados directorios.

Los Motores de Búsqueda son una enorme biblioteca de Páginas Web del mundo, gracias a que Google, Bing y demás buscadores envían a sus "arañas" o rastreadores por toda la Red, en busca de nuevas páginas o actualizaciones de estas con el fin de agregarlas a dicha biblioteca. Lo primero que hacen estos rastreadores es buscar el archivo robots.txt de tu Sitio y, una vez consultado, saben perfectamente qué páginas indexar y qué páginas no deseas que sean indexadas. Aquí hay que hacer una aclaración, existe una diferencia entre "crawl" e "index" y es que un motor de búsqueda puede leer una página, pero no indexarla y al revés. Depende de las instrucciones que hayas especificado en tu archivo robots.txt.

¿Es necesario este archivo?

Digamos que es necesario pero no obligatorio, es decir, no recibirás penalización de los Buscadores si no encuentran tu archivo robots.txt, pero indexarán todas tus páginas en la base de datos. No es recomendable esto, ya que muchas de las páginas de nuestro sitio no deberían aparecer en los resultados de búsqueda. Eso sí, como quiera que los rastreadores buscarán primero este archivo, si no lo encuentran, devolverán un mensaje de error 404, por lo tanto, para evitar esto, lo mejor es disponer de un archivo robots.txt vacío.

¿Cómo ayuda tener un archivo robots.txt?

Entre otras cosas, disponer de este archivo te puede ayudar a:
  • Si dispones de páginas o directorios que no quieres que aparezcan en los resultados de búsqueda, SERP´S
  • Cuando nuestro Sitio está gestionado por un CMS y muchas páginas están duplicadas. Con el archivo robots.txt especificamos qué páginas queremos en el índice y cuáles no.
  • Los directorios de administración o archivos internos que no queremos que aparezcan en las SERP´s
  • Indicar a los Motores de Búsqueda donde se encuentra nuestro archivo sitemap.xml
  • Especificar la versión de archivo a indexar, por ejemplo, si disponemos de extensiones en pdf o html

Un archivo robots.txt es como una aclaración, algo así como: "Por favor, no escriba esto... haga esto otro".

A tener en cuenta

Fundamentalmente tres cuestiones importantes respecto a tu archivo robots.txt:
  • El archivo puede ser ignorado por los Motores de Búsqueda si tu sitio es atacado por otros robots spammers en busca de vulnerabilidades en tu Web.
  • Has de saber que el archivo robots.txt es público, cualquier persona puede visualizar el contenido del mismo y ver qué archivos y directorios tienen permiso para ser explorados. Obviamente, también los que tienen intenciones poco honestas lo ven.
  • Los rastreadores pueden tener permiso para indexar una página, pero si esta es un enlace externo no incluirán el Título ni la Meta Descripción, únicamente el enlace.

Ahora vamos a ver tu fichero robots.txt, para ello escribe en la ruta URL tu dominio y a continuación el nombre del archivo, algo así como: http://tudominio.com/robots.txt. Si aparece esto: User-agent: * Disallow: /, tienes un pequeño problema y has de crear rápidamente el archivo.

Cómo crear un archivo robots.txt

Los pasos a seguir por escrupuloso orden, son los siguientes:
  • Abre el editor de textos básico de Windows, Ubuntu o Sistema Operativo que tengas y crea un archivo llamado robots.txt, tal cual, no cambies el nombre y recuerda, todo minúsculas.
  • Súbelo al directorio raíz de tu sitio, no a un subdirectorio. Hazlo mediante una cuenta ftp o bien desde tu Panel de Control del Hosting contratado, normalmente CPanel.
  • Si se ha realizado correctamente, ahora sí deberías ver tu archivo robots.txt en la raíz de tu WebSite.

Antes de seguir adelante, quiero aclarar que tu archivo robots.txt no tiene nada que ver con la seguridad de tu Site, no influye ni negativa ni positivamente. Para esto ya está el archivo .htaccess, pero eso lo veremos en un capítulo posterior.

Una buena manera de configurar nuestro archivo es abrir otros, bien de la competencia directa o bien de páginas de reputado prestigio, como Google, Joomla, WordPress, etcétera, ehcar un vistazo y guiarnos por ellos.

User Agent:

En esta línea damos la bienvenida a los diferentes robots de los Buscadores, si especificamos, detrás del comando User-agent un asterisco * estamos dando la bienvenida a todos los robots que rastreen nuestro sitio. En otras palabras, todos tienen acceso. Sería algo así:

  • User-agent: *

Ahora bien, si lo que deseamos es restringir el acceso a únicamente los robots que nosotros queremos que indexen nuestras páginas, hay que especificarlo por separado, algo así como:

  • User-agent: Googlebot. Para el robot de Google
  • User-agent: Slurp. Para el robot de Yahoo

Para diferentes robots, consulta http://www.robotstxt.org/db.html, aunque por su idiosincrasia particular es difícil saber si está totalmente actualizado. En cualquier caso, es información útil. Es recomendable también consultar los accesos de los robots a tu Site a través del Servidor y, a partir de ahí, especificar las directivas particulares para cada uno.

Ahora vamos a decir a los robots qué pueden y no pueden hacer en tu sitio.


Disallow:

Esto indica a los robots lo que NO QUIERES QUE HAGAN EN TU SITIO. Por ejemplo, si no queremos que el robot de Google rastree e indexe nuestras imágenes, le diríamos lo siguiente:

  • User-agent: Googlebot-Image Disallow: /images/

Particularmente, esto no me parece una buena idea, ya que si te has preocupado por utilizar el atributo alt="" en tus imágenes, es buena estrategia que Google nos indexe este contenido, a efectos SEO, ya que es una manera muy útil de encontrarnos, pero cada uno es libre de decidir.

Allow:

Esto indica a los robots lo que SÍ QUIERES QUE HAGAN EN TU SITIO. Por ejemplo, si queremos que rastreen toda la Web, debemos indicar lo siguiente:

  • User-agent: * Allow: /

Esto último es lo mismo que NO tener archivo robots.txt, por lo tanto, obvia decir que es un paso intrascendente. Pero si lo que queremos es que no rastreen todo excepto un directorio en concreto, debemos escribir algo así:

  • User-agent: * Disallow: /web/ Allow: /web/miscosas.html

Importante: Las directivas específicas anulan las generales. Si queremos que ningún robot rastree nuestro Sitio excepto el de Google, hemos de escribir lo siguiente:

  • User-agent: * Disallow: / User-agent: Googlebot Allow: /

El asterisco * es muy útil para las instrucciones, pues es como decirle a los robots que coinciden con cualquier tipo de caracter. Por ejemplo, si queremos que no rastreen todo lo referente a contacto, escribiríamos lo siguiente:

  • User-agent: * Disallow: *contacto*

Con esto obtendríamos la restricción a páginas como estas (ejemplo):

  • /contacto-con-nosotros/
  • /contacto/formulario.php/
  • /empresa/contacto.html

Signo $ - Ends With:

Esto indica a los robots que es el final de la URL. Sería algo así como:

  • User-agent: Google-bot Disallow: *.doc$

Sin embargo, si queremos decir a los robots que no queremos rastrear algunos archivos de nuestra Web excepto los especificados en un directorio y con una extensión única, escribiremos algo así:

  • User-agent: * Disallow: /help/*.php$

#(Hash/comentarios):

Se utiliza la # almohadilla a título informativo para organizar a nuestro gusto el archivo robots.txt. Se puede ubicar tanto delante como detrás de cada directiva, por ejemplo:

  • # Instrucciones para todos los Robots User-agent: * Disallow: /archives/ # disallow rastrear todos los archivos de esta categoría

Sitemap:

Normalmente, el mapa del sitio se encuentra en la misma raíz, por ejemplo: http://misitio.com/sitemap.xml. No es necesario especificar una directiva para encontrar el mapa del sitio y tampoco su ubicación, aunque es recomendable usar la primera o última línea.

Crawl-Delay:

Estas directivas no son muy utilizadas, pero es bueno conocerlas. Es una forma de comunicar a los Robots que se tomen un tiempo después de rastrear mi Web entre petición y petición. Por ejemplo, si le queremos decir esto al Robot de Yahoo -Slurp-, escribiremos lo siguiente:

  • User-agent: Slurp Crawl-delay: 5

Si queremos que el Robot rastree una cierta cantidad de páginas en un intervalo de tiempo, escribiremos lo siguiente:

  • User-agent: * Request-rate: 1/5 # load 1 page per 5 seconds

Visit Time:

Es como especificar un horario de apertura de tu negocio o Web. Algunos se preguntarán qué utilidad tiene esto... pues la tiene. Si tu Web recibe una cantidad de visitantes elevada en una hora determinada, puedes decir a los Robots que en ese intervalo de tiempo no rastreen tu Sitio y así mantener el ancho de banda libre para los usuarios. Lo escribíriamos de esta manera:

  • User-agent: *Visit-time: 2100-0500 #visita solo entre 21:00 (9PM) y 05:00 (5AM) UTC (GMT)

Comprobar y probar nuestro archivo robots.txt

Existen muchas herramientas online para ello, pero es preferible y recomendable utilizar las Google Webmasters Tools o bien Bing´s Webmasters Tools. Ambas chequean perfectamente tu Web. En las Herramientas de Webmasters de Google hay que acudir al apartado Configuración del Sitio/Crawl Rate/ y aquí le diremos si puede o no rastrear nuestro sitio. En el apartado Rastreo puedes ver los errores, páginas 404, frecuencia de rastreo, URL´s bloqueadas, etcétera. En cuanto a las Herramientas de Bing funciona de manera parecida, aunque para mi gusto es más completa que la de Google ya que permite personalizar al máximo el rastreo, frecuencia, indexación de páginas específicas, etcétera. Recuerda acuidr a menudo -cada dos o tres días- a estas dos Páginas de Herramientas, sobre todo si has actualizado tu web, tanto en contenido como en diseño.


Volver a la Portada de Logo Paperblog