Hace unos días tuve un "pequeño" problema y era que las nuevas entradas no estaban siendo indexadas por Google. Al revisar la web con las Webmaster Tools me encuentro con la sorpresa de una advertencia en los site maps: se me había ido la mano y el archivo robots.txt estaba impidiendo la indexación de la web. Y es que el archivo robots.txt es un archivo muy olvidado en las instalaciones de WordPress, y aunque no tenerlo, o tenerlo vacío, no va a suponer ningún problema de funcionamiento para el blog lo cierto es que tenerlo bien configurado ayudará, y mucho, a mejorar el posicionamiento SEO de los contenidos y el funcionamiento general de la web. Veamos por qué y cómo configurarlo.
Función del archivo robots.txt
Por defecto, cualquier buscador intentará indexar todo lo que encuentre en tu web y la función de este fichero es la de indicar a los robots de los buscadores que secciones o páginas de la web puede indexar y que otras secciones no debe indexar. Esto puede ser interesante por varios motivos, por ejemplo:
- Tienes contenidos que no quieres que aparezcan en las búsquedas.
- Tienes wordpress y quieres prevenir problemas por contenido duplicado.
- Para evitar gastar ancho de banda y carga del servidor indexando ficheros del sistema que no tienen valor para tus visitantes.
Otra función asignada a este fichero es la de indicar la ubicación del sitemap de tu blog. Por ejemplo:
Sitemap: http://mi_blog/sitemap.xml
Limitaciones del robots.txt
Como nos informa Google, este archivo tiene una serie de limitaciones, entre ellas:
-
Las instrucciones de robots.txt son solo indicaciones
Al contrario que las instrucciones del archivo .htaccess que son obligatorias, las instrucciones de los archivos robots.txt no son de obligado cumplimiento. Sin embargo sigue siendo una opción interesante habilitar las búsquedas para los que nos interesan y bloquear todos los demás.
-
Cada buscador puede interpretar la sintaxis de formas diferentes
Por ello debes conocer la sintaxis adecuada para cada uno de ellos (aunque aquí el rey es Google). Te dejo el enlace con las indicaciones de sintaxis de Google.
La ubicación del archivo robots.txt
Sencillamente en el directorio raíz de tu web, de tal forma que la dirección del mismo será http://mi_web/robots.txt
Si lo colocas en cualquier otro sitio no será tenido en cuenta.
La configuración básica
Como su extensión indica, el archivo robots.txt es un archivo en formato texto, por lo que puede ser creado o editado por cualquier programa de edición básico como el notepad o el wordpad, y su estructura básica está compuesta por el comando "User-agent:" seguido de un parámetro que servirá para definir el robot al que se dirigen las siguientes indicaciones, y los comandos "Allow:" y "Disallow:" para indicar los ficheros o directorios que deberían, o no, ser indexados.
Las indicaciones "Allow" deben colocarse las primeras y las "Disallow" después. En caso de no haber ninguna instrucción "Allow" equivaldría a indicar que se puede indexar todo salvo lo que venga a continuación.
Por ejemplo:
User-agent: * Disallow: /wp-login Disallow: /wp-admin Disallow: /tag/ User-agent: yahoo! Slurp Disallow: /category/
Este ejemplo le estaría indicando a todos los buscadores que puede indexar todo salvo aquellas urls que comiencen por "http://mi-blog/wp-login", "http://mi-blog/wp-admin" y "http://mi-blog/tag/" y al robot de Yahoo! se le hace una limitación adicional para que no indexe nada de lo que se encuentre dentro de "htp://mi-blog/category/".
Algunos Bots
Aunque parezca lo contrario, hay una gran cantidad de robots pululando por la web. Algunos son interesantes y hay que facilitarles el trabajo, otros vienen con aviesas intenciones tales como conseguir nuestras direcciones de correo o localizar las páginas con sección de comentarios y notificarlo a los muchos sistemas de spam que en el ciberespacio son.
Entre los interesantes, y que hacen caso a las indicaciones, podemos citar algunos:
Y si quieres echar un vistazo a los "web crawlers" que andan por ahí te dejo este enlace
Un ejemplo de Robots.txt
Finalmente, te dejo un ejemplo de configuración de un archivo robots.txt para wordpress. Úsalo con cuidado.
User-agent: * Allow: /wp-content/uploads/ Disallow: /wp-* Disallow: /trackback/ Disallow: /archives/ Disallow: /category/ Disallow: /tag/ Disallow: /author/ Disallow: /feed/ Disallow: /comments/ Disallow: /login/ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.php$
Si te has quedado con ganas de saber más sobre las posibilidades de este interesante fichero te dejo un enlace a un artículo muy interesante de Aukera sobre el tema.
Si te ha gustado, ayúdame a difundir el artículo compartiéndolo en tus redes y recuerda que puedes suscribirte gratis al blog para no perderte ningún artículo.