¿Cómo percibe Google el archivo robots.txt y su función en el SEO?

Es muy importante tener en cuenta que para aparecer en los resultados de búsqueda, lo primero que debemos lograr es que Google (o cualquier otro motor de búsqueda) pueda interpretar nuestro sitio web de manera efectiva.

Por ello, debemos tener en cuenta diferentes elementos que se deben considerar en lo que se refiere a la indexación web. El primero, y uno de los más importantes, es el archivo robots.txt, que es el encargado de indicar a los robots qué páginas y archivos pueden acceder en nuestro sitio web.

¿Qué es un archivo robots.txt?

El archivo robots.txt es el encargado de proporcionar información a los robots (bots, rastreadores…) sobre las páginas o archivos que pueden solicitar información o no en un sitio web. Mediante este archivo podremos “comunicarnos” directamente con los rastreadores.

¿Para qué sirve el archivo robots.txt?

Principalmente el archivo robots.txt se utiliza para no sobrecargar el servidor con solicitudes y así gestionar el tráfico de los robots en la página web, ya que en este archivo indicamos el contenido que deben rastrear y el que no.

*Es importante tener en cuenta que bloquear o no bloquear páginas, tiene un uso distinto al de la etiqueta «no-index», que explicaremos a continuación.

¿Cómo ver el archivo robots.txt?

El archivo robots.txt se encuentra en la raíz del dominio principal como por ejemplo: www.nombreweb.com/robots.txt. Es aquí donde incluiremos varios elementos para indicar a los bots, rastreadores, etc. qué páginas deben ser rastreadas, y qué páginas no. Este archivo se puede crear en cualquier editor web, simplemente teniendo en cuenta que se puede crear archivos de texto UTF-8 estándar.

¿Cómo implementar/modificar el archivo robots.txt en WordPress?

El archivo robots.txt se implementará de forma general en WordPress:

¿Cómo atraer la atención del robot de Google para que visite mi web?

Como hemos comentado previamente, el sitemap es la puerta de entrada de una página web y que a partir de aquí y mediante una buena estrategia de enlazado interna es esencial para un correcto posicionamiento web. Además, el robot de Google tiende a visitar páginas con contenido fresco, actualizado y continuo, por lo que tener una estrategia de contenidos web es fundamental.

¿Pero cómo puedes modificarlo? Descubre a continuación cómo hacerlo en WordPress:

En primer lugar, desde el FTP del hosting o mediante diferentes plugins que se pueden instalar en WordPress como Yoast SEO o Rank Math. Es importante tener presente que editar el archivo de forma incorrecta puede afectar considerablemente los resultados del posicionamiento web. Por ello, es muy importante conocer qué significa cada parámetro y cómo cada uno de estos afecta a nuestra web.

Si utilizas Rank Math en WordPress deberás ir a Ajustes Generales > Editar archivo robots.txt

¿Qué tener en cuenta para una correcta implementación del archivo robots.txt?

Es muy importante tener en cuenta diferentes aspectos que Google destaca para realizar una correcta implementación:

Solo puede haber un archivo por web y debe estar bajo el nombre robots.txt.
Se puede implementar de forma individual en cada subdominio de una página web.
El archivo robots.txt consta de uno o varios grupos con directivas concretas (una por línea, siempre), que incluyan:
- a quién van aplicados (user-agent)
- a los directorios o sitios que este user-agent puede acceder y a los que no

Los user-agent pueden rastrear todas las páginas que no se indican como disallow. Estos grupos se procesarán por el orden que estén escritos en el texto. Por lo que el grupo que incluya la regla más específica y sea el primero, será el que seguirá.
Si hay dos normas que entran en conflicto, para Google y Bing siempre “gana” la directiva con más carácteres. Por lo que si encuentras un disallow con /page/ y allow con /page, la primera tendrá más peso. Sin embargo, si ambas tienen la misma longitud prevalecerá la menos restrictiva.

¡Conoce los parámetros principales del archivo robots.txt!

Ahora que ya sabes qué es, para qué sirve, cómo implementar el archivo robots.txt y qué tener en cuenta para hacerlo correctamente, descubre a continuación, los elementos principales que son importantes conocer para poder interpretar e implementar el archivo:

User-agent (agente de usuario): es la forma de identificar los rastreadores, definir las directivas que seguirán y que deben incluirse siempre en cada grupo. Es muy importante conocer los diferentes motores de búsqueda como el de Google con el nombre “Robots de Google” o “Googlebot”, Bing cuenta con “Bingbot” y Baidu con “Baiduspider”. Aplicar el caràcter (*), permite aplicar la directiva en todos los rastreadores.
Directivas allow y disallow: estas directivas permiten indicar concretamente al user-agent páginas que debe (allow) y páginas o archivos que no debe rastrear (disallow). Es importante que haya como mínimo una directiva en cada grupo.
- Allow: es ideal para indicar a los rastreadores que pueden rastrear algún apartado concreto de un directorio bloqueado por la directiva disallow.
- Disallow: para bloquear una página con esta directiva se debe especificar el nombre completo incluyendo (/) al final.

Directivas allow y disallow: cómo dar o denegar acceso a los robots de forma personalizada

A la hora de configurar las diferentes directivas “allow” y “disallow” es importante tener en cuenta diferentes aspectos:

*Una incorrecta implementación puede afectar los resultados de la página en los motores de búsqueda

Si dejamos el archivo robots.txt de la siguiente forma, no bloqueará ningún directorio:

Sin embargo, si por algún motivo se añade la barra (/), se bloquearía el rastreo de toda la página web por lo que no aparecería en los motores de búsqueda. Esto no es recomendable, a no ser que sea por un motivo consistente.

Si se define un directorio y se añade entre /_/ solo se bloqueará a este del rastreo. Por ejemplo, /wp-admin/. Es muy importante destacar, que si no se incluye la / final, los robots no podrán rastrear ninguna página que empezará con /wp-admin.

En el caso de querer excluir algún subdirectorio que pudieran rastrear, se incluirán como directiva Allow.

Otros parámetros que se deben tener en cuenta para el archivo robots.txt

Previamente hemos explicado cómo a través del user-agent, así como directorios o URLs y las directivas allow o disallow se pueden indicar a los robots los diferentes parámetros que pueden rastrear o no de una página web.

Sin embargo, a continuación vamos a detallar otros parámetros que podrás encontrar y que te serán de gran utilidad. Es importante que sepas que cada web es diferente, y que en función de los objetivos deberás analizar bien si te interesa alguno de estos parámetros y por qué.

**El (*): permite indicar “cualquiera”**

Para que los robots puedan rastrear todo el sitio web, deberás utilizar “User-agent: *”. Esto actúa como comodín y permite indicar que “cualquier” robot puede rastrear el sitio web. Utilizarlo en “usar-agent” te permitirá indicar a todos los robots que pueden rastrear el sitio web y mediante el parámetro disallow, podrás especificar los directorios que no quieres que accedan los robots.

También, puede utilizarse (*) en las URLS, ya sea en principio o medio, y permitirá realizar lo mismo que el método anterior: “todos/cualquiera”. Así se podrá bloquear cualquier URL como www.miweb.com/retail/red/jumper o www.miweb.com/retail/small/jumper.

El ($): indica el final de una URL

Con el símbolo $ indicarás a los robots el final de una URL. Por ejemplo en el parámetro disallow, si añades “*.php$, bloquearás la URL terminada así. Sin embargo si utilizas “.php/cualquiertermino te permitirá rastrear algunas URLs particulares de estos archivos.

Bloquear el acceso a los rastreadores del sitio web

Si queremos indicar que algún robot concreto no rastree el sitio web, ya sea por estrategia o por que no nos interesa, se debe indicar de la siguiente forma:

La (#): permite explicar comentarios

En el caso de querer hacer comentarios sobre cualquier aspecto sin dirigirte a los robots, deberás hacerlo mediante el símbolo #. Los robots no leen todo lo que hay después de #.

¿Qué diferencia Disallow de la etiqueta “No-index”?

En el archivo robots.txt se pueden usar otros parámetros que te ayudarán a bloquear la entrada de los robots a URLs, como por ejemplo a URLs con parámetros, que se crean cuando los usuarios utilizan un buscador de una página web o filtran productos con unos parámetros concretos. O también cuando no queramos que alguna página se indexe en los buscadores porque no es relevante, como por ejemplo puede ser la página de aviso legal, política de privacidad, etc.

Aún así, antes de añadir una directiva disallow en el archivo robots.txt, es importante analizar si su inclusión beneficia a la estrategia de la página web, dependiendo de los objetivos específicos de cada página.

Control de indexación con la metaetiqueta «robots»

La metaetiqueta “robots” permite especificar, a nivel de página, cómo debe tratarse el contenido en los resultados de búsqueda, sobre todo cuando no queremos que una página aparezca. Sin embargo, para que un robot aplique la directiva correctamente es imprescindible que pueda leerla. Por ello, bloquear una URL en el archivo robots.txt con la etiqueta “no-index” sería un error, impidiendo el acceso a esa página y a la lectura de la directiva.

Disallow vs “No-index”: ¿Cuál es la mejor opción para URLs con parámetros?

Es importante que te preguntes lo siguiente, ya que la mejor opción variará en función de los objetivos de cada página web:

¿Es relevante que los robots analicen las URLs con parámetros que se crean cuando un usuario utiliza el buscador del sitio web?
¿Es relevante que los robots inviertan tiempo analizando las URLs cuando un usuario utiliza los filtros de productos?

A partir de las respuestas, es el momento para empezar a diseñar la estrategia:

Por último, a pesar de decidir que te interesa de las búsquedas en el sitio web hechas por los usuarios estén bloqueadas, se pueden hacer excepciones concretas, ya que pueden ser términos de interés, que te ayuden a aumentar la visibilidad. A continuación detallamos un ejemplo:

¿Cómo bloquear las URLs con la etiqueta canonical?

La etiqueta canonical es ideal para evitar el contenido duplicado en un sitio web. A menudo, se aplica esta etiqueta en las URLs con parámetros que tienen el contenido muy similar a la página principal de un producto o categoría para así poder evitar problemas de contenido duplicado.

Sin embargo, al bloquear las URLs con parámetros en el archivo robots.txt, se impedirá a los robots que accedan a la información y, por lo tanto, no podrán identificar la página “principal”. John Mueller de Google, afirmaba que esto es especialmente relevante al utilizar filtros de productos.

Por último, otra de las opciones que podemos plantear, es la de bloquear las URLs con parámetros concretos, mediante la herramienta de Google Search Console.

¿Es obligatorio incluir el sitemap en el archivo robots.txt?

Incluir el sitemap en el archivo robots.txt no es obligatorio. Sin embargo, proporciona información sobre la estructura de la página web, y se recomienda incluirlo, para así indicar a Google el contenido que nos interesa rastrear.

¿Cómo verificar una implementación correcta del archivo robots.txt?

Finalmente, y una vez revisados y ajustados todos los aspectos mencionados previamente, quedará asegurar que el archivo robots.txt se está implementando correctamente en el sitio web. Mediante la herramienta “Probador de Robots.txt” de Google Search Console o directamente de forma manual cada URL.

Más información sobre el archivo robots.txt y cómo Google lo interpreta

Si deseas más información sobre cómo Google interpreta el archivo robots.txt de tu página web, puedes ponerte en contacto con nosotros.

CONTÁCTANOS

Revista Opinión