5 Razones por las que Google no indexa la totalidad de tus páginas

Aunque no lo sepas, algunas de las páginas web que forman tu dominio podrían estar siendo bloqueadas por Google. Si Google no puede acceder a todas las páginas de tu dominio, estarás perdiendo visitantes y ventas.

Recordemos que el buscador lee una por una las páginas que forman un dominio, no solo la página de inicio o landing page, pero en ocasiones existen ciertas páginas que no puede leer bien por orden nuestra o bien por algún factor que no estamos controlando debidamente. Estás páginas internas que no ha podido leer tampoco las podrá mostrar en los resultados de búsqueda perdiendo de ese modo visitantes potencialmente interesados en nuestras ofertas o productos.

Vamos a exponer las cinco razones principales por las que Google no indexa la totalidad de tus páginas.

Errores en la creación del archivo robots.txt que impiden al buscador leer ciertas páginas

El archivo robots.txt es una manera fácil de excluir archivos individuales o directorios enteros de indexación por parte de los buscadores.
Para excluir archivos individuales, deberíamos añadir esto a nuestro archivo robots.txt:

User-agent: *
Disallow: /directorio/nombre-del-archivo.html

Para excluir directorios completos tendríamos que incluir este texto:

User-agent: *
Disallow: /directorio-uno/
Disallow: /directorio-dos/

Si la web tiene un archivo robots.txt, no está de más revisar que todos los directorios estén bien protegidos pero sólo, los que no impidan al buscador indexar la totalidad de tu sitio web.
La herramienta de Google para Webmasters https://www.google.com/webmasters/tools/robots-testing-tool nos va a permitir a demás de comprobar que el archivo no contenga errores, ver la estructura de archivos y directorios excluidos de la indexación en el buscador.
¿Tus páginas contienen etiquetas meta noindex y nofollow?

La etiqueta meta robots noindex permite a robots de los motores de búsqueda, que una página en particular no deba ser indexada. Para excluir una página de los resultados de la búsqueda, agregaríamos el siguiente código en la sección <head>del documento, la página web:

<meta name="robots" content="noindex, nofollow">

En este caso, los motores de búsqueda no indexarán la página y tampoco seguirán los enlaces que contenga.
También podemos decir para configuraciones especiales que no indexe la página pero sí siga los enlaces que contenga de esta forma:

<meta name="robots" content="noindex, follow">

Para asegurarnos de que el buscador siga todas las páginas de nuestro dominio lo mejor es no usar esta etiqueta. También es importante señalar que la etiqueta meta robots noindex influye sólo en robots de los motores de búsqueda. Los visitantes asiduos del sitio web sí podrán ver todas las páginas.
¿Tus páginas dan un error de cabecera HTTP?

El código de estado de encabezado de servidor te permite entre otras cosas enviar visitantes del sitio web real y robots de motores de búsqueda a diferentes lugares en su sitio web o a otras páginas distintas. Una página web normalmente tiene un "200 OK" código de estado, para informar al navegador y buscadores que es accesible. Por ejemplo, se pueden utilizar estos códigos de estado del servidor:
- 301 moved permanently: Este código indica que la página se ha movido permanentemente a otra dirección URL
- 403 forbidden: Este código indica que la página web está inoperativa y no es accesible.
Si el estado de la cabecera del servidor impide al motor de búsqueda acceder a la web es posible que la bloquee y no permita que sea indexada correctamente, dejándola excluida de los resultados naturales de búsqueda.
Páginas con acceso restringido o contraseñas

En los portales dinámicos, sobre todo en los que existe un registro de usuarios, suele haber páginas internas que no se muestren hasta que el visitante no se haya logueado en la web, este tipo de páginas no son indexadas por el buscador al no poder acceder él a las mismas, también sucede los mismo si tenemos páginas accesibles sólo con contraseña, si queremos que el buscador las pueda indexar y mostrar en los resultados de búsqueda debemos hacer que sean visibles para cualquier visitante.
Tus páginas requieren el uso de Cookies, JQuery (javascript) o CSS

Las Cookies y los archivos JQuery, JavaScript y CSS también pueden hacer que los robots de los motores de búsqueda no puedan ver o indexar el contenido. Por ejemplo, se puede ocultar el contenido de una página web y que este solo sea accesible para los navegadores que acepten cookies.

También puede ser que las páginas web utilicen JQuery o JavaScript muy complejos para ejecutar el contenido de las mismas. Google anunció hace poco tiempo que era capaz de leer este tipo de programaciones del lado del cliente pero que para poder leerlas los archivos externos .js no podían estar bloqueados por el archivo robots.txt (algo que suele ser lo habitual bloquear este tipo de archivos). Este sería un tema complejo que habría que abordar en una entrada a parte, lo mejor para saber si este tipo de páginas las está indexando o no es hacer una búsqueda tipo
index:www.comercialseo.es
Y fijarse si aparecen todas las páginas en los resultados de búsqueda que nos de.

Hasta aquí las cinco razones principales por las que Google no puede acceder a todas las páginas de tu dominio. Espero la información sea de utilidad.
Gracias por la lectura.

El Autor

myadmin

CEO ComercialSEO. Freelance profesional desarrollo de aplicaciones multiplataforma para la web. Marketing online, SEO, SEM, Social Media.

5 Razones por las que Google no indexa la totalidad de tus páginas

Errores en la creación del archivo robots.txt que impiden al buscador leer ciertas páginas

¿Tus páginas contienen etiquetas meta noindex y nofollow?

¿Tus páginas dan un error de cabecera HTTP?

Páginas con acceso restringido o contraseñas

Tus páginas requieren el uso de Cookies, JQuery (javascript) o CSS

El Autor

myadmin