Revista Comunicación

Todo lo que debes saber sobre contenido duplicado

Publicado el 18 mayo 2020 por Octopus

¿Qué es el contenido duplicado?

El contenido duplicado se refiere a bloques de contenido que son completamente idénticos entre sí o muy similares. El contenido casi duplicado se refiere a dos piezas de contenido con solo unas pocas diferencias menores.

En la web, el contenido duplicado es contenido idéntico (o muy similar) que se encuentra en dos URL diferentes.

El contenido duplicado puede ser causado por muchos factores, que van desde dificultades técnicas o errores involuntarios hasta acciones deliberadas. Por supuesto, tener contenido similar es natural y a veces inevitable (por ejemplo, citando otro artículo en Internet) o si eres el único autor de tu blog, la página “autor” será similar a la página de principal del blog.

¿Cómo maneja Google el contenido duplicado?

Google estima que entre el 25% y el 30% del contenido de Internet está compuesto por texto duplicado. Google quiere proporcionar los resultados más relevantes a los usuario, entonces sabemos que no quiere mostrar el mismo contenido más de una vez en los resultados de búsqueda.

Cuando Google detecta páginas duplicadas, el algoritmo determina la mejor versión de la página y la muestra en su índice.

Aunque Google realmente no nos dice su técnica para elegir qué página será la “mejor”, podemos hacer algunas suposiciones:

  • ¿Qué página se publicó primero? el primero es normalmente una prioridad.
  • El número de backlinks a una página, el que tenga más vínculos de retroceso tendrá una ventaja.
  • Si se usa la etiqueta “canónica”, determina qué página es la fuente original del contenido.
  • La autoridad de dominio de la página.
  • Si el contenido dice “publicado originalmente en …” y se refiere a la fuente original, prevalecerá la fuente original.

¿Una penalización por duplicar contenido?

¿Serás penalizado por duplicar contenido? No.

¿El contenido duplicado daña tu sitio? Esta es otra historia.

Debido a que a Google no le gusta mucho el contenido duplicado, muchas personas han asumido que esta práctica es castigada por Google.. ¡con una penalización!

“We don’t have a duplicate content penalty. It’s not that we would demote a site for having a lot of duplicate content.” John Mueller, Google

“No tenemos una penalización por contenido duplicado. No degradaremos un sitio porque contiene mucho contenido duplicado”. John Mueller, Google

Pero debes tener cuidado de todos modos. Google tiene un doble discurso, y en algunos casos extremos puede tomar la decisión de aplicar una sanción:

“Sin embargo, en algunos casos, el contenido se duplica deliberadamente entre dominios para manipular la clasificación del sitio por los motores de búsqueda o para aumentar el tráfico. Este tipo de práctica engañosa puede tener efectos negativos en la navegación del usuario que ve casi el mismo contenido repetido en un conjunto de resultados de búsqueda.”

Google quiere evitar el SPAM y la sobrecarga innecesaria de su index y de sus servidores. Quiere ofrecer a sus usuarios el mejor contenido posible.

¿Por qué Google no le gusta el contenido duplicado o muy similar?

Cuando buscas algo en Google, ¿te gustaría ver exactamente el mismo contenido 10 veces? ¡Claro que no! Deseas resultados diferentes para poder elegir.

Google quiere evitar el SPAM y la sobrecarga innecesaria de su índice y de sus servidores. Si finalidad es ofrecer a sus usuarios el mejor contenido posible.

Problemas causados ​​por contenido duplicado

El Crawl Budget

Google tiene que gastar muchos recursos para rastrear su sitio web. Aunque los recursos de Google parecen ser ilimitados (y probablemente lo son), el rastreador se detiene en algún momento si un sitio web tiene muchas páginas.

Si Google escanea sus páginas y encuentra el mismo contenido una y otra vez, puede dejar de navegar por su sitio.

Esto puede dejar páginas importantes sin explorar, por lo que el contenido nuevo o los cambios pueden no tenerse en cuenta rápidamente. Asegúrese de que todas sus páginas más importantes estén rastreadas e indexadas reduciendo la cantidad de páginas irrelevantes que su sitio envía a Google.

Cuando obtienes backlinks, apuntan a una URL específica. Esta URL se vuelve cada vez más “fuerte” a medida que aumenta el número de enlaces.

Sin embargo, si tienes 10 versiones de la misma página, diferentes sitios web pueden vincular a diferentes versiones de esta. Es mejor que cada sitio enlace a una sola página.

Mala experiencia de usuario

A veces, duplicar una página puede conducir a una mala experiencia del usuario, lo que puede dañar su sitio web a largo plazo.

Si terminas posicionando una página en los primeros resultados de Google cuando no es realmente relevante, los usuarios lo notarán de inmediato (por ejemplo: indexar una página de búsqueda con el color xyz cuando no tenga ningún elemento con esto color).

Problemas internos con la duplicación de contenido.

HTTP / HTTPS y WWW / no WWWW

Supongamos que estas utilizando el subdominio “www” y el protocolo HTTPS. En este caso, tu sitio está disponible a través de https://www.ejamplo.com. Este es tu dominio canónical.

Si su servidor web está mal configurado, también se puede acceder a su contenido:

http://ejemplo.com

https://ejemplo.com

http://www.ejemplo.com

Elija la mejor estructura de URL de tu dominio y configura redirecciones de las versiones no óptimas hacia la mejor versión.

Uso de URL con estructura jerárquica para los productos

Una estructura jerárquica de URL de productos es un problema recurrente que conduce a la duplicación de contenido.

Supongamos que tienes una tienda de comercio electrónico con muchos productos y categorías, o un blog con muchos artículos y categorías.

Con una estructura de URL jerárquica, las URL se verían así:

https://www.ejamplo.com/tienda/categoria/subcategoria/producto

https://www.ejamplo.com/blog/categoria/subcategoria/articulo

A primera vista, todo parece normal. El problema surge cuando tienes el mismo producto o el mismo artículo en varias categorías.

Por lo tanto, es mejor evitar usar este tipo de estructura de URL si tienes productos que se pueden encontrar en varias categorías.

Páginas de índice (index.html, index.php)

Sin tu conocimiento, tu página de inicio puede ser accesible a través de múltiples URL porque tu servidor web está mal configurado. Además de https://www.ejamplo.com, también se puede acceder a su página de inicio a través de:

https://www.ejemplo.com/index.html

https://www.ejemplo.com/index.asp

https://www.ejemplo.com/index.aspx

https://www.ejemplo.com/index.php

Elija tu URL preferida e implemente redireccionamientos 301 de versiones no preferidas a la versión preferida.

En caso de que tu sitio web use una de estas URL, asegúrate de canonizar esta página.

Variaciones de URL (parámetros e ID de sesión)

Los sitios web a menudo usan parámetros en las URL para poder proporcionar la funcionalidad de los filtros. Por ejemplo:

https://www.ejemplo.com/juguete/coche?color=negro

Esta página mostraría todos los autos negros pequeños.

Si bien es bueno para los visitantes, puede causar grandes problemas a los motores de búsqueda. Las opciones de filtro a menudo generan un número virtualmente infinito de combinaciones cuando hay más de una opción de filtro disponible. Especialmente porque los parámetros también se pueden reorganizar.

Estas dos URL mostrarían exactamente el mismo contenido:

https://www.example.com/juguete/coche?color=negro&type=course

https://www.example.com/juguete/coche?type=course&color=negro

Implementa las URL canonicales, una para cada página principal, sin filtrar, para evitar la duplicación de contenido y consolidar la autoridad de la página entregada por el filtro. Ten en cuenta que esto no evita problemas de Crawl Budget. También puedes usar la función de parámetros de URL en Google Search Console para indicar a los robots cómo administrar la configuración.

Entorno de preproducción / Pruebas

Es una buena práctica utilizar entornos de preproducción para implementar y probar nuevas funciones en sus sitios web. Pero a menudo están abiertos a los motores de búsqueda y entonces indexables.

Bloquea el acceso a Google desde el Robots.txt o utiliza un sistema de autenticación para evitar el acceso a los entornos de preproducción/prueba es un beneficio adicional que evita que los competidores accedan a él.

Landings Pages para campañas de SEA

La búsqueda de pago requiere páginas de destino dedicadas que se dirigen a palabras clave y publico específicos. Las páginas de destino a menudo son reproducciones de páginas originales, que luego se ajustan para orientar estas palabras clave específicas. Como estas páginas son muy similares, producen contenido duplicado si los motores de búsqueda las indexan.

Evita que los motores de búsqueda indexen estas Landings Pages implementando el atributo noindex en los meta-robots. En general, es mejor no vincular a estas páginas y no incluirlas en su mapa del sitio de ajándolas “huérfanas”.

Página de resultados de búsqueda interna indexable

Muchos sitios un motor de búsqueda interno. Las páginas en las que se muestran los resultados de búsqueda son muy similares y, en la mayoría de los casos, no proporcionan ningún valor a los motores de búsqueda. Es por eso que estas páginas no deberían ser indexables para los motores de búsqueda.

Evita que los motores de búsqueda indexen las páginas de resultados de búsqueda utilizando los atributos de meta-robot noindex, follow. Además, es mejor no vincular hacia las páginas de resultados de búsqueda.

<meta name=”robots” content=”noindex, follow”/>

Contenido duplicado externo

¿Alguien roba tu contenido?

El contenido duplicado también puede provenir de otras personas que copian tu contenido y lo publican en otro lugar. Esto es especialmente un problema si tu sitio web tiene una autoridad de dominio bastante débil, y quien copia tu contenido tiene una autoridad de dominio más alta. Los sitios web con mayor autoridad de dominio a menudo se rastrean con mayor frecuencia, de modo que el contenido copiado se indexa primero en el sitio web de la persona que copió el contenido. El riesgo es que Google les atribuya este contenido y que se posicionen mejor en los resultados de Google.

Asegúrate de que otros sitios web lo acrediten implementando una URL canónica a tu página y un enlace a tu página. Si no están dispuestos a hacerlo, puede enviar una solicitud DMCA a Google y/o tomar medidas legales.

¿Estás robando el contenido de otra persona?

Copiar contenido de otros sitios web también es una forma de contenido duplicado. Google ha documentado la mejor manera de manejar esto desde la perspectiva de SEO: un enlace a la fuente original, combinado con una URL canónica o una etiqueta noindex para meta-robots. Ten en cuenta que no todos los editores o webmasters están muy interesados ​​en distribuir su contenido, por lo que se recomienda que solicites un permiso para usar su contenido.

¿Cómo identificar problemas de contenido duplicado en tu sitio?

Para ayudarte a identificar contenido duplicado en tu sitio web, existen herramientas de rastreo (por ejemplo, Screaming Frog) que examinará y analizará tu sitio web.

Una vez que tu sitio esté completamente rastreado, debes verificar las siguientes categorías:

  • Duplicate page Title
  • Duplicate meta description
  • Duplicate H1

¿Cómo identificar problemas con contenido duplicado fuera de tu sitio?

Si tienes un sitio web pequeño, puedes intentar buscar “pedazos” de tu contenido en Google.

También puedes usar un servicio como Copyscape para sitios web más grandes.

Copyscape escanea la web en busca de múltiples ocurrencias del mismo contenido o casi idéntico.


Volver a la Portada de Logo Paperblog