Revista Comunicación

¿Que son los Robots txt.?

Publicado el 26 febrero 2014 por M Carmen Rodriguez @redproblog
Los archivos robots.txt es un archivo muy importante para tener un buen ranking en los motores de búsqueda, pero muchos sitios web no ofrecen este archivo.Si su sitio web no tiene un fichero robots.txt, sigue leyendo para aprender a crear uno. Si ya tiene un archivo robots.txt, lee nuestros consejos para asegurarse de que no contiene errores.¿Que son los Robots txt.?¿Qué es robots.txt?Cuando un rastreador o motor de búsqueda de google llega a tu sitio, este buscará un archivo especial en tu sitio. Ese archivo es llamado robots.txt y la araña del motor de búsqueda deberá de indexar las páginas web de su sitio para que no queden ignorados.

Elarchivo robots.txt es un simple archivo de texto (no HTML), que debe colocarse en el directorio raíz, por ejemplo:

    http://www.tusitio.com/robots.txt
¿Cómo puedo crear un archivo robots.txt?Como se mencionó anteriormente, el archivo robots.txt es un archivo de texto simple. Abra un editor de texto simple para crearlo. El contenido de un archivo robots.txt consiste de los llamados "registros".Un registro contiene la información de un motor de búsqueda especial. Cada registro consta de dos campos: la línea de agente de usuario y una o más líneas Disallow. He aquí un ejemplo:
    User-agent: Googlebot 
    Disallow: / cgi-bin /
Este fichero robots.txt permitiría al "Googlebot", que es la araña del motor de búsqueda de Google, para recuperar todas las páginas de su sitio a excepción de los archivos del directorio "cgi-bin". Todos los archivos en el directorio "cgi-bin" seránignorada por Googlebot.El comando Disallow funciona como un comodín. Si introduce
    User-agent: Googlebot 
    Disallow: / support
tanto "/ support-desk/index.html" y "/ support / index.html", así como todos los otros archivos en el directorio de "apoyo" no serían indexados por los motores de búsqueda.Si deja la línea en blanco Disallow, usted está diciendo que el motor de búsqueda de todos los archivos que pueden ser indexados. En cualquier caso, debe introducir una línea Disallow para cada registro User-agent.Si usted quiere dar a todos los motores de búsqueda de los mismos derechos, utilice el siguiente contenido robots.txt:
    User-agent: * 
    Disallow: / cgi-bin /
     
¿Dónde puedo encontrar los nombres de agentes de usuario?Puedes encontrar los nombres de agentes de usuario en los archivos de registro mediante la comprobación de las solicitudes a robots.txt. Muy a menudo, todos los motores de búsqueda deben tener los mismos derechos. en ese caso, utilice "User-agent: *" como se mencionó anteriormente. Cosas que debes evitarSi no formatea el archivo robots.txt correctamente, algunos o todos los archivos de su sitio Web puede ser que no consiga un índice por los motores de búsqueda. Para evitar esto, haga lo siguiente:
  1. No utilice comentarios en el archivo robots.txt
    Aunque se permiten comentarios en un archivo robots.txt, pueden confundir a algunos motores de búsqueda.

    "No permitir: apoyo # No indexar el directorio de soporte" podrían misinterepreted como "Disallow: apoyo # No indexar el directorio de soporte".
  2. No utilice espacios en blanco al principio de una línea. Por ejemplo, no escriba
    marca d User-agent: * 
    colocar
     Disallow: / support 
    pero
    User-agent: * 
    Disallow: / support
     
  3. No cambiar el orden de los comandos. Si su archivo robots.txt debe trabajar, no mezclar. No escriba
    Disallow: / support 
    User-agent: *
     
    pero
    User-agent: * 
    Disallow: / support
     
  4. No utilice más de un directorio en línea Disallow. No utilice los siguientes
    User-agent: * 
    Disallow: / support / cgi-bin / / images /
     
    Los motores de búsqueda no pueden entender ese formato. La sintaxis correcta para esto es
    User-agent: * 
    Disallow: / support
     
    Disallow: / cgi-bin /
     
    Disallow: / images /
     
  5. Asegúrese de utilizar el caso correcto. Los nombres de los archivos en su servidor mayúsculas sensitve. Si el nombre de su directorio es"Soporte", no escriba "ayuda" en el archivo robots.txt.
  6. No incluya todos los archivos. Si quieres una araña del motor de búsqueda para ignorar todos los archivos en un directorio especial, usted no tiene que enumerar todos los archivos. Por ejemplo:
    User-agent: * 
    Disallow: / support / orders.html
     
    Disallow: / support / technical.html
     
    Disallow: / support / helpdesk.html
     
    Disallow: / support / index.html
     
    Puedes reemplazar esto con
    User-agent: * 
    Disallow: / support
     
  7. No hay un comando "Permitir"
    No utilice un comando "Permitir" en su archivo robots.txt. Sólo mencionar los archivos y directorios que no desea indizar. Todos los demás archivos se indexan automáticamente si están vinculados en su sitio. 
Trucos y consejos:1. Cómo permitir que todos los motores de búsqueda indexen todos los archivos
    Utilice el siguiente contenido para su archivo robots.txt si desea permitir que todos los motores de búsqueda indexen todos los archivos de su sitio Web:User-agent: * 
    Disallow:
2. Cómo deshabilitar todas las arañas para indexar cualquier archivo
    Si no desea que los motores de búsqueda indexen cualquier archivo de su sitio Web, utilice la siguiente:User-agent: *Disallow: /

Su sitio web debe tener un archivo robots.txt adecuado si quieres tener una buena clasificación en los motores de búsqueda. Sólo si los motores de búsqueda saben qué hacer con sus páginas, se le puede dar un buen ranking.



Volver a la Portada de Logo Paperblog

Dossiers Paperblog