¿Qué es robots.txt?Cuando un rastreador o motor de búsqueda de google llega a tu sitio, este buscará un archivo especial en tu sitio. Ese archivo es llamado robots.txt y la araña del motor de búsqueda deberá de indexar las páginas web de su sitio para que no queden ignorados.Elarchivo robots.txt es un simple archivo de texto (no HTML), que debe colocarse en el directorio raíz, por ejemplo:
- http://www.tusitio.com/robots.txt
- User-agent: Googlebot
Disallow: / cgi-bin /
- User-agent: Googlebot
Disallow: / support
- User-agent: *
Disallow: / cgi-bin /
- No utilice comentarios en el archivo robots.txt
Aunque se permiten comentarios en un archivo robots.txt, pueden confundir a algunos motores de búsqueda.
"No permitir: apoyo # No indexar el directorio de soporte" podrían misinterepreted como "Disallow: apoyo # No indexar el directorio de soporte". - No utilice espacios en blanco al principio de una línea. Por ejemplo, no escriba
marca d User-agent: *
colocar Disallow: / support pero
User-agent: *
Disallow: / support - No cambiar el orden de los comandos. Si su archivo robots.txt debe trabajar, no mezclar. No escriba
Disallow: / support
User-agent: * pero
User-agent: *
Disallow: / support - No utilice más de un directorio en línea Disallow. No utilice los siguientes
User-agent: *
Disallow: / support / cgi-bin / / images / Los motores de búsqueda no pueden entender ese formato. La sintaxis correcta para esto es
User-agent: *
Disallow: / support
Disallow: / cgi-bin /
Disallow: / images / - Asegúrese de utilizar el caso correcto. Los nombres de los archivos en su servidor mayúsculas sensitve. Si el nombre de su directorio es"Soporte", no escriba "ayuda" en el archivo robots.txt.
- No incluya todos los archivos. Si quieres una araña del motor de búsqueda para ignorar todos los archivos en un directorio especial, usted no tiene que enumerar todos los archivos. Por ejemplo:
User-agent: *
Disallow: / support / orders.html
Disallow: / support / technical.html
Disallow: / support / helpdesk.html
Disallow: / support / index.html Puedes reemplazar esto con
User-agent: *
Disallow: / support - No hay un comando "Permitir"
No utilice un comando "Permitir" en su archivo robots.txt. Sólo mencionar los archivos y directorios que no desea indizar. Todos los demás archivos se indexan automáticamente si están vinculados en su sitio.
- Utilice el siguiente contenido para su archivo robots.txt si desea permitir que todos los motores de búsqueda indexen todos los archivos de su sitio Web:User-agent: *
Disallow:
- Si no desea que los motores de búsqueda indexen cualquier archivo de su sitio Web, utilice la siguiente:User-agent: *Disallow: /
Su sitio web debe tener un archivo robots.txt adecuado si quieres tener una buena clasificación en los motores de búsqueda. Sólo si los motores de búsqueda saben qué hacer con sus páginas, se le puede dar un buen ranking.
