Tenemos una mala noticia, las páginas de Internet a las que accedemos a través de la mayoría de buscadores genéricos como Google, se conoce como la Web superficial y son tan solo una pequeña parte de la cantidad de información disponible que existe. Entonces nos preguntamos ¿dónde está el resto? ¿por qué no podemos acceder a ello a través de los buscadores? Conozcamos algo más acerca de la Web profunda (o invisible).
Definimos rápidamente la Web superficial como aquellas páginas que pueden ser indexadas por los robots de los motores de búsqueda de los buscadores. Se trata normalmente información de libre acceso, a la que puedes acceder sin realizar un registro (gratuito o de pago), su información no está almacenada en bases de datos y son, por lo general, páginas estáticas (con url fija).
Sin embargo, la Web profunda o invisible ofrece información almacenada en bases de datos y son normalmente páginas dinámicas (se construyen y destruyen tras realizar la consulta). Dentro de ella se pueden encontrar 4 tipos de contenidos invisibles (según Sherman y Price):
- Web opaca: páginas que podrían ser visibles para los buscadores pero no lo son por diversos motivos:
- Porque los buscadores no pueden indexar todas las páginas existentes.
- Por ser un resultado que sobre pasa el número máximo de resultados visibles de los buscadores.
- Por no tener la relevancia suficiente para aparecer entre los resultados (por ejemplo no ser referenciado desde otras páginas).
- Páginas protegidas con contraseñas.
- Web que contienen un archivo "robots.txt" o un campo "noindex" que impiden la indexación por parte de los motores de búsqueda.
- Programas ejecutables o archivos comprimidos.
- Páginas dinámicas.
- Información almacenada en bases de datos que requiere de una consulta...