Definimos rápidamente la Web superficial como aquellas páginas que pueden ser indexadas por los robots de los motores de búsqueda de los buscadores. Se trata normalmente información de libre acceso, a la que puedes acceder sin realizar un registro (gratuito o de pago), su información no está almacenada en bases de datos y son, por lo general, páginas estáticas (con url fija).
Sin embargo, la Web profunda o invisible ofrece información almacenada en bases de datos y son normalmente páginas dinámicas (se construyen y destruyen tras realizar la consulta). Dentro de ella se pueden encontrar 4 tipos de contenidos invisibles (según Sherman y Price):
- Web opaca: páginas que podrían ser visibles para los buscadores pero no lo son por diversos motivos:
- Porque los buscadores no pueden indexar todas las páginas existentes.
- Por ser un resultado que sobre pasa el número máximo de resultados visibles de los buscadores.
- Por no tener la relevancia suficiente para aparecer entre los resultados (por ejemplo no ser referenciado desde otras páginas).
- Páginas protegidas con contraseñas.
- Web que contienen un archivo "robots.txt" o un campo "noindex" que impiden la indexación por parte de los motores de búsqueda.
- Programas ejecutables o archivos comprimidos.
- Páginas dinámicas.
- Información almacenada en bases de datos que requiere de una consulta...