Revista Tecnología

15 buscadores para web profunda #OSINT (15 deep web search)

Publicado el 20 abril 2014 por Eva Moya @EvaMoya_co
15 buscadores para web profunda #OSINT (15 deep web search)
Hace unos días tuvo lugar una jornada muy interesante y que considero de especial importancia. Durante varios días distintos profesionales totalmente multidisciplinares se reunieron para hablar de las diferentes caras que puede tener la ciberdefensa en las Jornadas de Ciberdefensa del Mando Conjunto de Ciberdefensa de las fuerzas armadas (https://www.jornadasciberdefensa-isdefe.es/pagina.php?id=2).
A mí me tocó explicar los pros y contras del OSINT para la ciberdefensa, a pesar de varios escépticos que había en la sala. Mi vídeo es el de "Herramientas de Ciberinteligencia. Técnicas de análisis de datos OSINT para la Ciberdefensa". Al vídeo acompaña un pdf con el contenido que no me dio tiempo a dar porque había que aclarar conceptos, jajajajaja.
Al hilo de estas jornadas se me ocurrió ir un paso más allá en el OSINT en este blog, y como sé que os encantan las herramientas y los enlaces pensé en elaborar otra de mis listas validada por mi.
Cuando hablamos de buscar información en Internet sabemos que la clave para localizarla es disponer de herramientas que nos permitan hacer un barrido “completo” de todas las esquinas del mundo virtual. En general, cuando salimos a buscar utilizamos Google, aunque ya hemos hablado en este blog de la posibilidad de utilizar otros buscadores que buscan otras cosas en “13 meta-buscadores que te harán la vida más fácil (meta-search)”. A pesar de todo, la mayoría de estos buscadores alternativos siguen buscando en la Internet más superficial, aunque sean un complemento magnífico a Google.
Es por ello que mis palabras mágicas para hoy pretenden dar un saltito más en la profundización de los recursos #OSINT listando una serie de buscadores y repositorios generalistas que pueden ayudarte a dar los primeros pasos hacia esa Internet profunda de la que tanto se habla en Inteligencia.
La web profunda no es más que información de difícil acceso porque ningún buscador la ha agregado, porque son repositorios que se han quedado colgados en el aire, porque la temática es tan específica que no sale en buscadores generalistas, porque es un contenido tan anónimo que no se encuentra fácilmente o porque simplemente son una serie de archivos sin texto que se comparten en los espacios ofrecidos para ello.
Generalmente, cuando se habla de “deep web” se suele hacer referencia a Tor o lo que es lo mismo, la red Onion. En este sentido te recomiendo que le eches un vistazo a esta infografía actual que explica de un modo simple y visual de qué va esto y cómo está vinculada con otras actividades como el asunto de los Bitcoin.
A pesar de todo, la “deep web” es mucho más que simplemente el uso de Tor y la red Onion y es importante que lo recordemos si pretendemos entender correctamente lo que significa la Internet Profunda.
A continuación, se proponen una serie recursos generalistas para deep web que pueden ser muy útiles en un momento determinado, aunque también incluyo algo de Tor ;-).
Archivos:
 
Find that File
http://www.findthatfile.com
Es un buscador muy ágil que te permite bucear en distintas tipologías de formato (torrent, emule, pdf, vídeo, etc) además te da la posibilidad de filtrar por tipo de localización, por si quieres buscar por ejemplo en FTP. Y si quieres buscar en la web profunda de un modo todavía más específico en su sección http://www.findthatfile.com/about.php tienen una lista con todos los buscadores que han desarrollado. ¡Altamente recomendable!
 
Files tube
http://www.filestube.to/

Otro de esos buscadores maravillosos que te ayudan a encontrar cualquier tipo de archivo en la web profunda. En esta ocasión, este buscador rastrea en prácticamente todas las webs que permiten subir archivos para compartir, en total unos 58 puntos de contacto entre ellos el conocido DropBox. También te da la posibilidad de buscar por periodos de tiempos para pulir un poco más tu búsqueda.
Noticias:
Look ahead
http://lookahead.surfwax.com

Este buscador bucea entre 140 rss muy populares con la posibilidad de un histórico de 7 días. Es por tanto muy bueno para monitorizar noticias, por ejemplo de un conflicto determinado y construir un análisis de Timeline. Eso sí, hay que buscar en inglés pues son medios anglosajones.
Clusty
http://clusty.com/

Es un buscador que organiza por temáticas. Ya los vimos en 13 metabuscadores. En esta ocasión, este concretamente recupera muy bien noticias de la red. Ideal para análisis de medios de comunicación y saber lo que dicen unos y otros. Por supuesto también para localizar propaganda. Además, te permite hacer búsquedas en distintos formatos (imagenes, blogs, wikis, etc.). Muy bueno.
Newspaper Archive (comercial)
http://newspaperarchive.com/

Sin lugar a dudas una de las bases de datos de noticias más importantes de Internet. Eso sí, centrada específicamente en USA, aunque con la posibilidad de acceder a otros países como Canadá. Es de pago. Pero conviene saber que existe una hemeroteca virtual de este tipo.
Publicaciones:
 
Deepdyve
http://www.deepdyve.com/

Espectacular buscador de ámbito científico que recoge millones de publicaciones. Sin duda uno de los mejores para el ámbito académico y de investigación. Te permite, además crear una alerta sobre un tema concreto para estar al día de todo lo nuevo que van localizando e incorporando.
Highwire Stanfor
http://highwire.stanford.edu

Este buscador de publicaciones es realmente poderoso, nos busca publicaciones comerciales, pero también otras que están disponibles gratuitamente en pdf. Con él podemos conocer quienes son los investigadores más relevantes de un tema y acertar completamente en nuestras lecturas “para ponernos al día”.
Personas:
Pipl.com
https://pipl.com

Curioso buscador de personas. Está configurado para entrar en las principales redes sociales y buscar el nombre que queremos. Puede ser muy útil para buscar aquellas personas que han configurado sus redes de un modo muy personal. Pero evidentemente se le escapan cosas.
Literatura gris:
 

Docuticker
http://www.docuticker.com/

Más que un buscador como tal es un repositorio donde recopilan información emitida por distintas organizaciones, think tank y gobiernos. Te permite suscribirte al boletín de novedades como si fuera una actualización de feed. Tiene un buscador interno basado en tecnología Google para localizar publicaciones específicas por clave de búsqueda. En el menú de navegación derecho disponen de árboles de búsqueda si lo que te interesa es un tema en concreto.
Buscador de archivos desclasificados de la CIA
http://www.foia.cia.gov/

Muy buen buscador para ayudarte en tus búsquedas de los documentos que va desclasificando el gobierno americano. Los documentos están en pdf, aunque no puedes bajártelos todos.
Directorio Internacional de literatura gris
http://www.greynet.org/internationaldirectory.html

Esta lista en pdf incluye distintas universidades y organismo públicos que disponen de buscadores a sus propios documentos. Puede ser útil en un momento determinado para encontrar alguna publicación especial.
Históricos
Internet Archive
https://archive.org/

Es un repositorio de información muy variada en distintos tipos de formato. Permite filtrar por fecha, número de descargas, etc por lo que podemos encontrar verdaderas joyas “abandonadas” en la Red.
Lo + profundo:
Torch - Onion
https://xmh57jrzrnw6insl.onion.to/

La versión web de la conocida red Tor por la que se suele mover todo el “underground” que nos podemos imaginar. Este buscador no facilita el anonimato. Para el que todavía no sabe lo que es Tor aquí está la web oficial: https://www.torproject.org/ Y si quieres un pequeño tutorial muy interesante y orientado a la ciberseguridad, te recomiendo que veas el vídeo de las jornadas de ciberdefensa "Deep Web. Redes Tor" te ayudará a comprender de un modo claro y ameno de qué va esta película ;-)
Torsearch - Onion
https://kbhpodhnfxl3clb4.onion.to/

Nace el hermano pequeño del buscador Tor. Todavía está muy incipiente y como ellos dicen sólo busca dentro del contenido alojado en la propia Red Tor. Parece que tiene la estructura comercial del Google así que no me extrañaría que pronto la veamos crecer. Aunque es evidente que se perderán numerosas entradas “interesantes”, pues si deja de ser una Red “profunda” muchas personas dejarán de utilizarla para compartir contenido, especialmente de sexo, drogas, armas y piratería que son las temáticas más utilizadas en esta Red. En fin, ya veremos en qué acaba este proyecto que tiene pinta de ser sólo para conseguir dinero.
PasteBin
http://pastebin.com

Ésta es una Red Social muy útil cuando se pretende chatear y acompañar el diálogo con alguna información en concreto, porque permite acompañar el diálogo con la información que “pasteemos”. Evidentemente es muy inestable y volátil, pues los perfiles publican y despublican rápidamente. Pero a veces se encuentran cosas interesantes.
Potenciemos la inteligencia colectiva sin dañar a los autores. Si vas a utilizar esta información acuérdate de mencionar a la autora ;-) ¡Muchas gracias!

Volver a la Portada de Logo Paperblog

Dossiers Paperblog

Revista