Búsqueda por texto de documentos mejorada en Dataprius

Publicado el 02 mayo 2024 por Dataprius Sl @dataprius

La búsqueda de documentos por texto contenido en los archivos, es una utilidad ofrecida por Dataprius y que pocas plataformas de almacenamiento en la Nube proporcionan.

Muchas empresas usuarias de Dataprius llevan años utilizando esta herramienta del sistema.

Las búsquedas por texto fueron incorporadas, como otras muchas características, por solicitud de nuestros clientes.

Con el paso del tiempo y como suele ocurrir, estas búsquedas se han convertido en una herramienta imprescindible en el trabajo diario con los archivos almacenados en la plataforma.

Desde hace unos seis meses, el departamento de desarrollo de Dataprius tenía el desafío de mejorar el sistema de búsquedas. Aunque no existían quejas de los clientes, el sistema se había vuelto más lento.

El motivo es que el sistema inicial funcionaba perfectamente con cientos de miles de archivos. Con el tiempo los usuarios han aumentado mucho la cantidad de ficheros almacenados, ahora hablamos de empresas con millones de archivos.

Rediseño e implantación del nuevo sistema de búsqueda

Inicialmente y tras un largo estudio sobre las capacidades de búsqueda que podían aportar los servidores del sistema, se optó por no mejorar las infraestructuras existentes, se hacía necesario un nuevo sistema de búsqueda.

A un cierto nivel técnico, explicar que cuando se utiliza un sistema de búsquedas por contenidos es necesario extraer los textos para cada archivo almacenado en el sistema. Es imprescindible, en el entorno de Dataprius, que estos textos sean almacenados con el alto nivel de protección de datos y de seguridad que proporciona la plataforma.

Aparte de lo anterior, el sistema debe indexar los contenidos de los archivos para el Data Room o espacio de almacenamiento de cada cuenta. Existen diversos sistemas y algoritmos que el departamento de desarrollo ha estado probando. Se requiere una alta capacidad ya que como hemos comentado anteriormente, debe funcionar para millones de archivos.

Cualquiera que haya realizado un búsqueda por textos en su PC o en cualquier otro sistema, conoce la lentitud de estas operaciones. Los tiempos de espera hasta obtener resultados no son asumibles para la calidad exigida en un sistema como Dataprius.

El nuevo sistema de búsqueda mejorado

Dependiendo del número y tamaño de los archivos almacenados, las tasas de respuesta a las búsquedas van de una fracción de segundo hasta los 10 segundos. Se han realizado pruebas sobre un repositorio con 6 millones de archivos obteniendo respuesta en el rango medio de los 3 segundos.

La búsqueda se sigue realizando desde la ventana habitual, marcando la casilla de búsqueda por Texto.

El repositorio del ejemplo que se muestra consta de más de 250.000 archivos, la mayoría en formato en PDF. Archivos que nuestros colaboradores para pruebas han recopilado de gran cantidad de fuentes con la condición de que fueran libres y sin derechos de autor.

La mejora en los tiempos de respuesta es notable.

La novedad de visualizar fragmentos del texto al rededor de la palabra de búsqueda

Como podemos ver en la imagen de ejemplo, ahora se muestra el fragmento de texto del documento que contiene la palabra buscada.

Nota: Para disponer de esta característica es necesario descargar e instalar la última versión disponible en la zona de descargas de Dataprius: Descargas

Tipo de empresas que utilizan las búsquedas por contenido

Son muchos y variados los sectores empresariales y las organizaciones que utilizan Dataprius en la actualidad.

Las búsquedas por texto son muy utilizadas por Ayuntamientos y organizaciones como Mutuas. Estos fueron los primeros sectores en usar la herramienta. Hacemos constar, que en todos los casos disponían de sus propios sistemas específicos, que con solo esta finalidad implicaban un coste hasta 10 veces superior que una cuenta Dataprius con todas sus características.

En general y en la actualidad el perfil de empresas que utilizan la herramienta suele ser:

  • Empresas con más de un millón de archivos.
  • Sector sanitario como Clínicas
  • Científico Sanitario como empresas de Biotecnología y de procesamiento de estudios ADN.
  • Despachos de abogados a nivel internacional.
  • Sector químico y farmacéutico con diversas sedes y presencia internacional.
  • Gestorías y consultoras.

Seguimos trabajando para incorporar nuevas mejoras. Pronto anunciaremos una nueva versión de nuestro sistema de Videoconferencias.

Gracias a todos los clientes, empresas y organizaciones que hacen posible el camino de nuestra plataforma hacia la excelencia.

La entrada Búsqueda por texto de documentos mejorada en Dataprius se publicó primero en Blog de Dataprius..