¿Qué es el Data Discovery?

Por Outsourceando @Charly_BG
En dos líneas: llega un momento en que los términos se usan tanto y para tantas cosas que parecen desgastarse y uno pierde el hilo del origen y razón de los mismos, y el "Data Discovery" es uno buen ejemplo. 
En los últimos 3 ó 4 años el término "Data Discovery", algo así como el "Descubrimiento a través de los Datos", se ha popularizado a través de fabricantes de soluciones de Business Intelligence (BI) como Tableau, QlikView (que en vez de llamarlo "Data Discovery lo llama "Business Discovery") o Tibco, en esencia ha resultado ser una manera nueva de llamar a conceptos que ya llevan un tiempo dentro de la oferta del BI pero que hay que diferenciar de algún modo asociando una estrategia tecnología de esos fabricantes con una funcionalidad diferenciada de los demás.
Desgraciadamente si este tipo de técnicas de marketing funciona, es por poco tiempo, porque copiar una expresión que en un momento dado tiene cierto éxito es de lo más sencillo, además era un término emparentado con otro que había tenido bastante relevancia a mediados de la década pasada: "electronic data discovery" o la información que se obtenía a través de procesos forenses de análisis de transacciones electrónicas y todos tipo de comunicaciones on-line (empezando por los correos electrónicos) en todo tipo de litigios o causas criminales.
Al poco tiempo comenzó a utilizarse el término en relación a actividades de control de calidad de datos, limpieza y perfilado de los mismos (en ingles Data Quality Assurance, Data Cleansing y Data Profiling) por fabricantes como Trillium Software.
Y claro, de la calidad de datos al BI había sólo un paso, no estoy seguro de quién lo dio primero y no creo que merezca la pena ir más allá, pero si hacéis una búsqueda en Google Trends del termino "Data Discovery" y lo filtráis por las búsquedas de "Informática y electrónica" obtendréis algo como esto:

Consulta realizada el 19/08/2013


Está claro que es un fenómeno reciente y que está relacionado con el lanzamiento de soluciones de Business Analytics, de hecho en se puede ver en el propio Google Trends que ese concepto y el "Data Discovery" parecen tomar fuerza al mismo tiempo hacia finales de 2010 principios de 2011; como muestra os dejo este artículo de 2011.
En todo caso este tipo de análisis se dificulta por el hecho de que se tiende a utilizar palabras comodín como "Business", "Data", "Analytics", "Intelligence", etc...
El Concepto de "Data Discovery" asociado al BI
Supongo que ya os habréis imaginado que no hay una definición estándar del concepto de marras, iré añadiendo pues piezas al puzzle del Data Discovery:
  • Por una parte hace relación con la utilización de buscadores dentro de las soluciones de BI/BA, para la búsqueda tanto de datos estructurados como no estructurados, para más información ver la definición de Gartner.
  • Por otra parte sería el proceso de analizar datos y descubrir tendencias en los mismos a través de aplicaciones de visualización de datos, esto es aprovecharse de la mejor capacidad de nuestro cerebro para descubrir respuestas a través de representaciones visuales de los datos frente a los números puros y duros, por ejemplo en tablas. Dichas aplicaciones deben ser lo más interactivas posibles y enriquecer el proceso mental del analista, no estorbarlo con complejidades innecesarias ni problemas de usabilidad, os dejo un artículo sobre el tema.
  • Claro está, también serían las estructuras de datos propietarias desarrolladas por los fabricantes que facilitasen las dos capacidades anteriores: búsqueda y visualización.

Al final creo que la mayoría de los fabricantes de BI/BA lo ven como una especie de "nirvana" del analista facilitado por sus productos, un empowerment basado principalmente en las capacidades de visualización de datos conseguidas por dichos productos.
Y si comenzamos a visualizar tendencias que mejor que demostrarlas a través del uso de la minería de datos (Data Mining) y de todo tipo de herramientas de análisis estadístico de la información (Analytics).
En fin, que no seré yo el que intente dar una definición de "Data Discovery" si nadie se ha atrevido a hacerlo en serio en Wikipedia.
Aunque si tengo claro que para muchos de mis clientes el "palabro" en cuestión no es otra cosa que dashboards muy chulos con estupendos gráficos y un buen nivel de interactividad que les ayuda en el análisis, lo de que se pueda conseguir siempre información relevante para la toma de decisiones basándose sólo en la visualización es algo ciertamente discutible, pero ya me estoy alargando demasiado.
Al final, creo que lo mejor es dejar una visión, parcial desde luego, como es la del fabricante Tableau en el siguiente dashboard interactivo:
<a href="http://outsourceando.blogspot.com/feeds/posts/default"><img alt="Executive Dashboard " src="http://public.tableausoftware.com/static/images/Ex/Executive-Dashboard_0/ExecutiveDashboard/1_rss.png" style="border: none" /></a>