Revista Economía

Cinco retos clave para organizaciones que quieren afrontar Big Data

Publicado el 02 agosto 2021 por Ignacio G.r. Gavilán @igrgavilan
Cinco retos clave para organizaciones que quieren afrontar Big DataNadie dijo que hacer analítica o Big Data fuese a ser fácil. En realidad, hay factores que han facilitado mucho las cosas, factores como la aparición de herramientas libres como Hadoop y todo su ecosistema o la disponibilidad en la nube de soluciones avanzadas, hechos ambos que democratizan y simplifican enormemente la entrada en el mundo del Big Data. 

Pero a pesar de esos avances, a pesar de la evidente viabilidad e interés de abordar este tipo de sistemas, su implantación práctica, especialmente en grandes organizaciones con mucha historia, con muchos sistemas y fuentes de datos, con muchos legados y con su tradición cultural no es sencillo.

En su libro 'Digital Transformation : survive and thrive in the era of mass extinction', el autor Tom Siebel, identifica, en concreto, cinco retos clave a los que hay que hacer frente.

Son estos:

  • Gestionar la multiplicidad de fuentes de datos: Las grandes empresas suelen disponer de una variedad de sistemas, amplia y heterogénea y que incluye desde sistemas empresariales como ERP o CRM hasta versiones menores de este tipo de software como, quizá, sistemas de nóminas o recursos humanos; o también sistemas muy específicos como los SCADA o MES de las empresas industriales o los sistemas de supervisión en telecomunicaciones; o herramientas más laxas en cuanto a datos como las soluciones colaborativas o de gestión documental; productos comerciales o desarrollos a medida; sistemas en mainframe o sistemas web. Y así un largo y variado etcétera. Conseguir con ese punto de partida una visión de datos unificada, integrada y explotable no es sencillo en absoluto. 

  • Incorporar y contextualizar datos de alta frecuencia: En algunos casos, como cuando estamos en entornos ciberfísicos o de Internet de las Cosas, en que los datos provienen de sensores, la entrada de datos es de tiempo real o alta frecuencia. Se trata de una complejidad adicional, una complejidad para la que algunas bases de datos NoSQL y soluciones de Big Data están especialmente bien preparadas, pero que añade, en cualquier caso, un punto de complejidad adicional. 

  • Trabajar con 'data lakes': Se refiere al autor al uso de sistemas de ficheros distribuidos (como el famoso HDFS de Hadoop) y al hecho de que su adopción aún es relativamente baja y también menciona la necesidad de normalización de datos o de eliminar duplicados, algo que ya nos acerca al siguiente reto. Un reto que, quizá, el autor no define bien y que lo que implica, en el fondo es la necesidad de emplear una tecnología avanzada, HDFS y MapReduce en este caso, que va más allá de lo que las soluciones de Business Intelligence más tradicionales podrían ofrecer.

  • Asegurar la consistencia de datos, la integridad referencia y el uso continuo aguas abajo: quizá, junto con el reto de la diversidad de fuentes, y en el fondo derivado de él, el mayor problema práctico. Al tomar datos de partida procedentes de diferentes fuentes, cada una con un modelo de datos diferente, no coordinado, resulta complejo y, sobre todo, muy laborioso, conseguir una imagen unificada de los datos, una imagen en que el mismo dato se represente de la misma forma (mismo tipo de dato, misma longitud, mismos valores posibles, misma semántica,...) algo que suele precisar farragosas traducciones desde modelos de partida al modelo unificado. Y algo que se complica al hablar de la referencialidad, de las relaciones entre entidades muchas veces no evidentes o sin información suficiente o suficientemente consistente.

  • Habilitar nuevas herramientas y habilidades para nuevas necesidades: Esto incluye el uso de nuevas herramientas (visualizadores de datos, machine learning, etc) y por tanto, la necesidad de disponer de esas herramientas y de formar a los equipos en su uso o bien incorporar a personas con esas capacidades.

En mi experiencia personal, diría que la diversidad de fuentes y la dificultad para asegurar la consistencia son, con diferencia, las problemáticas más importantes y generalizadas. Dos problemáticas entrelazadas y, además, carentes de 'glamour' pero a cambio sí necesitadas de mucho trabajo, mucho esfuerzo, que se abordan mediante lucha de guerrillas y de trincheras, sistema a sistema, dato a dato.

La verdad es que siempre he considerado más fácil implantar una solución informacional o analítica que una solución operacional o de automatización de procesos. 

Pero, a pesar de ello, a pesar del avance tecnológico, a pesar de la disponibilidad real de avanzadas tecnologías y herramientas, no hay que confiarse: implantar una solución informacional, analítica y ya no digamos de Big Data en una empresa real, con tamaño e historia es todo un reto. 

Eso sí, la recompensa vale la pena.


Volver a la Portada de Logo Paperblog