Introducción a los sistemas de Big Data o el nuevo paradigma de los datos masivos

El Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Fuente Wikipedia

¿cómo apareció el concepto de Big Data y qué problemas intentaba resolver?

A principios del siglo XXI surgen dos proyectos de ciencias, el primero de ellos relacionado con la astronomía conocido como el proyecto de Sloan Digital Sky Survey que intentaba identificar y cuantificar todos los objetos en el espacio.
Este proyecto generó más datos en unos pocos meses de vida que los que había generado toda la comunidad astronómica hasta ese momento.
También cobra relevanca el proyecto del genoma humano que trata de determinar la secuencia completa en alta definición del ADN humano. En cada uno de los individuos se generan alrededor de 100 gigabytes de información.
Ambos proyectos supusieron un salto incremental en el volumen de datos que se estaba gestionando.
Con la aparición de Internet, las Redes Sociales y más tarde el Internet Of Things, se produce un crecimiento exponencial en el volumen de datos generados a diario en todo el mundo.
Este hecho incidió en algunas de las principales empresas que trabajan en internet como Google, Yahoo, Amazon, etc, que se encontraron con tres problemas fundamentales para poder seguir realizando su actividad o negocio con garantías:

la gran cantidad de datos que acumulaban hacía inviable su procesamiento en una única máquina aunque ésta fuera un supercomputador.
la heterogeneidad de los datos dificultaba la necesidad de insertar, consultar y procesar información de distintos tipos o estructuras.
para estas compañías era imprescindible el procesamiento rápido de los datos. Por ejemplo, las queries del buscador web deben ser inmediatas o con resultados practicamente en tiempo real.

Hasta ese momento el modelo de análisis de datos se llamaba modelo de "causalidad" porque se partía de unas hipótesis, se escogían unas muestras aleatorias o distribuidas de distinta forma sobre el conjunto de datos total y a partir de aquí se intentaba verificar la hipótesis en cuestión.
Es lo que se conoce como modelo de causa-efecto: se busca ¿el por qué? de las cosas.
Este modelo dió paso al modelo de la "correlación" dado que se podía acceder a un conjunto muy grande de datos cercano al total de datos y yo no se intenta buscar el por qué, sino que se busca una correlación entre las variables que aparecen en este conjunto: que provoca qué sin importar el por qué.

Definición de Big Data

En el año 2001, el analista Doug Laney de META Group (ahora Gartner) utilizaba y definía por primera vez el término Big Data como:
"el conjunto de técnicas y tecnologías para el tratamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica".
Esto es lo que se ha llamado el modelo de las tres uves del Big Data:

Volumen: crecimiento exponencial de los datos que ha superado el límite de confort de las bases de datos relacionales (gigabytes) y se empieza a trabajar con terabytes de información diaria.
Velocidad: tiempo de respuesta crítico (practicamente en tiempo real). Por ejemplo, el sistema de tráfico de vehículos.
A su vez, se consideran dos tipos de velocidad:
1. Velocidad de carga (procesos ETL).
2. Velocidad de procesamiento.
Variedad: existen diferentes formatos y estructuras de los datos.
1. Orígenes de datos estructurados: conocemos a priori el formato de los datos (Bases de datos, hojas de cálculo o ficheros CSV).
2. Orígenes de datos semiestructurados: hay una organización interna que no conocemos a priori (Documentos XML o páginas web).
3. Orígenes de datos no estructurados: no hay ningún tipo de estructura interna (Documentos de texto, audio, imágenes o vídeo).

Más tarde, la empresa americana IBM introduce una cuarta V en este modelo: la veracidad que se mide desde la exactitud del dato y desde la exactitud del cálculo.
La gran cantidad de datos y la diversidad de orígenes provoca que la veracidad deba ser considerada aunque no hay unanimidad en la comunidad de analistas de datos ya que algunos consideran que esta variable existe en los modelos tradicionales.

El Big Data en escenarios de Business Intelligence

¿cuándo podemos aplicar una solución de BI basada en Big Data?
Cuando exista un gran volumen de datos, alta velocidad de generación de datos o necesidad de tratar todo tipo de datos. No es necesario que se cumplan las tres condiciones.
¿puede Big Data aplicarse en cualquier proyecto BI?
Big Data puede utilizarse en cualquier escenario para analizar información obtenida de diferentes sistemas de información. No obstante, hay que tener en consideración el incremento de complejidad y coste respecto a una solución BI tradicional.
En muchos casos, lo que se hace es incorporar los sistemas de BI tradicional con estos nuevos paradigmas del Big Data.
Por ejemplo, podemos tratar nuestro sistema de datos estructurados con un volumen constante (sistema de compras por ejemplo) con un sistema de BI tradicional, mientras que si por otro lado estamos recogiendo información sobre nuestros posibles clientes en internet, en redes sociales y se trata de un volumen muy grande de datos, podemos utilizar un sistema de Big Data y finalmente juntar las dos fuentes de información en nuestro Data Wharehouse.
Por tanto, una solución Big Data debe utilizarse como complemento a un sistema BI tradicional.
Diferencias fundamentales entre BI tradicional y Big Data:

Naturaleza de los datos: Volumen, Variedad y Velocidad en Big Data.
Granularidad: en el BI tradicional los datos son almacenados en el DW en su mínima granularidad mientras que en el sistema de Big Data los datos almacenados son derivados o filtrados.
Tecnología: los ficheros de Big Data requieren de un sistema de cálculo distribuido que se pueden obtener a través de, por ejemplo, el framework Apache Hadoop y de bases de datos NoSQL mientras que en un sistema de BI tradicional optaremos por un Sistema de Gestión de Base de Datos Relacional (SGBDR) y una de las muchas herramientas que existen en el mercado para BI.

Extracto del curso "Introducción al Business Intelligence y al Big Data" impartido por la Universitat Oberta de Catalunya (UOC) a través de la plataforma online MiríadaX
Jose Maria Acuña Morgado - Desarrollador Web