Una de las características obvias del Big Data es que es eso, 'big', es decir, que maneja muchos datos.
Pero ¿cuántos datos son mucho datos? ¿Cuándo el manejo de muchos datos hace que hablemos de Big Data?
Eso mismo se pregunta Field Cady en su libro 'The Data Science Handbook'. La respuesta que propone no es estricta, pero sin embargo sí es muy clarificadora al respecto de la naturaleza de Big Data frente a otras tecnologías como Datawarehouse.
Esta es la respuesta de Cady:
it happens when it is no longer practical to store or process it all on a single computer.
Vale, eso no es una cantidad concreta. Es más, a medida que la capacidad computacional o de almacenamiento de los ordenadores crece, la respuesta puede ser, no sólo ambigua, sino también móvil, dinámica.
Sin embargo, para quien lo que se pregunte realmente sea qué es lo que diferencia desde un punto de vista técnico a Big Data de Datawarehouse, la respuesta es bastante valiosa. Porque uno de los aspectos tecnológicamente novedosos de Big Data, uno de los pocos aspectos tecnológicos diferenciales, creo, es ese procesamiento y almacenamiento distribuido usando algoritmos como el famoso MapReduce.
Así que, ya tenemos una idea de cuántos datos son Big Data. ¿O no?