El 'Data Science' (la ciencia de los datos) es una de esas disciplinas emergentes, de las que se habla mucho, no se conoce tanto, y donde se mezcla la realidad, la confusión y la propaganda.
No siempre queda clara su frontera con la estadística, o con el Big Data, el machine learning e, incluso, a veces, ni siquiera con la inteligencia artificial.
En las primeras líneas de su libro 'The Data Science Handkook', Field Cady nos da la siguiente definición de Data Science:
Data Science means doing analytics work that, for one reason or another, requieres a substantial amount of software engineering.
Una definición que me resulta llamativa, aunque puede que sea acertada. Lo cierto es que Cady no se eleva mucho a los tópicos o al 'hype'. Explica abiertamente que lo que hace un científico de datos es un trabajo analítico sobre datos. Simple y claro.
Ahora bien, ¿en qué se diferencia entonces de un estadístico? Pues en el uso frecuente, casi obligatorio, de la ingeniería del software, de la programación como herramienta fundamental de ayuda a su trabajo.
Lo cierto es que el autor parece darse cuenta de que la diferencia no es profunda y que por tanto es coyuntural. De hecho, poco más adelante, expresa esta opinión:
In 20 years I suspect that statistics, data science and machine learning will blur into a single discipline.
Acertada o no, también parece una predicción realista, con los pies asentados en el suelo y más allá de los mitos.
Quizá la definición de Data Science de Field Cady no sea muy académica, pero, desde luego, su realismo y honestidad resultan clarificadoras y de agradecer.