Cuatro librerías para ciencia de datos en Python

Publicado el 12 noviembre 2018 por Daniel Rodríguez @analyticslane

Hoy en día Python es uno de los lenguajes de referencia para los científicos de datos. En él se pueden implementar desde los análisis de datos más básicos hasta los modelos de aprendizaje automático más avanzados. Permitiendo llevar estos posteriormente a directamente a producción de una forma fácil. Esta popularidad es debida a múltiples factores. Entre ellos se puede destacar la facilidad de su sintaxis que facilita la legibilidad del código y abundancia de librerías para múltiples tareas. A modo de muestra, solamente en el Python Package Index es posible encontrar hoy en día más de 150.000 paquetes listos para instalar y utilizar. A continuación, se van a enumerar algunas de las librerías para ciencia de datos en Python.

Cuando se trabaja con datos las estructuras disponibles en Python no son lo suficientemente fáciles de utilizar. Para estas situaciones se contar con los dataframes que proporciona la librería pandas. Esta es una librería muy popular que proporciona estructuras de datos de alto nivel intuitivas y fáciles de utilizar. En ella es posible encontrar múltiples métodos para para agrupar, combinar y filtrar datos. Así como para el análisis de series de temporales.

Pandas también incluye funciones que permiten la importación de datos desde diferentes fuentes. Permitiendo tanto la importación como exportación de datos desde archivos en formatos como CSV, Microsoft Excel o JSON. Además de ofrecer la posibilidad de acceder a diferentes bases de datos SQL.

Scikit-learn es la librería de referencia de Python para aprendizaje automático. Pudiéndose encontrar en ella la mayoría de los algoritmos clásicos de aprendizaje supervisado ​​y no supervisado. Así como herramientas para la transformación de y tratamiento de datos y selección de características. Entre los que se pueden encontrar regresión lineal y logística, árboles de decisión, maquinas vector soporte, k-means, DBSCAN, análisis de componentes principales y otros. La librería se basa en dos populares librerías de Python: NumPy y SciPy.

A pesar de su juventud, la primera versión ha sido liberada por Google en noviembre de 2015, Tensorflow es posiblemente la librería de referencia para aprendizaje profundo. Una de sus ventajas es la posibilidad de compilar el código Python tanto para CPU como para GPU. Lo que permite una ejecución más rápida del mismo. Evitando la necesidad que había hasta hace no tanto tiempo de escribir los algoritmos en C++ o CUDA directamente para poder utilizar las GPUs.

En ella básicamente se utiliza un sistema de nodos de múltiples capas. Lo que permite configurar, entrenar y desplegar rápidamente redes neuronales artificiales con grandes conjuntos de datos.

Theano es una librería software que permite la escritura de código simbólico en Python y, al igual que Tensorflow, compilarlo para mejorar el rendimiento. Gracias a lo que se puede aprovechar la potencia de las GPU modernas existentes en los ordenadores. Consiguiendo así realizar los cálculos mucho más rápido que cuando se ejecuta únicamente en la CPU. Convirtiéndola en una librería muy útil en áreas computacionalmente complejas como aprendizaje profundo.

Su primera versión fue publicada en 2007 y desarrollada por investigadores de aprendizaje automático de la Universidad de Montreal. Aunque su ámbito de aplicación no se limita únicamente al desarrollo de redes neuronales fue desarrollado pensando en este tipo de problemas, por lo que facilita la escritura de código.

Conclusiones

En esta entrada se han repasado cuatro de las principales librerías utilizadas actualmente por los científicos de datos que trabajan en Python. Por lo que conocer estas cuatro librerías es clave para los usuarios de Python que trabajan con datos.

Imágenes: Pixabay (Gellinger)