Al trabajar con conjuntos de datos reales, es poco común que estos lleguen en el formato ideal para su uso directo. Por lo general, es necesario reorganizar, transformar o modificar su estructura para adaptarlos a los requisitos específicos de diferentes algoritmos o modelos. Numpy, una de las bibliotecas más populares de Python para operaciones matemáticas y manipulación de datos, ofrece herramientas altamente eficientes para la manipulación de dimensiones, entre las que destacan dos funciones clave: y .
En esta entrada, explicaremos cómo las funciones y permiten modificar la forma y estructura de los arrays de manera eficiente. Estas herramientas son fundamentales para abordar problemas comunes en ciencia de datos y machine learning, como la preparación de datos para entrenar modelos, la transformación de imágenes y la consolidación de datos multidimensionales en formatos adecuados para su análisis o procesamiento.
La necesidad de la manipulación de dimensiones
Los datos rara vez están organizados de manera óptima para realizar un análisis o entrenar un modelo. Por ejemplo, un conjunto de datos que representa las ventas mensuales de una tienda en varias regiones. Una forma común de estructurarlos es mediante una matriz 2D, donde las filas representan los meses y las columnas las regiones. Sin embargo, para ciertos análisis podría ser más útil reorganizarlos en un formato diferente, como una lista unidimensional o un tensor 3D.
Para abordar este tipo de transformaciones, Numpy ofrece las funciones y , que permiten modificar la estructura de los datos de forma sencilla, eficiente y fiable, facilitando su adaptación a diversas necesidades analíticas o computacionales.
Las funciones np.reshape()
y np.flatten()
En primer lugar, veamos para qué están pensadas las funciones np.reshape()
y np.flatten()
de NumPy
La función reshape()
permite cambiar la forma de un array sin alterar sus datos. Permite especificar las nuevas dimensiones que se deseen, siempre que el número total de elementos permanezca constante. Esto hace que sea ideal para reorganizar datos en diferentes estructuras. Su sintaxis básica es la que se muestra a continuación:
np.reshape(array, new_shape)
La función flatten()
convierte un array multidimensional en un array unidimensional. Es útil cuando se necesita consolidar los datos en una lista para el análisis, la visualización o el procesamiento en algoritmos que requieren datos planos. Su sintaxis básica es la que se muestra a continuación:
array.flatten()
Ejemplos prácticos
Una vez visto para qué son las funciones np.reshape()
y np.flatten()
de NumPy se pueden usar en algunos casos prácticos.
Transformacionales de una matriz con np.reshape()
Supongamos que se tienen los datos en una matriz 2×6 y se desea reorganizar estos en una matriz 3×4. Para ello se le pasa como primer parámetro a np.reshape()
la matriz original y como segundo la dimensiones de la nueva matriz. Esto es lo que se muestra en el siguiente ejemplo:
import numpy as np # Datos originales: matriz 2x6 ventas = np.array([[100, 200, 300, 400, 500, 600], [700, 800, 900, 1000, 1100, 1200]]) # Reorganizar en una matriz 3x4 ventas_reshape = np.reshape(ventas, (3, 4)) print(ventas_reshape)
[[ 100 200 300 400]
[ 500 600 700 800]
[ 900 1000 1100 1200]]
En este ejemplo, se ha cambiado de una matriz de 2×6 a otra de 3×4 sin alterar el contenido de los datos.
Aplanar un array con np.flatten()
Si lo que se necesita es disponer de los datos en un array unidimensional se debe recurrir al método flatten()
. En este caso, simplemente se debe llamar al método del objeto para obtener un vector, como se muestra a continuación:
# Aplanar la matriz original ventas_flat = ventas.flatten() print(ventas_flat)
[ 100 200 300 400 500 600 700 800 900 1000 1100 1200]
Esta operación es útil para algoritmos que requieren vectores de entrada o para exportar los datos a otros formatos.
Trabajar con arrays 3D: Preparación de datos de imágenes
En procesamiento de imágenes, a menudo es necesario convertir imágenes 2D (ancho x alto) en tensores 3D (canales x ancho x alto). Con reshape()
, es posible transformar una imagen 2D en el tensor adecuado.
# Crear una imagen simulada de 6x6 imagen = np.arange(36).reshape(6, 6) # Convertirla en un tensor 3D con 3 canales imagen_tensor = np.reshape(imagen, (3, 2, 6)) print(imagen_tensor)
Esta operación de manipulación de dimensiones es esencial para poder alimentar imágenes a redes neuronales que procesan datos en formato tensorial.
Calcular automáticamente las dimensiones: Uso de -1
en reshape()
Un truco bastante útil en reshape()
es usar -1
como una de las dimensiones. Esto le dice a Numpy que calcule automáticamente esa dimensión en función del número total de elementos y las otras dimensiones especificadas. Evitando así la necesidad de realizar este cálculo antes de llamar a la función. Esto se puede ver en el siguiente ejemplo
# Reorganizar la matriz original a 3 filas con forma automática de columnas ventas_auto = np.reshape(ventas, (3, -1)) print(ventas_auto)
[[ 100 200 300 400]
[ 500 600 700 800]
[ 900 1000 1100 1200]]
Al compararlo con el primer ejemplo, se puede ver que ahora no ha sido necesario saber antes de llamar a la función cuál era el número de columnas, ya que lo ha calculado la función en base al número de elementos de la matriz original.
Conclusiónes
Dominar la manipulación de dimensiones con y es una habilidad fundamental para cualquier persona que utilice Numpy y Python en el manejo de datos. Estas herramientas no sólo simplifican tareas como el preprocesamiento y la transformación de datos, sino que también optimizan el rendimiento al eliminar la necesidad de operaciones manuales e ineficientes.
Entender cómo y cuándo emplear estas funciones permite resolver problemas complejos de manipulación de datos de manera efectiva, además de facilitar la escritura de código más limpio, legible y eficiente.