Los objetos DataFrame de Pandas disponen de los métodos max()
e idxmax()
con los que es posible obtener respectivamente el máximo de los valores y la posición de estos. Algo que se puede hacer tanto por filas como por columnas. De forma análoga a estos, también existen los métodos min()
e idxmin()
con los que es posible los valores mínimos y su posición. En esta entrada vamos a ver cómo usar estos métodos para obtener la posición y valores de máximos y mínimos en un DataFrame.
Creación de un conjunto de datos
Antes de continuar con los métodos para identificar los máximos, mínimos y su posición es necesario crear un conjunto de datos de prueba. Para ello se puede recurrir al método randint()
, después de fijar la semilla de cara a poder reproducir los resultados, para crear una matriz y luego convertirla en un DataFrame. Algo que se puede conseguir con un código como el siguiente:
import numpy as np import pandas as pd np.random.seed(0) df = pd.DataFrame(np.random.randint(0, 100, size=(4, 5)), columns=list('ABCDE')) df.loc[1, 'A'] = np.NaN df.loc[2, 'C'] = np.NaN
Nótese que en el objeto se han introducido dos valores NaN
, esto es para ver cómo se puede con este tipo de valores. El código anterior generar como resultado el siguiente DataFrame
A B C D E
0 44.0 47 64.0 67 67 1 NaN 83 21.0 36 87 2 70.0 88 NaN 12 58 3 65.0 39 87.0 46 88
Uso básico del método max()
Al utilizar el método max()
sobre el objeto DataFrame que se ha creado anteriormente se obtienen como resultado los valores máximo por columna, ignorando los NaN
.
df.max()
Esto es así porque el método se aplica por defecto a las columnas. En el caso de necesitar obtener los máximos por fila solamente hay que indicar el eje sobre el que se desea obtener los valores máximos. Esto es, pasando como el parámetro axis
igual a 1.
df.max(axis=1)
Nótese que en este caso los índices son los de las filas, no los de las colman como en el caso anterior. Finalmente, si lo que se desea en obtener el máximo total solamente se tienen que usar dos veces el método max()
df.max().max()
88.0
Tener en cuenta los valores nulos
Por defecto el método max()
no tiene en cuenta los valores nulos, esto es porque el valor de la propiedad skipna
es por defecto None
. En el caso de que queramos tener en cuenta los valores NaN
, es decir, buscar los valores máximos solamente en las filas o columnas que tengan todos sus elementos distingos de NaN
, solamente hay que poner este valor a verdadero. Lo que se muestra en el siguiente ejemplo.
df.max(axis=1, skipna=False)
Obteniendo como resultado un objeto en el que el segundo y tercer valor son NaN
. Lo que se produce porque la presencia de por lo menos un valor NaN
en la fila hace que el resultado sea necesariamente este.
Obtener la posición de los valores máximos
En algunos casos no es necesario obtener el valor máximo, sino que la posición en la que este se encuentra. Para lo que se dispone del método idxmax()
. Un método que tiene las mismas propiedades vistas para max()
. Así, para obtener los índices en los que se encuentra el máximo de cada columna solamente se tienen que escribir
df.idxmax()
Mientras que en el caso de buscar los índices en las filas se tiene que asignar la propiedad axis
a 1.
df.idxmax(axis=1)
En donde se puede ver que devuelve el nombre de la columna en la que se encuentra el máximo. Al igual que en el caso de max()
el método idxmax()
ignora los valores NaN
y de forma análoga también se puede indicar que los tenga en cuenta. Lo que procura como resultado que solamente se obtendría la posición del máximo cuando toda la fila o columna tenga valores no nulos, obteniendo como resultado NaN
en el resto de los casos. A modo de ejemplo se puede ver el resultado cuando se asigna esta propiedad
df.idxmax(axis=1, skipna=False)
Posición y valores mínimos en un DataFrame
Cuando se necesita localizar los mínimos de un DataFrame se puede recurrir a los métodos min()
e idxmin()
los cuales funcionan exactamente igual y tiene las mismas propiedades que max()
e idxmax()
respectivamente.
Conclusiones
En esta entrada hemos visto cómo localizar la posición y valores de máximos y mínimos en un DataFrame. Tarea que se puede realizar fácilmente gracias a la existencia de los métodos min()
, max()
, idxmin()
e idxmax()
de los objetos DataFrame.