Revista Informática

Pandas: Encontrar la posición y valores de máximos y mínimos en un DataFrame

Publicado el 21 junio 2021 por Daniel Rodríguez @analyticslane
Pandas: Encontrar la posición y valores de máximos y mínimos en un DataFrame

Los objetos DataFrame de Pandas disponen de los métodos max() e idxmax() con los que es posible obtener respectivamente el máximo de los valores y la posición de estos. Algo que se puede hacer tanto por filas como por columnas. De forma análoga a estos, también existen los métodos min() e idxmin() con los que es posible los valores mínimos y su posición. En esta entrada vamos a ver cómo usar estos métodos para obtener la posición y valores de máximos y mínimos en un DataFrame.

Creación de un conjunto de datos

Antes de continuar con los métodos para identificar los máximos, mínimos y su posición es necesario crear un conjunto de datos de prueba. Para ello se puede recurrir al método randint(), después de fijar la semilla de cara a poder reproducir los resultados, para crear una matriz y luego convertirla en un DataFrame. Algo que se puede conseguir con un código como el siguiente:

import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 100,
                                    size=(4, 5)),
                  columns=list('ABCDE'))

 df.loc[1, 'A'] = np.NaN
 df.loc[2, 'C'] = np.NaN

Nótese que en el objeto se han introducido dos valores NaN, esto es para ver cómo se puede con este tipo de valores. El código anterior generar como resultado el siguiente DataFrame

 A B C D E 0 44.0 47 64.0 67 67 1 NaN 83 21.0 36 87 2 70.0 88 NaN 12 58 3 65.0 39 87.0 46 88

Uso básico del método max()

Al utilizar el método max() sobre el objeto DataFrame que se ha creado anteriormente se obtienen como resultado los valores máximo por columna, ignorando los NaN.

df.max()

Esto es así porque el método se aplica por defecto a las columnas. En el caso de necesitar obtener los máximos por fila solamente hay que indicar el eje sobre el que se desea obtener los valores máximos. Esto es, pasando como el parámetro axis igual a 1.

df.max(axis=1)

Nótese que en este caso los índices son los de las filas, no los de las colman como en el caso anterior. Finalmente, si lo que se desea en obtener el máximo total solamente se tienen que usar dos veces el método max()

df.max().max()
88.0

Tener en cuenta los valores nulos

Por defecto el método max() no tiene en cuenta los valores nulos, esto es porque el valor de la propiedad skipna es por defecto None. En el caso de que queramos tener en cuenta los valores NaN, es decir, buscar los valores máximos solamente en las filas o columnas que tengan todos sus elementos distingos de NaN, solamente hay que poner este valor a verdadero. Lo que se muestra en el siguiente ejemplo.

df.max(axis=1, skipna=False)

Obteniendo como resultado un objeto en el que el segundo y tercer valor son NaN. Lo que se produce porque la presencia de por lo menos un valor NaN en la fila hace que el resultado sea necesariamente este.

Obtener la posición de los valores máximos

En algunos casos no es necesario obtener el valor máximo, sino que la posición en la que este se encuentra. Para lo que se dispone del método idxmax(). Un método que tiene las mismas propiedades vistas para max(). Así, para obtener los índices en los que se encuentra el máximo de cada columna solamente se tienen que escribir

df.idxmax()

Mientras que en el caso de buscar los índices en las filas se tiene que asignar la propiedad axis a 1.

df.idxmax(axis=1)

En donde se puede ver que devuelve el nombre de la columna en la que se encuentra el máximo. Al igual que en el caso de max() el método idxmax() ignora los valores NaN y de forma análoga también se puede indicar que los tenga en cuenta. Lo que procura como resultado que solamente se obtendría la posición del máximo cuando toda la fila o columna tenga valores no nulos, obteniendo como resultado NaN en el resto de los casos. A modo de ejemplo se puede ver el resultado cuando se asigna esta propiedad

df.idxmax(axis=1, skipna=False)

Posición y valores mínimos en un DataFrame

Cuando se necesita localizar los mínimos de un DataFrame se puede recurrir a los métodos min() e idxmin() los cuales funcionan exactamente igual y tiene las mismas propiedades que max() e idxmax() respectivamente.

Conclusiones

En esta entrada hemos visto cómo localizar la posición y valores de máximos y mínimos en un DataFrame. Tarea que se puede realizar fácilmente gracias a la existencia de los métodos min(), max(), idxmin() e idxmax() de los objetos DataFrame.


Volver a la Portada de Logo Paperblog