Pandas es una de librería de Python que más usamos en el día a día, siendo una herramienta clave en la mayoría de los proyectos de aprendizaje automático y ciencia de datos. Aún así, con un uso tan intensivo, no solemos conocer todas los métodos y funciones que esta librería nos ofrece. Hoy vamos a repasar tres métodos de Pandas poco conocidos que son muy interesantes: value_counts
, mask
y nlargest
.
En esta entrada vamos a utilizar un conjunto de datos de pruebas que vamos a crear con el siguiente comando.
import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randint(0, 4, size=(6, 4)), columns=list('ABCD')) df
A B C D 0 0 3 1 0 1 3 3 3 3 2 1 3 1 2 3 0 3 2 0 4 0 0 2 1 5 2 3 3 2
value_counts
El método value_counts
de Pandas permite obtener de una forma rápida los valores únicos y con la frecuencia de estos en una serie. Una operación que puede ser de interés en diferentes situaciones. Así para la serie A
del DataFrame de ejemplo se puede obtener los elementos simplemente con
df['A'].value_counts()
0 3 3 1 2 1 1 1
Con lo que se puede observar que el elemento más repetido es 0 con tres ocurrencias. Lo mejor de este método es que se puede aplicar a todo el DataFrame mediante `apply(). Obteniendo de este modo un nuevo DataFrame en el que los índices son los valores y en cada fila se obtiene el número de ocurrencias. Si en una serie no existe un valor, se obtendrá un NaN. Lo que se puede ver en el siguiente ejemplo.
df.apply(pd.value_counts)
A B C D 0 3 1.0 NaN 2 1 1 NaN 2.0 1 2 1 NaN 2.0 2 3 1 5.0 2.0 1
mask
El método mask
es interesante porque permite remplazar los valores por otros en un DataFrame en base a una condición. Así es un método que tiene dos entradas, una condición y un valor. Por ejemplo, se pueden multiplicar por 10 todos los valores pares.
df.mask(df % 2 == 0, 10 * df)
A B C D 0 0 3 1 0 1 3 3 3 3 2 1 3 1 20 3 0 3 20 0 4 0 0 20 1 5 20 3 3 20
Esto es algo que nos facilita enormemente el procesado de datos para filtrar valores anómalos.
nlargest
Finalmente, el método nlargest
nos permite obtener los n
valores más grandes en cada una de las series de un DataFrame. Así para obtener los dos registros más grandes en cada serie del conjunto de datos de ejemplo se puede escribir.
df.nlargest(2, 'D')
A B C D 1 3 3 3 3 2 1 3 1 2
Afortunadamente, si lo que necesitamos son los valores más pequeños existe el método nsmallest
que funciona de forma análoga.
Conclusiones
En la entrada de hoy hemos visto tres métodos de Pandas poco conocidas que son muy interesantes: value_counts
, mask
y nlargest
. Posiblemente no sean métodos que usaremos todos los días, pero es interesante conocer todas las posibilidades que ofrece esta fantástica herramienta.
Imagen de Susanne Stöckli en Pixabay
Publicidad