Revista Informática

Modificar el formato de los DataFrame de Pandas

Publicado el 31 octubre 2022 por Daniel Rodríguez @analyticslane
Modificar el formato de los DataFrame de Pandas

Cuando se imprime un DataFrame de Pandas por la pantalla este se muestra con un formato estándar. A pesar de que este es más que adecuado para la mayoría de las aplicaciones, el estilo se puede modificar para adaptarlo a nuestras necesidades. Veamos algunos cambios que se pueden realizar en el formato de los DataFrame de Pandas para obtener unos que se puedan adaptar a cada uno de los casos.

Creación de un DataFrame aleatorio en Pandas

En primer lugar, se puede generar un DataFrame aleatorio ver cómo se ve este en pantalla. Para lo que se puede utilizar un código como el siguiente.

import pandas as pd
import numpy as np

np.random.seed(1)

df = pd.DataFrame(np.random.rand(5, 4))
df

Obteniendo como resultado una tabla como la que se muestra a continuación.

En muchos casos puede que no interese mostrar la columna de índice. Algo que se puede conseguir usando el método style.hide() del DataFrame, al que se le debe pasar como el parámetro axis="index" para indicar que no se desea ver el índice.

df.style.hide(axis="index")

Así la tabla anterior se muestra como la siguiente

Modificar la precisión de los números

Otra operación que se puede realizar de forma habitual es modificar la presión de los valores que se muestran. Mostrar seis decimales, como en el ejemplo anterior, puede ser innecesario si los valores no tienen esa precisión. Una solución es reducir la presión a dos o tres dígitos, lo que se puede hacer mediante el método style.format() al que se le debe pasar en la propiedad precision el número de dígitos que se desea o una cadena de texto con el formato. Así, por ejemplo, para mostrar tres dígitos se puede hacer.

df.style.format(precision=3)

Obteniendo como resultado la siguiente tabla.

Las modificaciones se pueden encadenar, así es posible llamar primero al método hide() para eliminar el índice y posteriormente a style.format() para dar formato al contenido. Algo como lo que se muestra a continuación.

df.style.hide(axis="index").format(precision=3)

Lo que genera una tabla como la que se muestra a continuación.

El formato también se puede dar columna a columna, pasando en lugar de un número o una cadena de texto un diccionario con los valores para cada columna. Así se puede dar un formato distinto a cada columna.

df.style.hide(axis="index").format({
    0 : "{:.1f}",
    1 : "{:.2f}",
    2 : "{:.3f}",
    3 : "{:.4f}"
})

A partir de lo que se obtiene algo como lo que se muestra a continuación.

Resaltar valores máximos y mínimos

Otra opción que se puede agregar es resaltar los valores máximos y mínimos de una tabla. Para resaltar los valores máximos se puede usar style.highlight_max(), mientras que para los mínimos sería el método style.highlight_min(). En ambos casos el color con el que se resalta el dato es amarillo, así que para diferenciarlos se puede indicar uno diferente mediante la propiedad color. Esto es lo que se hace en el siguiente ejemplo, donde los máximos se muestran en amarillo y los mínimos en rojo.

df.style.hide(axis="index").format(precision=3).highlight_max().highlight_min(color='red')

A partir de lo que se obtiene la siguiente tabla.

Por defecto se buscan los valores máximos y mínimos por columna, para obtenerlos por fila simplemente se ha de asignar a la propiedad axis el valor de 1. Esto es lo que se muestra en el siguiente ejemplo.

df.style.hide(axis="index").format(precision=3).highlight_max(axis=1).highlight_min(axis=1, color='red')

Lo que produce la siguiente gráfica.

Existen métodos análogos para resaltar los valores nulos y NaN ( style.highlight_null()).

Agregar una barra a cada uno de los valores

Otra opción que puede ser de interés es agregar una barra que nos indique el visualmente el valor de cada celda en función al máximo y mínimo de cada columna o fila. Esto se puede conseguir mediante el método style.highlight_max(), al que se le pueden indicar el color mediante la propiedad color y el eje sobre el que se toman los valores mediante la propiedad axis. Así de este modo se puede mostrar una barra en cada una de las celdas donde se indique el valor en base al máximo y mínimo de cada fila.

df.style.hide(axis="index").format(precision=3).bar(color='green', axis=1)

Algo que genera la siguiente figura como resultado.

Conclusiones

En esta entrada se han visto algunas opciones para cambiar el formato de los DataFrame de Pandas y adaptar la salida a nuestras necesidades. Los métodos que se pueden encontrar style permiten hacer que no sea necesario una herramienta externa para mejorar la presentación de las tablas.


Volver a la Portada de Logo Paperblog