Los diagramas de caja o Boxplot son una excelente herramienta para analizar de forma gráfica la dispersión de los conjuntos de datos. Simplemente representando la mediana, los cuartiles y el rango intercuartílico. La función para crear un gráfico tipo Boxplot con Matplotlib es boxplot()
, veamos a continuación las opciones que nos ofrece este método.
Creación de un Boxplot con Matplotlib
Para comprender el funcionamiento de los gráficos de Boxplot lo mejor es crear una con un conjunto de datos cuya forma es conocida. Por ejemplo, generando una muestra con una distribución normal estándar. Una vez generado el conjunto de datos se puede crear la gráfica con el siguiente código.
import numpy as np import matplotlib.pyplot as plt data = np.random.RandomState(0).randn(100) plt.boxplot(data) plt.title("Boxplot con Matplotlib") plt.show()
Obteniendo como resultado la siguiente figura.
Boxplot básico creado con Matplotlib en PythonEn esta figura se puede ver que la mediana de los datos, la línea naranja, se sitúa aproximadamente en 0, como es de esperar para una distribución normal estándar. La caja representa el rango intercuartílico. Los valores del conjunto de datos que van desde percentil 25% hasta el 75%, esto es los valores por debajo de los cuales se encuentra el 25% y 75% de los datos. Es una distribución normal estándar esto sería entre el valor -0,67 hasta 0,67, aproximadamente los que se pueden ver en la figura.
Finalmente, las líneas que salen de la caja, a las que habitualmente se les llaman "bigotes", son 1,5 veces el rango intercuartílico. Asumiendo que todos los datos "normales" deberían caer en ese rango, aquellos que no caen generalmente se les consideran atípicos y se muestran en la figura.
Valores atípicos (outliers) en un Boxplot
En el ejemplo anterior no se han generado valores atípicos en el conjunto de datos, pero se pueden agregar algunos para mostrarlos en la figura. En este conjunto de datos cualquier valor por encima de 2,7 será atípico, por lo que se pueden agregar los valores 3 y 4. Una vez hecho esto se puede volver a generar la figura para ver dos valores atípicos en ella. Algo que se puede hacer con el siguiente código.
data = np.append(data, [3, 4]) plt.boxplot(data) plt.title("Boxplot con Matplotlib") plt.show()
Obteniendo como resultado la siguiente figura.
Boxplot con dos outliers creado con Matplotlib en PythonEn la que se pueden ver dos valores atípicos marcados con círculos situados en los valores agregados.
Múltiples de gráficos Boxplot es una figura
Si se dispone de varios conjuntos de datos es posible crear una gráfica Boxplot para cada uno de ellos en la misma figura. Algo que solamente requiere crear un vector con cada uno de los conjuntos de datos. Esto es lo que se hace en el siguiente código, donde se crean tres conjuntos de datos usando distribuciones normales con diferentes medias y desviaciones estándar. Mostrando posteriormente todos estos conjuntos de datos en la misma figura.
data =[np.random.RandomState(0).randn(100), 2 * np.random.RandomState(1).randn(100) + 1, 0.5 *np.random.RandomState(2).randn(100) - 1] plt.boxplot(data) plt.title("Boxplot con Matplotlib") plt.show()
Al ejecutar este código se obtiene la siguiente figura como resultado.
Múltiples Boxplot en una figura creados con Matplotlib en PythonUna figura en la que se puede ver el segundo conjunto de datos tiene una mayor dispersión en los valores y el tercero menos. Lo que se corresponde con una mayor y menor desviación estándar respectivamente. Por otro lado, en el tercer conjunto de datos se ha generado un valor atípico u outlier.
Conclusiones
En esta entrada se han visto los pasos para crear gráficos tipo Boxplot con Matplotlib en Python. Una herramienta bastante sencilla que nos permite ver de una forma visual cómo se distribuyen los valores de un conjunto de datos. Simplificando algunos análisis y permitiendo identificar la presencia de valores atípicos u outliers.