Los diagramas de caja ("boxplot") o diagramas de bigote son una excelente herramienta para representar características de un conjunto de datos como la dispersión y la simetría. Otro gráfico que también nos permite observar estas características en los conjuntos de datos son los histogramas. Por lo que, en ciertas ocasiones, puede ser una buena idea combinar ambos en un único gráfico para ofrecer una mejor representación de los datos. Vamos a ver como se puede hacer esto, combinar en una única gráfica diagramas de caja e histogramas en Python, con Seaborn.
Diagramas de caja e histogramas en una gráfica
Para crear una gráfica en la que exista un diagrama de cajas y un histograma se puede utilizar el siguiente código.
import numpy as np import seaborn as sns import matplotlib.pyplot as plt x = np.random.normal(loc=0.0, scale=3.0, size=1000) f, ax = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.20, .80)}) sns.boxplot(x, ax=ax[0]) sns.distplot(x, ax=ax[1]) ax[1].axvline(np.mean(x), color='red')
Con el que se obtendrá una figura como la siguiente.
En esta figura se puede ver en la parte superior un diagrama de cajas y en la parte inferior un histograma con la función de densidad. Compartiendo ambos el mismo eje x. Además, también se puede ver una línea roja en el histograma que indica la posición de la media del conjunto de datos.
Los pasos que se han dado para crear la gráfica han sido los siguientes.
Conjunto de datos aleatorios
En primer lugar, después de las correspondientes importaciones, se han creado un conjunto de datos aleatorios usando la función random.normal()
de NumPy. Esta función ha creado simplemente 1000 registros a partir de una distribución normal con media cero y dispersión igual a 3.
Creación de las sub gráficas
Posteriormente se ha empleado la función subplots
de Matplotlib para crear una gráfica con dos ejes. Indicándose mediante la propiedad sharex
que ambas compartan el mismo eje de coordenadas para x
.
Además, también se ha utilizado la propiedad gridspec_kw
para indicar el porcentaje de altura que le corresponde a cada eje. Lo que se ha hecho es crear un diccionario con la propiedad height_ratios
. Indicando que el primer eje, el que se usará para el diagrama de caja, usar el 20% de la altura y el segundo, el que se usará para representar el histograma el resto.
Esta función devuelve dos valores: la figura y los ejes. Solo que en este caso hay que tener en cuenta que los ejes son una vector con dos registros, ya que este es el número de ejes que tiene la nueva figura
Creación los diagramas de caja e histogramas
Las dos gráficas se han creado con las funciones correspondientes de Seaborn. La función boxplot
para el diagrama de cajas y distplot
para el histograma. Indicando en ambos casos el eje en el que se desea situar la figura.
Creación de la línea vertical
Finalmente, se usa la propiedad axvline
del eje para crear una línea vertical. A la que solamente se le debe indicar la posición. Aunque también se ha indicado el color para diferenciarlo del histograma.
Conclusiones
En esta entrada hemos visto un pequeño truco para poder crear una única figura con diagramas de caja e histogramas en Python. Un truco que también se podría usar para combinar otros tipos de gráficos modificando los parámetros utilizados en este caso.