Uno de los problemas más habituales en los conjuntos de datos es la existencia de valores nulos o faltantes (missing values). La existencia de estos valores suele ser una señal de una mala calidad de datos, lo que afecta a la calidad de los posibles modelos que se pueden construir a partir de ellos, por lo que es necesario conocer el volumen del problema lo antes posible. Para gestionar el problema o, en caso de que sea necesario, utilizar algunos de los métodos de imputación de valores faltantes. En Python, Pandas proporciona algunas funciones básicas para analizar el problema. La biblioteca de Missingno va un paso más allá al ofrecer herramientas para la visualización de valores faltantes. Permitiendo con unas simples gráficas identificar dónde se ubican los valores faltantes en cada característica y ver la correlación que existe entre ellos.
Instalación y datos de ejemplo
Como es habitual en Python para instalar Missingno la opción más sencilla es recurrir al comando pip
y escribir el siguiente comando en la terminal
pip install missingno
Para evaluar el funcionamiento de Missingno se puede trabajar con el conjunto de datos planets
de Seaborn. El cual contiene el método de descubrimiento, el número, el periodo orbital, la masa, la distancia y el año de descubrimiento de 1035 exoplanetas. Como se muestra a continuación en este conjunto de datos existen múltiples valores faltantes debido a que no se conoce el periodo orbital, la masa o la distancia de muchos planetas.
import pandas as pd from seaborn import load_dataset planets = load_dataset("planets") planets.isna().sum()
method 0 number 0 orbital_period 43 mass 522 distance 227 year 0 dtype: int64
Visualización de valores faltantes
La función matrix
de Missingno permite ver de una forma visual dónde se encuentran los valores nulos en un conjunto de datos. Función a la que únicamente se le debe pasar el conjunto de datos.
import missingno as msno msno.matrix(planets)
En la gráfica se puede ver cinco columnas, cada una de las cuales se corresponde con una característica. En cada una de las columnas las líneas blancas indican la posición de los valores faltantes Observándose que los valores faltantes son un problema habitual para la masa.
Además de esto, el gráfico situado a la derecha indica la completitud de los datos, indicando las filas con mayor y menor número de valores faltantes.
Evaluar la correlación entre valores faltantes
En la gráfica anterior se puede ver que cuando no existen valores para la distancia es habitual que tampoco exista para la masa. Algo que sucede con algunos métodos de descubrimiento. Por eso suele ser interesante comprobar si existe correlación entre los valores faltantes. Para esto se puede usar la función heatmap()
que solamente requiere el conjunto de datos como parámetro.
msno.heatmap(planets)
En esta gráfica se puede ver fácilmente el nivel de correlación entre los valores nulos de las diferentes características. Tal como indica la barra de la derecha, el nivel de correlación positiva entre dos valores se indica mediante la intensidad de azul. Siendo especialmente alta entre la masa y la distancia.
Visualización de la cantidad de valores válidos
Finalmente, Missingno también cuenta con una gráfica para visualizar la cantidad de valores nulos que existe en cada una de las características. Esto es, ver su nivel de completitud. Para lo que se debe usar la función bar()
.
msno.heatmap(planets)
En este caso las barras muestran el número de valores que no faltan y su valor se indica al principio.
Conclusiones
En esta ocasión se ha visto una librera para la visualización de valores faltantes en Python. Gracias a las tres gráficas de esta es relativamente fácil ver cuando existe un problema de valores faltantes en el conjunto de datos sobre el que se está trabajando en cada momento.