Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se conoce como el Problema del Desequilibrio de Clases (Class Imbalance Problem).
Por ejemplo, en los problemas de fraude la situación más habitual es encontrar un caso positivo por cientos o miles negativos. En estos conjuntos de datos es normal esperar una reducción del rendimiento de los clasificadores. Siendo esta mayor cuanto mayor sea el desequilibrio existente en los datos.
¿Por qué es difícil aprender en dominios no balanceados?
El motivo por el que los clasificadores no función bien con conjunto de datos desbalanceados se debe a diferentes casusas, entre las que se pueden destacar:
- Existencia de subclases poco representadas (Small Disjuncts): las subclases poco representadas en los conjuntos de datos pueden ser confundidas con ruido o datos atípico. Provocando que el clasificador ignore estos registros.
- Falta de densidad en los datos de entrenamiento (Lack of density): al no disponer de una densidad suficiente en los datos los algoritmos pueden no ser capaces de llevar a cabo una generalización. Al no encontrar una zona en el espacio de atributos con suficiente densidad como para inducir un patrón.
- Solape entre clases (Class Separability Problem): puede aparecer un solape entre las clases en las zonas fronterizas. Dando lugar a que ambas clases tenga una representación similar en estos tramos. Esto hace que sea imposible separar ambas. En los conjuntos de datos desbalanceados la subrepresentación de una clase hace que la dominante prevalezca. Provocando que aparezcan errores de falso negativo para los registros minoritarios.
- Confusión con ruido (Noisy data): los registros atípicos toman especial importancia en los conjuntos de datos no balanceados. Esto es debido a dificultad para poder discriminarlos frente a los sobrerrepresentados.
- Separación del conjunto de datos (Dataset shift): este problema apara cuando las instancias de entrenamiento y test siguen una distribución de probabilidad diferente. Por lo que aparece una reducción del rendimiento del clasificador en el conjunto de test. Este problema se puede solucionar con una estrategia bien diseñada de validación. Pero en los conjuntos desbalanceados la poca representación de la clase minoritaria hace que los resultados sean especialmente sensibles.
Soluciones al problema
Existen tres estrategias principales para trabajar con conjuntos de datos desbalanceados, estos son
- Remuestreo: es la estrategia más directa, simplemente se modifica la distribución de las clases en el conjunto de entrenamiento. Existiendo dos aproximaciones diferentes: sobremuestreo y submuestreo. El sobremuestreo consiste en aumentar la presencia de la clase minoritaria. Por el otro lado, el submuestreo consiste en reducir la presencia de la clase mayoritaria.
- Ensemble: se basan en la construcción de distintas hipótesis sobre el mismo conjunto de datos. Ya se mediante la utilización de subconjuntos de entrenamiento o una penalización sucesiva que corrija los errores de clasficación.
- Técnicas híbridas: estas son una combinación de las técnicas anteriores.
Remuestreo aleatorio
Las estrategias de remuestreo más fáciles de implementar son las aleatorias. Tanto sea el sobremuestreo aleatorio (Random Over-Sampling, ROS) o el submuestreo aleatorio (Random Under-Sampling, RUS).
El ROS se basa en la duplicación de un subconjunto aleatorio de los registros de la clase minoritaria seleccionados dentro del conjunto original. Esta técnica permite que el número total de registros de la case minoritaria aumente. Ajustándose de este modo la distribución de las clases en el conjunto de entrenamiento.
Por otro lado, el RUS se basa en la eliminación aleatoria de un subconjunto de datos de clase mayoritaria hasta que la ratio se aproxime a la deseada. Modificando la distribución de las clases. Obteniendo un conjunto de menor tamaños que el original.
Problemas asociados al remuestreo aleatorio
La principal desventaja de RUS es la pérdida de patrones en los conjuntos de entrenamiento. Debido a que no se tiene control sobre la información de la clase mayoritaria que se descartar. Pudiéndose eliminar información relevante para los modelos.
ROS, por otro lado, no tiene la desventaja de eliminar registros y, por lo tanto, patrones existentes en los datos. Pero al duplicar información puede facilitar la aparición de soberajuste.
Submuestreo informado
Cómo se ha indicado anteriormente el remuestreo aleatorio presenta problemas. Por un lado, las RUS elimina información de los conjuntos de datos. Por otro lado, ROS puede producir sobreajuste al duplicar información. Para solucionar estos problemas se pueden utilizar técnicas de submuestreo informado. Las cuales proponen distintas aproximaciones para seleccionar los registros a eliminar. Algunas de las técnicas disponibles son:
- NearMiss
- One-Sided Selection (OSS)
- Cluster Centroids (ClC)
Conclusiones
En esta entrada se han presentados los problemas que aparecen en los subconjuntos de datos en los que existe un desequilibrio de las clases. Las técnicas más básicas que se pueden aplicar son el remuestreo aleatorio, que puede llevar a la aparición de diferentes problemas.