VIII Congreso Internacional de Investigación REDU

← vista completa

Técnicas para equilibrar conjuntos de datos desbalanceados

Balancing techniques for imbalanced datasets

Tema
Desarrollo tecnológico y procesos energéticos

Palabras clave
Submuestreo, sobremuestreo, balanceo de datos, técnicas de balanceo

Introducción

Los conjuntos de datos desbalanceados se caracterizan por tener grandes diferencias en la frecuencia de observación entre sus clases. La mayoría de los algoritmos de clasificación asumen que los conjuntos de datos de entrenamiento tienen una distribución equilibrada entre clases, este supuesto hace que su rendimiento se deteriore. El desequilibro generalmente se presenta porque existe una clase mayoritaria y otra u otras que son minoritarias, o viceversa. Los clasificadores generalmente fallan clasificando la clase minoritaria ya que tienden a confundirla con la mayoritaria. En la literatura revisada se encuentra claramente documentada esta situación y se plantean diversas técnicas de submuestreo y/o sobremuestreo para equilibrar las clases.

Objetivos

El propósito de esta investigación es identificar la eficiencia de modelos de clasificación usando conjuntos de datos balanceados y desbalanceados.

Método

Como metodología se empleó la revisión sistémica. Se inició con la definición de la exploración, planteando la siguiente pregunta de investigación: ¿Cuáles son las técnicas más utilizadas para equilibrar conjuntos de datos desbalanceados? También se estableció como criterio de búsqueda los términos "oversampling", "undersampling" y "unbalanced datasets" y se delimitó el alcance de la revisión de publicaciones en revistas científicas a partir del año 2015 en adelante. En la ejecución de la búsqueda, se seleccionaron aquellos artículos que tenían métricas comparativas entre los conjuntos de datos original y el conjunto balanceado con una o más técnicas; se consideró también el tipo de balanceo (sobremuestreo / submuestreo), técnicas de balanceo empleadas y algoritmos de clasificación utilizados. Por último, para los resultados se realizó el análisis, considerando las técnicas de balanceo utilizadas y las métricas empleadas para valorar el rendimiento de los modelos.

Principales Resultados

Se encontraron diversas técnicas para balanceo de conjuntos de datos, tanto para sobremuestreo como para submuestreo.
En el caso de sobremuestreo se identificó las técnicas empleadas con mayor frecuencia, siendo estas SMOTE y ADASYN. En cuanto a las métricas principalmente utilizadas está mayoritariamente AUC. También con una frecuencia importante, aunque menor se encontraron F1 Score, Accuracy y Precision.
En el caso de submuestreo las técnicas con mayor frecuencia fueron RUS, ENN y TL. Con respecto a las principales métricas empleadas, AUC también es mayoritaria. Además, con frecuencia alta, aunque menor que AUC se utilizaron G-Score y Recall.
Tanto en sobremuestreo como en submuestreo se encontraron propuestas nuevas técnicas basadas en las mas frecuentes de cada categoría. De acuerdo con las métricas de calidad utilizadas, se verificó que los resultados son bastantes buenos.
Finalmente se encontró que al entrenar modelos de clasificación empleando conjuntos de datos equilibrados se mejora considerablemente el rendimiento del algoritmo empleado.

Conclusiones

Los modelos de clasificación que emplean conjuntos de datos balanceados son más eficientes que aquellos que se entrenan con conjuntos de datos desbalanceados.
La principal métrica empleada tanto en técnicas de sobremuestreo como submuestreo fue AUC (área bajo la curva).