VIII Congreso Internacional de Investigación REDU

Publicado el 25 de abril de 2022 | http://doi.org/10.5867/Medwave.2022.S1.CI55

English
PDF

Técnicas para equilibrar conjuntos de datos desbalanceados

Balancing techniques for imbalanced datasets

Luis Cedeño-Valarezo , Jessica Morales-Carrillo, César Andrade-Sánchez, Javier López-Zambrano

Tema
Desarrollo tecnológico y procesos energéticos

Palabras clave
Submuestreo, sobremuestreo, balanceo de datos, técnicas de balanceo

Introducción

Los conjuntos de datos desbalanceados se caracterizan por tener grandes diferencias en la frecuencia de observación entre sus clases. La mayoría de los algoritmos de clasificación asumen que los conjuntos de datos de entrenamiento tienen una distribución equilibrada entre clases, este supuesto hace que su rendimiento se deteriore. El desequilibro generalmente se presenta porque existe una clase mayoritaria y otra u otras que son minoritarias, o viceversa. Los clasificadores generalmente fallan clasificando la clase minoritaria ya que tienden a confundirla con la mayoritaria. En la literatura revisada se encuentra claramente documentada esta situación y se plantean diversas técnicas de submuestreo y/o sobremuestreo para equilibrar las clases.

Objetivos

El propósito de esta investigación es identificar la eficiencia de modelos de clasificación usando conjuntos de datos balanceados y desbalanceados.

Método

Como metodología se empleó la revisión sistémica. Se inició con la definición de la exploración, planteando la siguiente pregunta de investigación: ¿Cuáles son las técnicas más utilizadas para equilibrar conjuntos de datos desbalanceados? También se estableció como criterio de búsqueda los términos "oversampling", "undersampling" y "unbalanced datasets" y se delimitó el alcance de la revisión de publicaciones en revistas científicas a partir del año 2015 en adelante. En la ejecución de la búsqueda, se seleccionaron aquellos artículos que tenían métricas comparativas entre los conjuntos de datos original y el conjunto balanceado con una o más técnicas; se consideró también el tipo de balanceo (sobremuestreo / submuestreo), técnicas de balanceo empleadas y algoritmos de clasificación utilizados. Por último, para los resultados se realizó el análisis, considerando las técnicas de balanceo utilizadas y las métricas empleadas para valorar el rendimiento de los modelos.

Principales Resultados

Se encontraron diversas técnicas para balanceo de conjuntos de datos, tanto para sobremuestreo como para submuestreo.
En el caso de sobremuestreo se identificó las técnicas empleadas con mayor frecuencia, siendo estas SMOTE y ADASYN. En cuanto a las métricas principalmente utilizadas está mayoritariamente AUC. También con una frecuencia importante, aunque menor se encontraron F1 Score, Accuracy y Precision.
En el caso de submuestreo las técnicas con mayor frecuencia fueron RUS, ENN y TL. Con respecto a las principales métricas empleadas, AUC también es mayoritaria. Además, con frecuencia alta, aunque menor que AUC se utilizaron G-Score y Recall.
Tanto en sobremuestreo como en submuestreo se encontraron propuestas nuevas técnicas basadas en las mas frecuentes de cada categoría. De acuerdo con las métricas de calidad utilizadas, se verificó que los resultados son bastantes buenos.
Finalmente se encontró que al entrenar modelos de clasificación empleando conjuntos de datos equilibrados se mejora considerablemente el rendimiento del algoritmo empleado.

Conclusiones

Los modelos de clasificación que emplean conjuntos de datos balanceados son más eficientes que aquellos que se entrenan con conjuntos de datos desbalanceados.
La principal métrica empleada tanto en técnicas de sobremuestreo como submuestreo fue AUC (área bajo la curva).

Esta obra de Medwave está bajo una licencia Creative Commons Atribución-NoComercial 3.0 Unported. Esta licencia permite el uso, distribución y reproducción del artículo en cualquier medio, siempre y cuando se otorgue el crédito correspondiente al autor del artículo y al medio en que se publica, en este caso, Medwave.

Compartir
Notas
Autores
Historial
Foro
Métricas
Índice
Figuras
Referencias
Contenido relacionado

Autores

Luis Cedeño-Valarezo

Escuela Superior Politécnica Agropecuaria de Manabí Manuel Félix López

lcedeno@espam.edu.ec

Jessica Morales-Carrillo

Escuela Superior Politécnica Agropecuaria de Manabí Manuel Félix López

César Andrade-Sánchez

Escuela Superior Politécnica Agropecuaria de Manabí Manuel Félix López

Javier López-Zambrano

Escuela Superior Politécnica Agropecuaria de Manabí Manuel Félix López

Figuras

Artículo no tiene figuras.

Foro

Comentar

Comentarios

Historial

Citación Cedeño-Valarezo L, Morales-Carrillo J, Andrade-Sánchez C, López-Zambrano J. Balancing techniques for imbalanced datasets. Medwave 2022;22(S1):eCI55 doi: 10.5867/Medwave.2022.S1.CI55

Publicación 25/04/2022

Métricas del artículo

Vistas en HTML

1671

Descargas en PDF

% descargas en PDF

0.0%

Total

1671

Ver detalle

Notas

Origen y arbitraje

Resumen aceptado para ser presentado en el VIII Congreso Internacional de Investigación REDU 2021.. Revisado y seleccionado por el Comité Científico del VIII Congreso Internacional de Investigación REDU 2021.

Referencias

Artículo no tiene referencias.

Este sitio usa cookies

Introducción

Objetivos

Método

Principales Resultados

Conclusiones

Compartir

Enviar artículo por correo

Autores

Luis Cedeño-Valarezo

Jessica Morales-Carrillo

César Andrade-Sánchez

Javier López-Zambrano

Figuras

Foro

Comentar

Comentarios

Historial

Indice

Métricas del artículo

Notas

Origen y arbitraje

Referencias