NUEVO ALGORITMO MULTICLASIFICADOR PARA FLUJOS DE DATOS CON CAMBIOS DE CONCEPTO

Ramón Osmany Ramírez Tasé, Alberto Verdecia Cabrera, Agustín Alejandro Ortiz Díaz, Isvani Frías Blanco

Resumo


Los algoritmos multiclasificadores se han mostrado particularmente eficientes para trabajar sobre espacios de datos grandes y complejos como los llamados flujos de datos. En estos flujos, durante la clasificación, aparecen conceptos que cambian con el tiempo, por lo que los métodos para su minería, sobre todo los  que detectan y se adaptan  a estos cambios, son importantes por su aplicación en áreas como: bioinformática, medicina, economía y finanzas, industria, medio ambiente, entre otras. La presente investigación propone un nuevo algoritmo multiclasificador que se adapta a los cambios de conceptos, tiene votación ponderada con una nueva forma para ajustar los pesos y permite variar el tipo de clasificador básico. El algoritmo fue implementado en compatibilidad y bajo las exigencias del entorno de trabajo MOA (Massive Online Analysis) facilitando la comparación con otros algoritmos conocidos y la generación de bases de datos sintéticas que simulan cambios de conceptos. Para la experimentación se generaron experiencias bajo conceptos artificiales conocidos, tales como: SEA, LED, STAGGER e Hiperplano; logrando mostrar la alta capacidad de adaptación y la estabilidad del algoritmo frente a diferentes situaciones simuladas.


Palavras-chave


Clasificación; Aprendizaje incremental; flujos de datos; cambio de concepto; clasificadores múltiples

Texto completo:

PDF (Español (España))

Referências


BIFET, A., & GAVALDA, R. (2007). Learning from Time-Changing Data with Adaptive Windowing. Paper presented at the SDM.

CABALLERO, Y. (2007). Aplicación de la Teoría de los Conjuntos Aproximados en el Preprocesamiento de los Conjuntos de Entrenamiento para Algoritmos de Aprendizaje Automatizado. Universidad Central "Marta Abreu" de la Villas, Santa Clara.

CUNNINGHAM, P. (2003). A case-based approach to spam filtering that can track concept drift. Paper presented at the ICCBR-2003 Workshop on Long-Lived CBR Systems.

DEL CAMPO ÁVILA, J. (2007). Nuevos Enfoques en el Aprendizaje Incremental. (Tesis Doctoral), Universidad de Málaga, Málaga.

FERRER, F. J., & AGUILAR, J. S. (2005). Minería de Data Streams: Conceptos y Principales Técnicas. Universidad de Sevilla, España.

HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., REUTEMANN, P., & WITTEN, I. H. (2009). The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.

HARRIES, M., SAMMUT, C., & HORN, K. (1998). Extracting hidden context. 1998. Machine Learning, 32(2), 101-126.

HULTEN, G., SPENCER, L., & DOMINGOS, P. (2001). Mining time-changing data streams. Paper presented at the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

KLINKENBERG, R. (2004). Learning drifting concepts: example selection vs. example weighting. Intelligent Data Analysis, 8(3), 281–300.

KLINKENBERG, R., & JOACHIMS, T. (2000). Detecting concept drift with support vector machines. Paper presented at the 17th International Conference on Machine Learning.

KOLTER, J., & MALOOF, M. (2003). Dynamic weighted majority: A new ensemble method for tracking concept drift. Paper presented at the 3rd International IEEE Conference on Data Mining.

KUBAT, M., & WIDMER, G. (1994). Adapting to drift in continuous domains Technical Report ÖFAI-TR-94-27. Vienna: Austrian Research Institute for Artificial Intelligence.

LITTLESTONE, N., & WARMUTH, M. K. (1994). The weighted majority algorithm. Information and computation, 108(2), 212-261.

NÚÑEZ, M., FIDALGO, R., & MORALES, R. (2007). Learning in environments with unknown dynamics: Towards more robust concept learners. The Journal of Machine Learning Research, 8, 2595-2628.

OZA, N. C., & RUSSELL, S. (2001). Experimental comparisons of online and batch versions of bagging and boosting. Paper presented at the Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining.

SALGANICOFF, M. (1997). Tolerating concept and sampling shift in lazy learning using prediction error context switching. AI Review Special Issuse on Lazy Learning, 11(1-5), 133-155.

SCHLIMMER, J. C., & GRANGER, R. H. (1986). Incremental learning from noisy data. Machine Learning, 1(3), 317-354.

STANLEY, K. O. (2003). Learning concept drift with a committee of decision trees Technical Report UT-AI-TR-03-302. USA: Department of Computer Sciences, University of Texas at Austin.

TANENBAUM, A. S. (1988). Computer networks (2nd ed.). New Jersey, USA: Prentice-Hall.

WANG, H., WEI, F., PHILIP, Y., & JIAWEI, H. (2003). Mining Concept-Drifting Data Streams Using Ensemble Classifiers. Paper presented at the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington DC.

WIDMER, G., & KUBAT, M. (1993). Effective learning in dynamic environments by explicit context tracking. Paper presented at the 6th European Conf. on Machine Learning ECML-1993.

WIDMER, G., & KUBAT, M. (1996). Learning in the presence of concept drift and hidden contexts. Machine Learning, 23, 69-101.

YUE, S., GUOJUN, M., XU, L., & CHUNNIAN, L. (2007). Mining concept drifts from data streams based on multi-classifiers. Paper presented at the Advanced Information Networking and Applications Workshops, 2007, AINAW'07. 21st International Conference on.




DOI: https://doi.org/10.15628/holos.2016.3945



 

HOLOS IN THE WORLD