REPRESENTACIÓN CONCEPTUAL PARA LA CLASIFICACIÓN MULTILINGUE DE TEXTOS

Arisbel Borges García; Daniel Castro Castro; Reynier Ortega Bueno

doi:10.15628/holos.2018.4682

Autores

Arisbel Borges García Universidad de Oriente, Santiago de Cuba, Cuba. http://orcid.org/0000-0002-1987-212X
Daniel Castro Castro CERPAMID http://orcid.org/0000-0001-9102-7601
Reynier Ortega Bueno CERPAMID http://orcid.org/0000-0003-2708-2678

DOI:

https://doi.org/10.15628/holos.2018.4682

Palavras-chave:

Representación Conceptual de Documentos, Clasificación multilingüe de documentos, Desambiguación conceptual por dominio

Resumo

Hoy en día, el porcentaje de la información disponible en Inglés en Word Wide Web está disminuyendo, debido a que otros lenguajes como: chino, español, árabe y portugués están ganando aceptación y difusión. Este fenómeno ha provocado que el multilingüismo se convierta en uno de los principales retos para el procesamiento inteligente, gestión y recuperación de documentos. Con el fin de hacer frente a este problema de forma eficaz, los sistemas computacionales necesitan el diseño de nuevos modelos o mejorar los modelos tradicionales de representación de documentos. La disponibilidad de repositorios multilingües de conceptos y redes semánticas, ha abierto un enfoque atractivo para modelar documentos escritos en diferentes lenguas, como los vectores de conceptos en un espacio común de representación. En este trabajo se presenta una nueva representación basada en conceptos usando Multilingual Central Repository. Nuestra propuesta aplica una desambiguación del sentido de la palabra de grano grueso para la selección del concepto apropiado de acuerdo con el tema y los dominios relevantes reflejados en los documentos. Evaluamos experimentalmente nuestro método en la tarea de clasificación de documentos multilingües. Los resultados obtenidos en los experimentos son alentadores y demuestran la utilidad del método propuesto.

Downloads

Não há dados estatísticos.

Biografia do Autor

Arisbel Borges García, Universidad de Oriente, Santiago de Cuba, Cuba.

Estudiante de maestría en Ciencia de la Computación

Daniel Castro Castro, CERPAMID

Profesor instructor desde Septiembre, 2011, Universidad de Oriente, Cuba.

Licenciado en Ciencia de la Computación, Universidad de Oriente, Cuba, Julio del 2006. Master en Ciencia de la Computación, Universidad de Oriente, Cuba, Julio del 2012. Pertencece a la "Sociedad Cubana de Matemática y Computación" y a "Asociación Cubana de Reconocimiento de Patrones"

Reynier Ortega Bueno, CERPAMID

Profesor Asistente desde Noviembre, 2014, Universidad de Oriente, Cuba.

Licenciado en Ciencia de la Computación, Universidad de Oriente, Cuba, Julio del 2009. Master en Ciencia de la Computación, Universidad de Oriente, Cuba, Noviembre del 2014. Pertencece a la "Sociedad Cubana de Matemática y Computación" y a "Asociación Cubana de Reconocimiento de Patrones"

Referências

Agirre, A. G., Laparra, E., Rigau, G., & Donostia, B. C. (2012). Multilingual central repository version 3.0: upgrading a very large lexical knowledge base. In GWC 2012 6th International Global Wordnet Conference (p. 118).

Amini, M., Usunier, N., & Goutte, C. (2009). Learning from multiple partially observed views-an application to multilingual text categorization. In Advances in neural information processing systems (pp. 28-36).

Bermúdez, J. (2013). Reconocimiento conjunto de entidades nombradas y de correferencia para mejorar el acceso a la información multilingüe. Informe de tesis doctoral. Bilbao: Universidad de Deusto.

Bentaallah, M. A., & Malki, M. (2012). The Use of WordNets for Multilingual Text Categorization: A Comparative Study. In ICWIT(pp. 121-128).

Bikel, D., & Zitouni, I. (2012). Multilingual natural language processing applications: from theory to practice. IBM Press.

Bouckaert, R. R., Frank, E., Hall, M. A., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2010). WEKA–Experiences with a Java Open-Source Project. Journal of Machine Learning Research, 11(Sep), 2533-2541.

Chebel, M., Latiri, C., & Gaussier, E. (2015, September). Multilingual documents clustering based on closed concepts mining. In International Conference on Database and Expert Systems Applications (pp. 517-524). Springer International Publishing.

Cisneros, D. S., Bedmar, I. S., & Fernández, P. M. (2012). Prototipo buscador de información médica en corpus multilingües y extractor de información sobre fármacos. Procesamiento del Lenguaje Natural, 49, 209-212.

De Argaez, E. (2015). Internet world stats. Obtenido de HTTP://www.internetworldstats.com/stats7.htm

del Pilar, S. M., Rodríguez-García, M. Á., & Valencia-García, R. (2014). Estudio de las categorías LIWC para el análisis de sentimientos en español. In TIMM (pp. 33-36).

Franco-Salvador, M., Rosso, P., & Navigli, R. (2014, April). A Knowledge-based Representation for Cross-Language Document Retrieval and Categorization. In EACL (Vol. 14, pp. 414-423).

Herranz, S. M. (2013). Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticias(Doctoral dissertation, Universidad Rey Juan Carlos).

López Ostenero, F., Gonzalo, J., & Verdejo, F. (2004). Búsqueda de información multilingüe: estado del arte. Inteligencia Artificial. Revista Iberoamericana de Inteligencia Artificial, 8(22).

Magnini, B., Strapparava, C., Pezzulo, G., & Gliozzo, A. (2001, July). Using domain information for word sense disambiguation. In The Proceedings of the Second International Workshop on Evaluating Word Sense Disambiguation Systems (pp. 111-114). Association for Computational Linguistics.

Perea Ortega, J. M., Valdivia, M., Teresa, M., Montejo Ráez, A., & Díaz Galiano, M. C. (2008). Categorización de textos biomédicos usando UMLS. Procesamiento del lenguaje natural. N. 40 (abril 2008); pp. 121-127.

Romeo, S., Ienco, D., & Tagarelli, A. (2015, March). Knowledge-based representation for transductive multilingual document classification. In European Conference on Information Retrieval(pp. 92-103). Springer, Cham.

Salvador, F. (2013). M.: Detección de plagio translingüe utilizando una red semántica multilingüe. Departamento de Sistemas Informáticos y Computación.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1-47.

Sy, M. F., Ranwez, S., Montmain, J., Regnault, A., Crampes, M., & Ranwez, V. (2012). User centered and ontology based information retrieval system for life sciences. BMC bioinformatics, 13(Suppl 1), S4.

Van Asch, V. (2013). Macro-and micro-averaged evaluation measures. Tech. Rep.

Walker, D., & Amsler, R. (1986). The use of machine-readable dictionaries in sublanguage analysis. Analyzing Language in Restricted Domains, 69-83.

Zhou, D., Truran, M., Brailsford, T., Wade, V., & Ashman, H. (2012). Translation techniques in cross-language information retrieval. ACM Computing Surveys (CSUR), 45(1), 1.