Ensembles of pre-trained models applied to two text classification competitions

Cerda Flores, Jaime

DSpace Principal
→
Repositorio Institucional de la Universidad Michoacana de San Nicolás de Hidalgo
→
Tesis
→
Maestría
→
Ver ítem

Ensembles of pre-trained models applied to two text classification competitions

Cerda Flores, Jaime

URI: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19256

Fecha: 2025-02

Resumen:

In this work, an ensemble-based classification system is designed to improve text classification performance in two competitive case studies: the sentiment analysis challenge from the Rest-Mex 2023 competition, which focuses on Spanish language tourist reviews, and the sarcasm identification task from the DravidianCodeMix@FIRE-2024 competition, centred on code-mixed social media data in Dravidian languages. Text classification has long been a fundamental task in natural language processing, and is of particular significance in areas such as tourism, where understanding tourist feedback is vital for economic development, and in sarcasm detection, where literal meanings differ from intended sentiments. The proposed ensemble system integrates a diverse array of models, including BERT-based models, fastText, and μTC. It achieves final predictions by stacking the outputs of these methods and training an XGBoost classifier on the resulting vector representations. Due to initial computational limitations, early experiments on the Rest-Mex dataset were conducted with subsets of the training data, with acceptable yet improvable results. Following the competition phase and the availability of more powerful hardware, the approach was applied to the entire dataset, confirming that the ensemble system consistently outperforms individual models. For the DravidianCodeMix@FIRE-2024 sarcasm detection task, the ensemble approach achieved superior results compared to individual models, demonstrating its adaptability and robustness across languages and domains. In the Tamil-language subtask, the ensemble approach obtained the top rank among all participants, while an optimized fastText approach, as part of the overall ensemble framework, tied for first place in the Malayalam-language subtask.

En este trabajo, se propone un sistema de clasificación basado en ensambles para mejorar el rendimiento de clasificación de texto en dos casos de estudio competitivos: la tarea de análisis de sentimiento de Rest-Mex 2023, centrado en reseñas turísticas en español, y la de identificación de sarcasmo de DravidianCodeMix@FIRE-2024, enfocada en datos de redes sociales con código mixto en lenguas dravídicas. La clasificación de texto es una tarea fundamental en el procesamiento del lenguaje natural, y es de gran relevancia en áreas como el turismo, donde comprender las opiniones de turistas es vital para el desarrollo económico, así como en la detección de sarcasmo, donde significados literales difieren de los reales. El sistema de ensambles propuesto integra una variedad de modelos, incluyendo modelos basados en BERT, fastText y μTC. Las predicciones finales son obtenidas apilando las salidas de estos métodos y entrenando un clasificador XGBoost con las representaciones vectoriales resultantes. Debido a limitaciones computacionales iniciales, los primeros experimentos con el conjunto de datos de Rest-Mex se llevaron a cabo utilizando subconjuntos del conjunto de entrenamiento, logrando resultados aceptables, aunque mejorables. Tras la terminación de la competencia y con la disponibilidad de un hardware más potente, la metodología se aplicó al conjunto de datos completo, lo que confirmó que el sistema de ensamblaje supera de manera consistente a los modelos individuales. En la tarea de detección de sarcasmo de DravidianCodeMix@FIRE-2024, el enfoque basado en ensambles logró resultados superiores comparados con los modelos individuales, demostrando su adaptabilidad y robustez a través de diferentes idiomas y dominios. En la subtarea en lengua Tamil, el enfoque de ensamble obtuvo el primer lugar entre todos los participantes, mientras que un enfoque de fastText optimizado, que conforma parte del marco general del ensamble, empató en el primer puesto en la subtarea en lengua Malayalam.