Optimización de modelos de lenguaje mediante algoritmos genéticos para la detección de sexismo en tweets

Huerta Venegas, Luis Miguel

DSpace Principal
→
Repositorio Institucional de la Universidad Michoacana de San Nicolás de Hidalgo
→
Tesis
→
Maestría
→
Ver ítem

Optimización de modelos de lenguaje mediante algoritmos genéticos para la detección de sexismo en tweets

Huerta Venegas, Luis Miguel

URI: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19518

Fecha: 2025-11

Resumen:

This thesis presents an optimization strategy for a language model applied to tweet analysis, based on Task 1 of CLEF 2025 - “EXIST: Sexism Identification and Characterization in Tweets.” The proposed strategy combines the power of pre-trained language models, such as RoBERTa, with Genetic Algorithms (GAs) for hyperparameter optimization. The research addresses three subtasks: (1) Binary sexism detection in tweets, (2) Source intention characterization, and (3) Sexism categorization. The methodological approach includes an exploratory data analysis (EDA) phase to understand the dataset structure and class distribution, followed by the selection of the base model and the definition of hyperparameters to optimize. The genetic algorithm design involves the representation of individuals, the definition of a fitness function based on weighted F1-Score for the three tasks, and the implementation of genetic operators for selection, crossover, and mutation. The integration of GAs into the language model fine-tuning process achieved significant results, outperforming traditional configurations in all evaluated metrics. Performance evaluation was conducted using traditional metrics such as Precision, Recall, and F1-Score, demonstrating improvements ranging from 2.57% to 15.09% over standard finetuning methods. The findings of this research were published and presented at the 2025 IEEE Central America and Panama Convention (CONCAPAN XLIII), demonstrating the potential of GAs to enhance language model performance in complex social media content analysis tasks.

Este trabajo de tesis presenta una estrategia de optimización para un modelo de lenguaje aplicado al análisis de tweets basado en el conjunto de datos de la Tarea 1 del CLEF 2025 - “EXIST: Sexism Identificación and Characterization in Tweets”. La estrategia propuesta combina el poder de los modelos de lenguaje preentrenados, como RoBERTa, con algoritmos gen éticos (AGs) para la optimización de hiperparámetros. La investigación aborda tres subtareas: (1) Detección binaria de sexismo en tweets, (2) Caracterización de la intención del emisor, y (3) Categorización del tipo de sexismo. El enfoque metodológico incluye una fase de análisis exploratorio de datos (EDA) para comprender la estructura del conjunto de datos y la distribución de clases, seguido de la selección del modelo base y la definición de los hiperparámetros a optimizar. El diseño del algoritmo gen ético involucra la representación de individuos, la definición de una función de aptitud basada en el F1-Score ponderado para las tres tareas, y la implementación de operadores gen éticos para selección, cruza y mutación. La integración de los AGs en el proceso de ajuste fino del modelo de lenguaje logró resultados significativos, superando configuraciones tradicionales en todas las métricas evaluadas. La evaluación del rendimiento se llevó a cabo mediante métricas tradicionales como Precision, Recall y F1-Score, demostrando mejoras que van desde el 2.57% hasta el 15.09% sobre métodos de ajuste fino estándar. Los hallazgos de esta investigación fueron publicados y presentados en el 2025 IEEE Central America and Panama Convention (CONCAPAN XLIII), demostrando el potencial de los AGs para mejorar el rendimiento de los modelos de lenguaje en tareas complejas de análisis de contenido en redes sociales.