Corpus compilation and natural language model evaluation for the Purhépecha language

Castro Pineda, Daniel

DSpace Principal
→
Repositorio Institucional de la Universidad Michoacana de San Nicolás de Hidalgo
→
Tesis
→
Maestría
→
Ver ítem

Corpus compilation and natural language model evaluation for the Purhépecha language

Castro Pineda, Daniel

URI: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19435

Fecha: 2025-09

Resumen:

Purépecha is one of the 68 indigenous languages in Mexico and is spoken primarily in the state of Michoacán. This document presents the curation for the first publicly available monolinguistic corpora for the purépecha language. The documents collected to build this dataset were gathered from different sources, such as indigenous colleges, government institutions, and news journals, to reflect the general state and use of the language. The purpose of this project is to serve as a critical resource for linguists and researchers by presenting statistics on the dataset such as higher frequency in phrases and words and decay in their frequency (Zipf’s Law) and hapaxes. In addition, the corpus was used to train a state-of-the-art deep learning transformer model RoBERTa (that we named as RoBERTataka) and an n-gram-based approach; those language models will be publicly available as pretrained models. Finally, the performance of the trained text models are compared on a Masked Language Modeling (MLM) task exclusively on the curated datasets.

La lengua Purépecha es una de las 68 lenguas indígenas en México y es hablada principalmente en el estado de Michoacán. Este documento presenta el primer corpus monolingüe de acceso público para la lengua purépecha. Los documentos recolectados para ensamblar el conjunto de datos fueron obtenidos de diferentes fuentes, tales como colegios normales indígenas, instituciones de gobierno y fuentes periodísticas, buscando reflejar el uso y estado general de esta lengua. Este trabajo busca ser un elemento clave para lingüistas e investigadores, presentando estadísticas sobre el conjunto de datos tales como mayor frecuencia en frases y palabras, decaimiento en la frecuencia de las mismas (Ley de Zipf) además de hápaxes. Adicionalmente, se entrenaron modelos de lenguaje como lo son los modelos transformer RoBERTA (que nombramos como RoBERTataka) y los basados en n-gramas, que posteriormente serán utilizados durante la evaluación del corpus y estarán disponibles de forma pública como modelos preentrenados. Finalmente, se evaluó el rendimiento de los modelos de lenguaje mediante una tarea de modelado de lenguaje mediante enmascarado (MLM) utilizando exclusivamente el conjunto de datos recabado.