Corpus compilation and natural language model evaluation for the Purhépecha language

Castro Pineda, Daniel

DSpace Principal
→
Repositorio Institucional de la Universidad Michoacana de San Nicolás de Hidalgo
→
Tesis
→
Maestría
→
Ver ítem

dc.rights.license	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor	Cerda Jacobo, Jaime
dc.contributor.advisor	Ortiz Béjar, José
dc.contributor.author	Castro Pineda, Daniel
dc.date.accessioned	2026-01-28T15:07:39Z
dc.date.available	2026-01-28T15:07:39Z
dc.date.issued	2025-09
dc.identifier.uri	http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19435
dc.description	Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica	es_MX
dc.description.abstract	Purépecha is one of the 68 indigenous languages in Mexico and is spoken primarily in the state of Michoacán. This document presents the curation for the first publicly available monolinguistic corpora for the purépecha language. The documents collected to build this dataset were gathered from different sources, such as indigenous colleges, government institutions, and news journals, to reflect the general state and use of the language. The purpose of this project is to serve as a critical resource for linguists and researchers by presenting statistics on the dataset such as higher frequency in phrases and words and decay in their frequency (Zipf’s Law) and hapaxes. In addition, the corpus was used to train a state-of-the-art deep learning transformer model RoBERTa (that we named as RoBERTataka) and an n-gram-based approach; those language models will be publicly available as pretrained models. Finally, the performance of the trained text models are compared on a Masked Language Modeling (MLM) task exclusively on the curated datasets.	en
dc.description.abstract	La lengua Purépecha es una de las 68 lenguas indígenas en México y es hablada principalmente en el estado de Michoacán. Este documento presenta el primer corpus monolingüe de acceso público para la lengua purépecha. Los documentos recolectados para ensamblar el conjunto de datos fueron obtenidos de diferentes fuentes, tales como colegios normales indígenas, instituciones de gobierno y fuentes periodísticas, buscando reflejar el uso y estado general de esta lengua. Este trabajo busca ser un elemento clave para lingüistas e investigadores, presentando estadísticas sobre el conjunto de datos tales como mayor frecuencia en frases y palabras, decaimiento en la frecuencia de las mismas (Ley de Zipf) además de hápaxes. Adicionalmente, se entrenaron modelos de lenguaje como lo son los modelos transformer RoBERTA (que nombramos como RoBERTataka) y los basados en n-gramas, que posteriormente serán utilizados durante la evaluación del corpus y estarán disponibles de forma pública como modelos preentrenados. Finalmente, se evaluó el rendimiento de los modelos de lenguaje mediante una tarea de modelado de lenguaje mediante enmascarado (MLM) utilizando exclusivamente el conjunto de datos recabado.	es_MX
dc.language.iso	eng	es_MX
dc.publisher	Universidad Michoacana de San Nicolas de Hidalgo	es_MX
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	info:eu-repo/classification/cti/7
dc.subject	FIE-M-2025-1324	es_MX
dc.subject	Procesamiento de lenguaje natural	es_MX
dc.subject	Lenguas poco representadas	es_MX
dc.subject	Modelos de lenguaje	es_MX
dc.title	Corpus compilation and natural language model evaluation for the Purhépecha language	es_MX
dc.type	info:eu-repo/semantics/masterThesis	es_MX
dc.creator.id	CAPD950215HMNSNN01
dc.advisor.id	CEJJ650325HMNRCM08\|OIBJ801124HDFRJS02
dc.advisor.role	asesorTesis\|asesorTesis