Repositorio UMSNH

Corpus compilation and natural language model evaluation for the Purhépecha language

Mostrar el registro sencillo del ítem

dc.rights.license http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor Cerda Jacobo, Jaime
dc.contributor.advisor Ortiz Béjar, José
dc.contributor.author Castro Pineda, Daniel
dc.date.accessioned 2026-01-28T15:07:39Z
dc.date.available 2026-01-28T15:07:39Z
dc.date.issued 2025-09
dc.identifier.uri http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19435
dc.description Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica es_MX
dc.description.abstract Purépecha is one of the 68 indigenous languages in Mexico and is spoken primarily in the state of Michoacán. This document presents the curation for the first publicly available monolinguistic corpora for the purépecha language. The documents collected to build this dataset were gathered from different sources, such as indigenous colleges, government institutions, and news journals, to reflect the general state and use of the language. The purpose of this project is to serve as a critical resource for linguists and researchers by presenting statistics on the dataset such as higher frequency in phrases and words and decay in their frequency (Zipf’s Law) and hapaxes. In addition, the corpus was used to train a state-of-the-art deep learning transformer model RoBERTa (that we named as RoBERTataka) and an n-gram-based approach; those language models will be publicly available as pretrained models. Finally, the performance of the trained text models are compared on a Masked Language Modeling (MLM) task exclusively on the curated datasets. en
dc.description.abstract La lengua Purépecha es una de las 68 lenguas indígenas en México y es hablada principalmente en el estado de Michoacán. Este documento presenta el primer corpus monolingüe de acceso público para la lengua purépecha. Los documentos recolectados para ensamblar el conjunto de datos fueron obtenidos de diferentes fuentes, tales como colegios normales indígenas, instituciones de gobierno y fuentes periodísticas, buscando reflejar el uso y estado general de esta lengua. Este trabajo busca ser un elemento clave para lingüistas e investigadores, presentando estadísticas sobre el conjunto de datos tales como mayor frecuencia en frases y palabras, decaimiento en la frecuencia de las mismas (Ley de Zipf) además de hápaxes. Adicionalmente, se entrenaron modelos de lenguaje como lo son los modelos transformer RoBERTA (que nombramos como RoBERTataka) y los basados en n-gramas, que posteriormente serán utilizados durante la evaluación del corpus y estarán disponibles de forma pública como modelos preentrenados. Finalmente, se evaluó el rendimiento de los modelos de lenguaje mediante una tarea de modelado de lenguaje mediante enmascarado (MLM) utilizando exclusivamente el conjunto de datos recabado. es_MX
dc.language.iso eng es_MX
dc.publisher Universidad Michoacana de San Nicolas de Hidalgo es_MX
dc.rights info:eu-repo/semantics/openAccess
dc.subject info:eu-repo/classification/cti/7
dc.subject FIE-M-2025-1324 es_MX
dc.subject Procesamiento de lenguaje natural es_MX
dc.subject Lenguas poco representadas es_MX
dc.subject Modelos de lenguaje es_MX
dc.title Corpus compilation and natural language model evaluation for the Purhépecha language es_MX
dc.type info:eu-repo/semantics/masterThesis es_MX
dc.creator.id CAPD950215HMNSNN01
dc.advisor.id CEJJ650325HMNRCM08|OIBJ801124HDFRJS02
dc.advisor.role asesorTesis|asesorTesis


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas