Por favor, use este identificador para citar o enlazar este ítem: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19435
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.rights.licensehttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisorCerda Jacobo, Jaime
dc.contributor.advisorOrtiz Béjar, José
dc.contributor.authorCastro Pineda, Daniel
dc.date.accessioned2026-01-28T15:07:39Z
dc.date.available2026-01-28T15:07:39Z
dc.date.issued2025-09
dc.identifier.urihttp://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/19435
dc.descriptionFacultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctricaes_MX
dc.description.abstractPurépecha is one of the 68 indigenous languages in Mexico and is spoken primarily in the state of Michoacán. This document presents the curation for the first publicly available monolinguistic corpora for the purépecha language. The documents collected to build this dataset were gathered from different sources, such as indigenous colleges, government institutions, and news journals, to reflect the general state and use of the language. The purpose of this project is to serve as a critical resource for linguists and researchers by presenting statistics on the dataset such as higher frequency in phrases and words and decay in their frequency (Zipf’s Law) and hapaxes. In addition, the corpus was used to train a state-of-the-art deep learning transformer model RoBERTa (that we named as RoBERTataka) and an n-gram-based approach; those language models will be publicly available as pretrained models. Finally, the performance of the trained text models are compared on a Masked Language Modeling (MLM) task exclusively on the curated datasets.en
dc.description.abstractLa lengua Purépecha es una de las 68 lenguas indígenas en México y es hablada principalmente en el estado de Michoacán. Este documento presenta el primer corpus monolingüe de acceso público para la lengua purépecha. Los documentos recolectados para ensamblar el conjunto de datos fueron obtenidos de diferentes fuentes, tales como colegios normales indígenas, instituciones de gobierno y fuentes periodísticas, buscando reflejar el uso y estado general de esta lengua. Este trabajo busca ser un elemento clave para lingüistas e investigadores, presentando estadísticas sobre el conjunto de datos tales como mayor frecuencia en frases y palabras, decaimiento en la frecuencia de las mismas (Ley de Zipf) además de hápaxes. Adicionalmente, se entrenaron modelos de lenguaje como lo son los modelos transformer RoBERTA (que nombramos como RoBERTataka) y los basados en n-gramas, que posteriormente serán utilizados durante la evaluación del corpus y estarán disponibles de forma pública como modelos preentrenados. Finalmente, se evaluó el rendimiento de los modelos de lenguaje mediante una tarea de modelado de lenguaje mediante enmascarado (MLM) utilizando exclusivamente el conjunto de datos recabado.es_MX
dc.language.isoenges_MX
dc.publisherUniversidad Michoacana de San Nicolas de Hidalgoes_MX
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectinfo:eu-repo/classification/cti/7
dc.subjectFIE-M-2025-1324es_MX
dc.subjectProcesamiento de lenguaje naturales_MX
dc.subjectLenguas poco representadases_MX
dc.subjectModelos de lenguajees_MX
dc.titleCorpus compilation and natural language model evaluation for the Purhépecha languagees_MX
dc.typeinfo:eu-repo/semantics/masterThesises_MX
dc.creator.idCAPD950215HMNSNN01
dc.advisor.idCEJJ650325HMNRCM08|OIBJ801124HDFRJS02
dc.advisor.roleasesorTesis|asesorTesis
Aparece en las colecciones: Maestría

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
FIE-M-2025-1324.pdf3.36 MBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.