Repositorio UMSNH

Sistema clasificador multiclase y multietiqueta de preguntas del sitio Stackoverflow

Mostrar el registro sencillo del ítem

dc.rights.license http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor Flores Romero, Juan José
dc.contributor.advisor Graff Guerrero, Mario
dc.contributor.author Cedeño González, José Rafael
dc.date.accessioned 2021-06-03T14:05:05Z
dc.date.available 2021-06-03T14:05:05Z
dc.date.issued 2015-02
dc.identifier.uri http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3496
dc.description Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica
dc.description.abstract This work approaches the text document classification problem using as a platform the contest Identify keywords and tags from millions of text questions, in which, by using data from the StackOverflow website, one tries to predict the tags assigned to questions. This categorization is multi-class and also multi-tag. To achieve it, two simple systems are proposed: one based in the probability distribution obtained by a probabilistic classifier, and a 5-way multi-class classifier system. The results obtained by these classification schemes are discussed, analysing score metrics of each classifier system. Competitive results were obtained by the 5-way classifier system, obtaining F1 scores ranging 0.59 to 0.76, which compared with the results showed in the contest would rank this work around the 60th percentile. en
dc.description.abstract Esta tesis aborda el problema planteado en el concurso Identify Keywords and Tags from Millions of Text Questions presentado por Facebook como parte de su programa de reclutamiento, en el cual, utilizando un conjunto de preguntas que fueron ingresadas en el sitio StackOverflow (una red social de colaboración), se intenta predecir las etiquetas asignadas a estas preguntas. Esta clasificación es tanto multi-clase como multi-etiqueta. Para lograr esta clasificación se propusieron dos sistemas simples: uno basado en la distribución de probabilidad obtenida de un clasificador probabilista, y un sistema basado en un conjunto de 5 clasificadores multi-clase. Se discuten los resultados obtenidos por estos diferentes esquemas de caracterización y clasificación; analizando las métricas de precisión y exhaustividad de cada uno de los sistemas de clasificación. Se aprecian resultados competitivos por parte del sistema basado en conjunto de clasificadores, obteniendo valores F1 entre 0.59 y 0.76, los cuales al ser comparados con los resultados obtenidos en el concurso haría este desarrollo ubicarse alrededor del 60vo percentil. es_MX
dc.language.iso spa es_MX
dc.publisher Universidad Michoacana de San Nicolás de Hidalgo es_MX
dc.rights info:eu-repo/semantics/openAccess
dc.subject info:eu-repo/classification/cti/7
dc.subject FIE-M-2015-0427 es_MX
dc.subject Presición es_MX
dc.subject Minería de datos es_MX
dc.subject Aprendizaje automático es_MX
dc.title Sistema clasificador multiclase y multietiqueta de preguntas del sitio Stackoverflow es_MX
dc.type info:eu-repo/semantics/masterThesis es_MX
dc.creator.id CEGR811208HMNDNF09
dc.advisor.id FORJ610602HMNLMN01|GAGM801201HMNRRR07
dc.advisor.role asesorTesis|asesorTesis


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas