Please use this identifier to cite or link to this item: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3496
Full metadata record
DC FieldValueLanguage
dc.rights.licensehttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisorFlores Romero, Juan José
dc.contributor.advisorGraff Guerrero, Mario
dc.contributor.authorCedeño González, José Rafael
dc.date.accessioned2021-06-03T14:05:05Z
dc.date.available2021-06-03T14:05:05Z
dc.date.issued2015-02
dc.identifier.urihttp://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3496
dc.descriptionFacultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica
dc.description.abstractThis work approaches the text document classification problem using as a platform the contest Identify keywords and tags from millions of text questions, in which, by using data from the StackOverflow website, one tries to predict the tags assigned to questions. This categorization is multi-class and also multi-tag. To achieve it, two simple systems are proposed: one based in the probability distribution obtained by a probabilistic classifier, and a 5-way multi-class classifier system. The results obtained by these classification schemes are discussed, analysing score metrics of each classifier system. Competitive results were obtained by the 5-way classifier system, obtaining F1 scores ranging 0.59 to 0.76, which compared with the results showed in the contest would rank this work around the 60th percentile.en
dc.description.abstractEsta tesis aborda el problema planteado en el concurso Identify Keywords and Tags from Millions of Text Questions presentado por Facebook como parte de su programa de reclutamiento, en el cual, utilizando un conjunto de preguntas que fueron ingresadas en el sitio StackOverflow (una red social de colaboración), se intenta predecir las etiquetas asignadas a estas preguntas. Esta clasificación es tanto multi-clase como multi-etiqueta. Para lograr esta clasificación se propusieron dos sistemas simples: uno basado en la distribución de probabilidad obtenida de un clasificador probabilista, y un sistema basado en un conjunto de 5 clasificadores multi-clase. Se discuten los resultados obtenidos por estos diferentes esquemas de caracterización y clasificación; analizando las métricas de precisión y exhaustividad de cada uno de los sistemas de clasificación. Se aprecian resultados competitivos por parte del sistema basado en conjunto de clasificadores, obteniendo valores F1 entre 0.59 y 0.76, los cuales al ser comparados con los resultados obtenidos en el concurso haría este desarrollo ubicarse alrededor del 60vo percentil.es_MX
dc.language.isospaes_MX
dc.publisherUniversidad Michoacana de San Nicolás de Hidalgoes_MX
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectinfo:eu-repo/classification/cti/7
dc.subjectFIE-M-2015-0427es_MX
dc.subjectPresiciónes_MX
dc.subjectMinería de datoses_MX
dc.subjectAprendizaje automáticoes_MX
dc.titleSistema clasificador multiclase y multietiqueta de preguntas del sitio Stackoverflowes_MX
dc.typeinfo:eu-repo/semantics/masterThesises_MX
dc.creator.idCEGR811208HMNDNF09
dc.advisor.idFORJ610602HMNLMN01|GAGM801201HMNRRR07
dc.advisor.roleasesorTesis|asesorTesis
Appears in Collections:Maestría

Files in This Item:
File Description SizeFormat 
FIE-M-2015-0427.pdf926.11 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.