Please use this identifier to cite or link to this item:
http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3496
Title: | Sistema clasificador multiclase y multietiqueta de preguntas del sitio Stackoverflow |
Authors: | Cedeño González, José Rafael |
Adviser: | Flores Romero, Juan José Graff Guerrero, Mario |
Keywords: | info:eu-repo/classification/cti/7 FIE-M-2015-0427 Presición Minería de datos Aprendizaje automático |
Issue Date: | Feb-2015 |
Publisher: | Universidad Michoacana de San Nicolás de Hidalgo |
Abstract: | This work approaches the text document classification problem using as a platform the contest Identify keywords and tags from millions of text questions, in which, by using data from the StackOverflow website, one tries to predict the tags assigned to questions. This categorization is multi-class and also multi-tag. To achieve it, two simple systems are proposed: one based in the probability distribution obtained by a probabilistic classifier, and a 5-way multi-class classifier system. The results obtained by these classification schemes are discussed, analysing score metrics of each classifier system. Competitive results were obtained by the 5-way classifier system, obtaining F1 scores ranging 0.59 to 0.76, which compared with the results showed in the contest would rank this work around the 60th percentile. Esta tesis aborda el problema planteado en el concurso Identify Keywords and Tags from Millions of Text Questions presentado por Facebook como parte de su programa de reclutamiento, en el cual, utilizando un conjunto de preguntas que fueron ingresadas en el sitio StackOverflow (una red social de colaboración), se intenta predecir las etiquetas asignadas a estas preguntas. Esta clasificación es tanto multi-clase como multi-etiqueta. Para lograr esta clasificación se propusieron dos sistemas simples: uno basado en la distribución de probabilidad obtenida de un clasificador probabilista, y un sistema basado en un conjunto de 5 clasificadores multi-clase. Se discuten los resultados obtenidos por estos diferentes esquemas de caracterización y clasificación; analizando las métricas de precisión y exhaustividad de cada uno de los sistemas de clasificación. Se aprecian resultados competitivos por parte del sistema basado en conjunto de clasificadores, obteniendo valores F1 entre 0.59 y 0.76, los cuales al ser comparados con los resultados obtenidos en el concurso haría este desarrollo ubicarse alrededor del 60vo percentil. |
Description: | Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica |
URI: | http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3496 |
Appears in Collections: | Maestría |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
FIE-M-2015-0427.pdf | 926.11 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.