Por favor, use este identificador para citar o enlazar este ítem: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.rights.licensehttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisorCamarena Ibarrola, José Antonio
dc.contributor.authorValencia Ramírez, José María
dc.date.accessioned2023-11-22T14:40:43Z-
dc.date.available2023-11-22T14:40:43Z-
dc.date.issued2013-04
dc.identifier.urihttp://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918-
dc.descriptionFacultad de Ingeniería Eléctrica. Licenciatura en Ingeniería en Computaciónes_MX
dc.description.abstractThe analysis of the voice signal and its subsequent recognition must overcome various problems for humans are trivial, some of these problems are the correct choice and feature extraction of speech signal, size of the vocabularies to be recognized, noise and distortion environment. Energy per band (spectrograms), MFCC (Mel-frequency Cepstral Coefficients) and Linear Predictive Coding (LPC, Linear Prediction Coefficients): In this paper the following feature extraction methods were implemented. Recognition techniques that were used are Dynamic Time Warping (DTW) and Discrete Hidden Markov Models (DHMM) using Cosine, Euclidean and Itakura distances. ROC curves (Receiver Operating Characteristic) for which method of feature extraction is the best in the recognition of isolated words, using a dictionary to 8000.0 Hz 100 words monolocutor sampled quantized to 16 bits, single channel, used little-endian. Spectrograms To implement the first 18 critical bands of the Bark scale to 16 MFCC Mel filters were used and a predictor of order LPC Of the 16 tests were obtained the following results for the techniques were used, recognition employed: using DTW, the best system of isolated word recognition is LPC method to extract features as the area under the ROC curve was obtained: 0.988 using Itakura distance, using the cosine distance 0.995 and 0.991 using the Euclidean distance (considering an area of 1.0 for a perfect system). As for the best DHMM system was isolated word recognition using MFCC model 9 states and 64 symbols observations using the cosine distance in the stage vector quantization and codebook creation obtaining an area under curve of 0.96741.en
dc.description.abstractEl análisis de la señal de voz y su posterior reconocimiento deben superar diversos problemas que para los seres humanos son triviales, algunos de estos problemas son, la correcta elección y extracción de las características de la señal de voz, tamaños de los vocabularios a reconocer, ruido y distorsión del entorno. En el presente trabajo se implementaron los siguientes métodos de extracción de características: Energía por banda (Espectrogramas), MFCC (Mel-frequency Cepstral Coefficients) y Codificación Lineal Predictiva (LPC, Linear Prediction Coefficients). Las técnicas de reconocimiento que se utilizaron son, Dynamic Time Warping (DTW) y Discrete Hidden Markov Models (DHMM) utilizando las distancias coseno, euclidiana e Itakura. Se utilizaron las curvas ROC (Receiver Operating Characteristic) para obtener cuál de los métodos de extracción de características es el mejor en el reconocimiento de palabras aisladas, utilizando un diccionario de 100 palabras monolocutor muestreada a 8000.0 Hz cuantizado a16 bits, monocanal, little-endian. Para la implementación de Espectrogramas se utilizaron las primeras 18 bandas críticas de la escala de Bark, para MFCC se utilizaron 16 filtros de Mel y para LPC se utilizó un predictor de orden 16. De las pruebas realizadas se obtuvieron los siguientes resultados para las técnicas de reconocimiento empleadas: utilizando DTW, el mejor sistema de reconocimiento de palabras aisladas es LPC como método para extraer características, el área bajo su curva ROC obtenida fue de: 0.988 usando la distancia de Itakura, 0.995 usando la distancia coseno y 0.991 usando la distancia euclidiana (considerando un área de 1.0 para un sistema perfecto). En cuanto a DHMM el mejor sistema de reconocimiento de palabras aisladas fue MFCC utilizando un modelo de 9 estados y 64 símbolos de observaciones usando la distancia coseno en la etapa de cuantización vectorial y en la creación del codebook obteniendo un área bajo su curva de 0.96741.es_MX
dc.language.isospaes_MX
dc.publisherUniversidad Michoacana de San Nicolás de Hidalgoes_MX
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectinfo:eu-repo/classification/cti/7
dc.subjectFIE-L-2013-0353es_MX
dc.subjectMétodoes_MX
dc.subjectReconocimientoes_MX
dc.subjectMárkoves_MX
dc.subjectDTWes_MX
dc.titleMétodos para el reconocimiento de voz utilizando modelos ocultos de Márkov y DTWes_MX
dc.typeinfo:eu-repo/semantics/bachelorThesises_MX
dc.creator.id0
dc.advisor.id0
dc.advisor.roleasesorTesis
Aparece en las colecciones: Licenciatura

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
FIE-L-2013-0353.pdf1.08 MBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.