Por favor, use este identificador para citar o enlazar este ítem: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918
Título : Métodos para el reconocimiento de voz utilizando modelos ocultos de Márkov y DTW
Autor : Valencia Ramírez, José María
Asesor: Camarena Ibarrola, José Antonio
Palabras clave : info:eu-repo/classification/cti/7
FIE-L-2013-0353
Método
Reconocimiento
Márkov
DTW
Fecha de publicación : abr-2013
Editorial : Universidad Michoacana de San Nicolás de Hidalgo
Resumen : The analysis of the voice signal and its subsequent recognition must overcome various problems for humans are trivial, some of these problems are the correct choice and feature extraction of speech signal, size of the vocabularies to be recognized, noise and distortion environment. Energy per band (spectrograms), MFCC (Mel-frequency Cepstral Coefficients) and Linear Predictive Coding (LPC, Linear Prediction Coefficients): In this paper the following feature extraction methods were implemented. Recognition techniques that were used are Dynamic Time Warping (DTW) and Discrete Hidden Markov Models (DHMM) using Cosine, Euclidean and Itakura distances. ROC curves (Receiver Operating Characteristic) for which method of feature extraction is the best in the recognition of isolated words, using a dictionary to 8000.0 Hz 100 words monolocutor sampled quantized to 16 bits, single channel, used little-endian. Spectrograms To implement the first 18 critical bands of the Bark scale to 16 MFCC Mel filters were used and a predictor of order LPC Of the 16 tests were obtained the following results for the techniques were used, recognition employed: using DTW, the best system of isolated word recognition is LPC method to extract features as the area under the ROC curve was obtained: 0.988 using Itakura distance, using the cosine distance 0.995 and 0.991 using the Euclidean distance (considering an area of 1.0 for a perfect system). As for the best DHMM system was isolated word recognition using MFCC model 9 states and 64 symbols observations using the cosine distance in the stage vector quantization and codebook creation obtaining an area under curve of 0.96741.
El análisis de la señal de voz y su posterior reconocimiento deben superar diversos problemas que para los seres humanos son triviales, algunos de estos problemas son, la correcta elección y extracción de las características de la señal de voz, tamaños de los vocabularios a reconocer, ruido y distorsión del entorno. En el presente trabajo se implementaron los siguientes métodos de extracción de características: Energía por banda (Espectrogramas), MFCC (Mel-frequency Cepstral Coefficients) y Codificación Lineal Predictiva (LPC, Linear Prediction Coefficients). Las técnicas de reconocimiento que se utilizaron son, Dynamic Time Warping (DTW) y Discrete Hidden Markov Models (DHMM) utilizando las distancias coseno, euclidiana e Itakura. Se utilizaron las curvas ROC (Receiver Operating Characteristic) para obtener cuál de los métodos de extracción de características es el mejor en el reconocimiento de palabras aisladas, utilizando un diccionario de 100 palabras monolocutor muestreada a 8000.0 Hz cuantizado a16 bits, monocanal, little-endian. Para la implementación de Espectrogramas se utilizaron las primeras 18 bandas críticas de la escala de Bark, para MFCC se utilizaron 16 filtros de Mel y para LPC se utilizó un predictor de orden 16. De las pruebas realizadas se obtuvieron los siguientes resultados para las técnicas de reconocimiento empleadas: utilizando DTW, el mejor sistema de reconocimiento de palabras aisladas es LPC como método para extraer características, el área bajo su curva ROC obtenida fue de: 0.988 usando la distancia de Itakura, 0.995 usando la distancia coseno y 0.991 usando la distancia euclidiana (considerando un área de 1.0 para un sistema perfecto). En cuanto a DHMM el mejor sistema de reconocimiento de palabras aisladas fue MFCC utilizando un modelo de 9 estados y 64 símbolos de observaciones usando la distancia coseno en la etapa de cuantización vectorial y en la creación del codebook obteniendo un área bajo su curva de 0.96741.
Descripción : Facultad de Ingeniería Eléctrica. Licenciatura en Ingeniería en Computación
URI : http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918
Aparece en las colecciones: Licenciatura

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
FIE-L-2013-0353.pdf1.08 MBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.