Repositorio UMSNH

Métodos para el reconocimiento de voz utilizando modelos ocultos de Márkov y DTW

Mostrar el registro sencillo del ítem

dc.rights.license http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor Camarena Ibarrola, José Antonio
dc.contributor.author Valencia Ramírez, José María
dc.date.accessioned 2023-11-22T14:40:43Z
dc.date.available 2023-11-22T14:40:43Z
dc.date.issued 2013-04
dc.identifier.uri http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918
dc.description Facultad de Ingeniería Eléctrica. Licenciatura en Ingeniería en Computación es_MX
dc.description.abstract The analysis of the voice signal and its subsequent recognition must overcome various problems for humans are trivial, some of these problems are the correct choice and feature extraction of speech signal, size of the vocabularies to be recognized, noise and distortion environment. Energy per band (spectrograms), MFCC (Mel-frequency Cepstral Coefficients) and Linear Predictive Coding (LPC, Linear Prediction Coefficients): In this paper the following feature extraction methods were implemented. Recognition techniques that were used are Dynamic Time Warping (DTW) and Discrete Hidden Markov Models (DHMM) using Cosine, Euclidean and Itakura distances. ROC curves (Receiver Operating Characteristic) for which method of feature extraction is the best in the recognition of isolated words, using a dictionary to 8000.0 Hz 100 words monolocutor sampled quantized to 16 bits, single channel, used little-endian. Spectrograms To implement the first 18 critical bands of the Bark scale to 16 MFCC Mel filters were used and a predictor of order LPC Of the 16 tests were obtained the following results for the techniques were used, recognition employed: using DTW, the best system of isolated word recognition is LPC method to extract features as the area under the ROC curve was obtained: 0.988 using Itakura distance, using the cosine distance 0.995 and 0.991 using the Euclidean distance (considering an area of 1.0 for a perfect system). As for the best DHMM system was isolated word recognition using MFCC model 9 states and 64 symbols observations using the cosine distance in the stage vector quantization and codebook creation obtaining an area under curve of 0.96741. en
dc.description.abstract El análisis de la señal de voz y su posterior reconocimiento deben superar diversos problemas que para los seres humanos son triviales, algunos de estos problemas son, la correcta elección y extracción de las características de la señal de voz, tamaños de los vocabularios a reconocer, ruido y distorsión del entorno. En el presente trabajo se implementaron los siguientes métodos de extracción de características: Energía por banda (Espectrogramas), MFCC (Mel-frequency Cepstral Coefficients) y Codificación Lineal Predictiva (LPC, Linear Prediction Coefficients). Las técnicas de reconocimiento que se utilizaron son, Dynamic Time Warping (DTW) y Discrete Hidden Markov Models (DHMM) utilizando las distancias coseno, euclidiana e Itakura. Se utilizaron las curvas ROC (Receiver Operating Characteristic) para obtener cuál de los métodos de extracción de características es el mejor en el reconocimiento de palabras aisladas, utilizando un diccionario de 100 palabras monolocutor muestreada a 8000.0 Hz cuantizado a16 bits, monocanal, little-endian. Para la implementación de Espectrogramas se utilizaron las primeras 18 bandas críticas de la escala de Bark, para MFCC se utilizaron 16 filtros de Mel y para LPC se utilizó un predictor de orden 16. De las pruebas realizadas se obtuvieron los siguientes resultados para las técnicas de reconocimiento empleadas: utilizando DTW, el mejor sistema de reconocimiento de palabras aisladas es LPC como método para extraer características, el área bajo su curva ROC obtenida fue de: 0.988 usando la distancia de Itakura, 0.995 usando la distancia coseno y 0.991 usando la distancia euclidiana (considerando un área de 1.0 para un sistema perfecto). En cuanto a DHMM el mejor sistema de reconocimiento de palabras aisladas fue MFCC utilizando un modelo de 9 estados y 64 símbolos de observaciones usando la distancia coseno en la etapa de cuantización vectorial y en la creación del codebook obteniendo un área bajo su curva de 0.96741. es_MX
dc.language.iso spa es_MX
dc.publisher Universidad Michoacana de San Nicolás de Hidalgo es_MX
dc.rights info:eu-repo/semantics/openAccess
dc.subject info:eu-repo/classification/cti/7
dc.subject FIE-L-2013-0353 es_MX
dc.subject Método es_MX
dc.subject Reconocimiento es_MX
dc.subject Márkov es_MX
dc.subject DTW es_MX
dc.title Métodos para el reconocimiento de voz utilizando modelos ocultos de Márkov y DTW es_MX
dc.type info:eu-repo/semantics/bachelorThesis es_MX
dc.creator.id 0
dc.advisor.id 0
dc.advisor.role asesorTesis


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas