Métodos para el reconocimiento de voz utilizando modelos ocultos de Márkov y DTW

Valencia Ramírez, José María

Por favor, use este identificador para citar o enlazar este ítem: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.rights.license	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor	Camarena Ibarrola, José Antonio
dc.contributor.author	Valencia Ramírez, José María
dc.date.accessioned	2023-11-22T14:40:43Z	-
dc.date.available	2023-11-22T14:40:43Z	-
dc.date.issued	2013-04
dc.identifier.uri	http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/15918	-
dc.description	Facultad de Ingeniería Eléctrica. Licenciatura en Ingeniería en Computación	es_MX
dc.description.abstract	The analysis of the voice signal and its subsequent recognition must overcome various problems for humans are trivial, some of these problems are the correct choice and feature extraction of speech signal, size of the vocabularies to be recognized, noise and distortion environment. Energy per band (spectrograms), MFCC (Mel-frequency Cepstral Coefficients) and Linear Predictive Coding (LPC, Linear Prediction Coefficients): In this paper the following feature extraction methods were implemented. Recognition techniques that were used are Dynamic Time Warping (DTW) and Discrete Hidden Markov Models (DHMM) using Cosine, Euclidean and Itakura distances. ROC curves (Receiver Operating Characteristic) for which method of feature extraction is the best in the recognition of isolated words, using a dictionary to 8000.0 Hz 100 words monolocutor sampled quantized to 16 bits, single channel, used little-endian. Spectrograms To implement the first 18 critical bands of the Bark scale to 16 MFCC Mel filters were used and a predictor of order LPC Of the 16 tests were obtained the following results for the techniques were used, recognition employed: using DTW, the best system of isolated word recognition is LPC method to extract features as the area under the ROC curve was obtained: 0.988 using Itakura distance, using the cosine distance 0.995 and 0.991 using the Euclidean distance (considering an area of 1.0 for a perfect system). As for the best DHMM system was isolated word recognition using MFCC model 9 states and 64 symbols observations using the cosine distance in the stage vector quantization and codebook creation obtaining an area under curve of 0.96741.	en
dc.description.abstract	El análisis de la señal de voz y su posterior reconocimiento deben superar diversos problemas que para los seres humanos son triviales, algunos de estos problemas son, la correcta elección y extracción de las características de la señal de voz, tamaños de los vocabularios a reconocer, ruido y distorsión del entorno. En el presente trabajo se implementaron los siguientes métodos de extracción de características: Energía por banda (Espectrogramas), MFCC (Mel-frequency Cepstral Coefficients) y Codificación Lineal Predictiva (LPC, Linear Prediction Coefficients). Las técnicas de reconocimiento que se utilizaron son, Dynamic Time Warping (DTW) y Discrete Hidden Markov Models (DHMM) utilizando las distancias coseno, euclidiana e Itakura. Se utilizaron las curvas ROC (Receiver Operating Characteristic) para obtener cuál de los métodos de extracción de características es el mejor en el reconocimiento de palabras aisladas, utilizando un diccionario de 100 palabras monolocutor muestreada a 8000.0 Hz cuantizado a16 bits, monocanal, little-endian. Para la implementación de Espectrogramas se utilizaron las primeras 18 bandas críticas de la escala de Bark, para MFCC se utilizaron 16 filtros de Mel y para LPC se utilizó un predictor de orden 16. De las pruebas realizadas se obtuvieron los siguientes resultados para las técnicas de reconocimiento empleadas: utilizando DTW, el mejor sistema de reconocimiento de palabras aisladas es LPC como método para extraer características, el área bajo su curva ROC obtenida fue de: 0.988 usando la distancia de Itakura, 0.995 usando la distancia coseno y 0.991 usando la distancia euclidiana (considerando un área de 1.0 para un sistema perfecto). En cuanto a DHMM el mejor sistema de reconocimiento de palabras aisladas fue MFCC utilizando un modelo de 9 estados y 64 símbolos de observaciones usando la distancia coseno en la etapa de cuantización vectorial y en la creación del codebook obteniendo un área bajo su curva de 0.96741.	es_MX
dc.language.iso	spa	es_MX
dc.publisher	Universidad Michoacana de San Nicolás de Hidalgo	es_MX
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	info:eu-repo/classification/cti/7
dc.subject	FIE-L-2013-0353	es_MX
dc.subject	Método	es_MX
dc.subject	Reconocimiento	es_MX
dc.subject	Márkov	es_MX
dc.subject	DTW	es_MX
dc.title	Métodos para el reconocimiento de voz utilizando modelos ocultos de Márkov y DTW	es_MX
dc.type	info:eu-repo/semantics/bachelorThesis	es_MX
dc.creator.id	0
dc.advisor.id	0
dc.advisor.role	asesorTesis
Aparece en las colecciones:	Licenciatura

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
FIE-L-2013-0353.pdf		1.08 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

DSpace JSPUI

DSpace almacena y facilita el acceso abierto a todo tipo de contenido digital incluyendo texto, imágenes, vídeos y colecciones de datos.