Reconocimiento de individuos por su voz en modo dependiente del texto

Reynoso Morales, Miguel Ángel

DSpace Principal
→
Repositorio Institucional de la Universidad Michoacana de San Nicolás de Hidalgo
→
Tesis
→
Licenciatura
→
Ver ítem

Reconocimiento de individuos por su voz en modo dependiente del texto

Reynoso Morales, Miguel Ángel

URI: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/16180

Fecha: 2018-12

Resumen:

The recognition of individuals is done in different fields, and with different purposes, either get access (to places, objects, information, etc.), or get the identity of a person, for example in the forensic field. The recognition of individuals through their voice, can be performed in a text dependent, or text-independent environment. In this thesis the system that develops is dependent on the text (text-dependent), therefore, each person has to cooperate with the system saying the keyword. A text-independent system (text-independent), It does not need the person to say a specific word. In this thesis, it is proposed as a methodology to perform the recognition of individuals’ text dependent: an audio file containing the utterance of a keyword is taken, the speech is bounded (start and end), a pre-emphasis filtering is applied, and the audio is divided into small frames, to each frame the window of Hamming is applied to him, as well as, the Fast Fourier Transform (FFT). The result of the FFT, is used to obtain vectors of characteristics, these vectors are obtained by means of two methods, the bands Critics on the Bark scale and Mel Frequency Cepstral Coefficients (MFCC). To perform the identification of individuals, feature vectors are compared with Dynamic Time Warping (DTW). Two systems were implemented: DTW-BARK that obtains the feature vectors using the Bark critical bands, and DTW-MFCC that obtains the feature vectors the MFCC. Both systems were tested using a set of format files .WAV (WAVeform Audio File Format), which consists of a population of 21 speakers and a dicnario of 34 words (digits from zero to nine and the Greek alphabet from alpha to omega).

El reconocimiento de individuos se realiza en distintos campos, y con distintas finalidades, ya sea obtener acceso (a lugares, objetos, información, etc.), u obtener la identidad de una persona, por ejemplo, en el ámbito forense. El reconocimiento de individuos por medio de su voz, puede ser realizada en un ambiente texto-dependiente, o texto-independiente. En esta tesis el sistema que se desarrolla es dependiente del texto (texto-dependiente), por lo cual, cada persona tiene que cooperar con el sistema diciendo la palabra clave. Un sistema independiente del texto (texto-independiente), no necesita que la persona diga una palabra específica. En esta tesis, se plantea como metodología para realizar el reconocimiento de individuos dependiente del texto: se toma un archivo de audio que contenga la elocución de una palabra clave, se acota la elocución (inicio y fin), se aplica un filtrado de pre-énfasis, y se secciona el audio en pequeños marcos, a cada marco se le aplica la ventana de Hamming, así como, la transformada rápida de Fourier (FFT por sus siglas en inglés). El resultado de la FFT, es utilizado para obtener vectores de características, estos vectores son obtenidos por medio de dos métodos, las bandas críticas en la escala de Bark y los Coeficientes Cepstrales de Mel (MFCC por sus siglas en ingles). Para realizar la identificación de individuos se comparan los vectores de características con Dynamic Time Warping (DTW). Se implementaron dos sistemas: DTW-BARK que obtiene los vectores de características utilizando las bandas criticas de Bark, y DTW-MFCC que obtiene los vectores de características utilizando los MFCC. Ambos sistemas fueron probados utilizando un conjunto de archivos de formato .WAV (WAVeform Audio File Format), el cual consta de una población de 21 locutores y un diccionario de 34 palabras (dígitos del cero al nueve y el alfabeto griego del alfa al omega).