Titel: Identificación de parlantes independiente del texto utilizando redes neuronales convolucionales
Autor(en): Reynoso Morales, Miguel Angel
Adviser: Camarena Ibarrola, José Antonio
Stichwörter: info:eu-repo/classification/cti/7
Erscheinungsdatum: Sep-2021
Herausgeber: Universidad Michoacana de San Nicolás de Hidalgo
Zusammenfassung: Speaker identification comprise two problems, text dependent speaker identification and text independent speaker identification. In text dependent speaker identification is necessary that speaker pronounces a certain phrase whose function is that of a keyword. On the other hand, text independent speaker identification does not need that speaker pronounces a specific phrase. For this reason, text independent identification can be used with a conversation. Although, its flexibility also makes it more complex, since the words pronounced are not necessarily the same or in the same order. This thesis presents the design, implementation and tests of a method for text independent speaker identification. This method takes advantage of the capabilities that convolutional neural networks have in the field of computer vision. The proposal consists of generating images that represent the speakers using voice formants. These images are later used to train a convolutional neural network through supervised learning. The patterns generated in the images are analyzed by a network that has two stages. First stage has convolutional layers to extract the characteristics of the images and second stage has dense layer that use the characteristics to identify the speaker. The implementation was done using the combination of Python, TensorFlow and Keras. The implementation was tested using a database which contains audios of people whose native language is Spanish.
La identificación de individuos por medios de su voz abarca dos problemas, la identificación texto-dependiente y la identificación texto-independiente. En la identificación texto-dependiente es necesario que el individuo a identificar pronuncie una frase determinada que cumple con la función de palabra clave. Por otro lado, en la identificación texto-independiente no es necesario que el individuo a identificar pronuncie una frase en específico. Por este motivo la identificación texto-independiente puede utilizarse incluso con una conversación. La flexibilidad de este tipo de identificación también la vuelve más compleja, ya que los sonidos pronunciados no necesariamente son los mismos ni se encuentran en el mismo orden. En esta tesis se lleva acabo el diseño, la implementación y las pruebas de un método de identificación de parlantes texto-independiente. Este método aprovecha las capacidades que han demostrado tener las redes neuronales convolucionales en el campo de visión por computadora. La propuesta consiste en generar imágenes que representen a los parlantes, para lo cual se usan los formantes de la voz. Estas imágenes posteriormente se emplean en el entrenamiento de a una red neuronal convolucional por medio de aprendizaje supervisado. Los patrones que se generan en las imágenes son analizados por una red neuronal que cuenta con dos etapas. La primera etapa cuenta con capas convolucionales que se encargan de extraer las caracteristicas y la segunda etapa cuenta con capas densas cuya función es usar las características para identificar al parlante. La implementación se realizó en el lenguaje de programación Python en combinación con TensorFlow y Keras. La implementación es probada utilizando una base de datos que contiene audios de individuos cuya lengua materna es el español.
Beschreibung: Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica
