Por favor, use este identificador para citar o enlazar este ítem:
http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/8502
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.rights.license | http://creativecommons.org/licenses/by-nc-nd/4.0 | |
dc.contributor.advisor | Camarena Ibarrola, José Antonio | |
dc.contributor.author | Ruiz Gaona, Erick Manuel | |
dc.date.accessioned | 2023-03-24T14:37:14Z | |
dc.date.available | 2023-03-24T14:37:14Z | |
dc.date.issued | 2022-10 | |
dc.identifier.uri | http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/8502 | |
dc.description | Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica | es_MX |
dc.description.abstract | In text-dependent speaker identification all individuals to be registered by the recognizer are instructed to pronounce the same phrase. However, in many circumstances we have to identify the speaker regardless of what he/she says, this is the text-independent speaker identification problem. This type of identification is more complicated, because we can’t just simply measure the similarity of an emission of a word or phrase with another emission made by the same speaker of the same word or phrase, since the sounds pronounced are not necessarily the same or in the same order. In this work we propose a method for the text-independent identification of speakers, that consists of searching the voiced segments (frames) with vocalized sound of the speech signal, which are the ones emitted while the vocal cords vibrate, then estimate the glottal pulses of each frame using an iterative inverse filtering technique of our own design. Once the glottal pulses from all voiced frames have been collected along with the label of the corresponding speaker, we train a 1D Convolutional Neural Network without dense layers (different from the conventional architecture). For identifying a speaker, we also detect all voiced frames in his/her speech, estimate the glottal pulse of each frame, then use the trained 1D convolutional neural network for identifying the Speaker each voiced frame belongs to and use a voting scheme for the final decision regarding the identity of the speaker. Two databases are used, one is the English Language Speech Database for Speaker Recognition (ELSDSR) from the Technical University of Denmark and the second is the Acoustic-Phonetic Continuous Speech Corpus (TIMIT), created by: Massachusetts Institute of Technology, SRI International and Texas Instruments, Inc. | en |
dc.description.abstract | En la identificación texto-dependiente de parlantes todas las personas que serán registradas por el reconocedor deben pronunciar la misma frase. Sin embargo, en muchas circunstancias tenemos que identificar al parlante independientemente de lo que diga, este es el problema de la identificación texto-independiente de parlantes. Este tipo de identificación es más complicada, ya que no podemos simplemente medir la similitud de una emisión de una palabra o frase con otra emisión realizada por el mismo parlante de la misma palabra o frase, debido a que los sonidos pronunciados no necesariamente son los mismos ni se encuentran en el mismo orden. En este trabajo proponemos un método para la identificación texto-independiente de parlantes, que consiste en buscar segmentos (marcos) con sonido vocalizado de la señal de voz, estos son los que se emiten mientras vibran las cuerdas vocales, para luego estimar el pulso glotal de cada marco utilizando una técnica de filtrado inverso iterativo de diseño propio. Una vez que se han adquirido los pulsos glotales de todos los marcos con sonido vocalizado junto con la etiqueta del parlante correspondiente, entrenamos una red neuronal convolucional 1D sin capas densas (diferente de la arquitectura convencional). Para identificar a un parlante, también detectamos todos los marcos con sonido vocalizado en su discurso, estimamos el pulso glotal de cada marco, luego usamos la red neuronal convolucional 1D entrenada para identificar al parlante al que pertenece cada marco y usamos un esquema de votación para la decisión final con respecto a la identidad del parlante. Se utilizan dos bases de datos de elocuciones de voz, una es English Language Speech Database for Speaker Recognition (ELSDSR) de la Universidad Técnica de Dinamarca y la segunda es Acoustic-Phonetic Continuous Speech Corpus (TIMIT), creada por: Massachusetts Institute of Technology, SRI International y Texas Instruments, Inc. | es_MX |
dc.language.iso | spa | spa_MX |
dc.publisher | Universidad Michoacana de San Nicolás de Hidalgo | es_MX |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.subject | info:eu-repo/classification/cti/7 | |
dc.subject | FIE-M-2022-1229 | es_MX |
dc.subject | Identificación texto-independiente de parlantes | es_MX |
dc.subject | Pulso glotal | es_MX |
dc.subject | Filtrado inverso iterativo | es_MX |
dc.title | Identificación texto-independiente de parlantes usando pulsos glotales y redes convolucionales 1D | es_MX |
dc.type | info:eu-repo/semantics/masterThesis | es_MX |
dc.creator.id | RUGE920610HMNZNR01 | |
dc.advisor.id | CAIA640711HMNMBN11 | |
dc.advisor.role | asesorTesis | |
Aparece en las colecciones: | Maestría |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
FIE-M-2022-1229.pdf | 2.68 MB | Adobe PDF | ![]() Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.