Búsqueda de elocuciones de palabras o frases en archivos de audio

Ruiz Pérez, José Martín

Por favor, use este identificador para citar o enlazar este ítem: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3511

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.rights.license	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.contributor.advisor	Camarena Ibarrola, José Antonio
dc.contributor.author	Ruiz Pérez, José Martín
dc.date.accessioned	2021-06-03T14:05:06Z
dc.date.available	2021-06-03T14:05:06Z
dc.date.issued	2016-04
dc.identifier.uri	http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3511
dc.description	Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica
dc.description.abstract	Content-based search in audio files consists in locating audio files from a collection of files in which an utterance of a word or phrase occurs and, the precise instant of that occurrence in the audio file. The implementation of a system that performs content-based search in audio files has a lot of importance due to the great amount of multimedia data that is generated nowadays. This kind of systems can be used in any computer system that has the means to store, record or play audio, e.g., a mobile device, an embedded system or a personal computer. The approach on which this problem was focused allows us to perform conversations monitoring. In the state-of-the-art, a system like the one mentioned above has as a base a LVCSRS (Large Vocabulary Continuous Speech Recognition System) so, the system depends on the accuracy of the LVCSRS when it performs the speech recognition task. In this work a speaker-dependent system was developed, it uses an approach that had not been tested in content-based search of speech recordings. This approach consists on taking the problem from the speech recognition to the use of approximate string matching. Where the problem is solved without the need to transcript the concatenated phoneme models to a text like in the LVCSRS approach. Instead, the scheme we present carries out an alignment between symbols or characteristic vectors of the query and the file in which we are searching. The system developed in all its versions (using the five alignment technics) is capable to locate the instant in which the word or the phrase used as query takes place; its performance is fairly pleasant.	en
dc.description.abstract	La búsqueda por contenido en archivos de audio consiste en localizar el o los archivos de audio de una colección de archivos en los que ocurre una elocución de una palabra o frase, además del instante preciso de dicha ocurrencia dentro del archivo de audio. La implementación de un sistema que lleve a cabo búsquedas por contenido en archivos de audio tiene mucha importancia debido a la gran cantidad de información multimedia que se genera en la actualidad. Este tipo de sistemas puede ser utilizado en cualquier sistema de cómputo que tenga los medios para almacenar, capturar o reproducir audio, e.g., un dispositivo móvil, un sistema empotrado o una computadora personal. El enfoque con el que se abordó este problema permite realizar el monitoreo de conversaciones. En el estado del arte un sistema como el que se plantea tiene como base un LVCSRS (Large Vocabulary Continuous Speech Recognition System), por lo tanto el sistema depende de la precisión del LVCSRS al momento de realizar el reconocimiento de voz. En este trabajo se implementó un sistema que es dependiente del hablante, este utiliza un enfoque que no había sido probado en la búsqueda por contenido en grabaciones de voz. Dicho enfoque consiste en llevar el problema del reconocimiento de voz al uso de técnicas de alineamiento aproximado de cadenas. Donde el problema es solucionado sin la necesidad de hacer una transcripción de modelos de fonemas concatenados a texto como lo hace un LVCSRS. En cambio el esquema planteado realiza un alineamiento entre símbolos o vectores de características de la consulta y del archivo en el que se está buscando. El sistema desarrollado en todas sus versiones (utilizando las cinco técnicas de alineamiento incorporadas) es capaz de localizar el instante donde ocurre la palabra o la frase utilizada como consulta y con resultados bastante gratos.	es_MX
dc.language.iso	spa	es_MX
dc.publisher	Universidad Michoacana de San Nicolás de Hidalgo	es_MX
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	info:eu-repo/classification/cti/7
dc.subject	FIE-M-2016-0585	es_MX
dc.subject	ASM	es_MX
dc.subject	DTW	es_MX
dc.subject	MFCC	es_MX
dc.title	Búsqueda de elocuciones de palabras o frases en archivos de audio	es_MX
dc.type	info:eu-repo/semantics/masterThesis	es_MX
dc.creator.id	RUPM850716HMNZRR01
dc.advisor.id	CAIA640711HMNMBN11
dc.advisor.role	asesorTesis
Aparece en las colecciones:	Maestría

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
FIE-M-2016-0585.pdf		957.56 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

DSpace JSPUI

DSpace almacena y facilita el acceso abierto a todo tipo de contenido digital incluyendo texto, imágenes, vídeos y colecciones de datos.