Please use this identifier to cite or link to this item: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3511
Title: Búsqueda de elocuciones de palabras o frases en archivos de audio
Authors: Ruiz Pérez, José Martín
Adviser: Camarena Ibarrola, José Antonio
Keywords: info:eu-repo/classification/cti/7
FIE-M-2016-0585
ASM
DTW
MFCC
Issue Date: Apr-2016
Publisher: Universidad Michoacana de San Nicolás de Hidalgo
Abstract: Content-based search in audio files consists in locating audio files from a collection of files in which an utterance of a word or phrase occurs and, the precise instant of that occurrence in the audio file. The implementation of a system that performs content-based search in audio files has a lot of importance due to the great amount of multimedia data that is generated nowadays. This kind of systems can be used in any computer system that has the means to store, record or play audio, e.g., a mobile device, an embedded system or a personal computer. The approach on which this problem was focused allows us to perform conversations monitoring. In the state-of-the-art, a system like the one mentioned above has as a base a LVCSRS (Large Vocabulary Continuous Speech Recognition System) so, the system depends on the accuracy of the LVCSRS when it performs the speech recognition task. In this work a speaker-dependent system was developed, it uses an approach that had not been tested in content-based search of speech recordings. This approach consists on taking the problem from the speech recognition to the use of approximate string matching. Where the problem is solved without the need to transcript the concatenated phoneme models to a text like in the LVCSRS approach. Instead, the scheme we present carries out an alignment between symbols or characteristic vectors of the query and the file in which we are searching. The system developed in all its versions (using the five alignment technics) is capable to locate the instant in which the word or the phrase used as query takes place; its performance is fairly pleasant.
La búsqueda por contenido en archivos de audio consiste en localizar el o los archivos de audio de una colección de archivos en los que ocurre una elocución de una palabra o frase, además del instante preciso de dicha ocurrencia dentro del archivo de audio. La implementación de un sistema que lleve a cabo búsquedas por contenido en archivos de audio tiene mucha importancia debido a la gran cantidad de información multimedia que se genera en la actualidad. Este tipo de sistemas puede ser utilizado en cualquier sistema de cómputo que tenga los medios para almacenar, capturar o reproducir audio, e.g., un dispositivo móvil, un sistema empotrado o una computadora personal. El enfoque con el que se abordó este problema permite realizar el monitoreo de conversaciones. En el estado del arte un sistema como el que se plantea tiene como base un LVCSRS (Large Vocabulary Continuous Speech Recognition System), por lo tanto el sistema depende de la precisión del LVCSRS al momento de realizar el reconocimiento de voz. En este trabajo se implementó un sistema que es dependiente del hablante, este utiliza un enfoque que no había sido probado en la búsqueda por contenido en grabaciones de voz. Dicho enfoque consiste en llevar el problema del reconocimiento de voz al uso de técnicas de alineamiento aproximado de cadenas. Donde el problema es solucionado sin la necesidad de hacer una transcripción de modelos de fonemas concatenados a texto como lo hace un LVCSRS. En cambio el esquema planteado realiza un alineamiento entre símbolos o vectores de características de la consulta y del archivo en el que se está buscando. El sistema desarrollado en todas sus versiones (utilizando las cinco técnicas de alineamiento incorporadas) es capaz de localizar el instante donde ocurre la palabra o la frase utilizada como consulta y con resultados bastante gratos.
Description: Facultad de Ingeniería Eléctrica. Maestría en Ciencias en Ingeniería Eléctrica
URI: http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3511
Appears in Collections:Maestría

Files in This Item:
File Description SizeFormat 
FIE-M-2016-0585.pdf957.56 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.