Por favor, use este identificador para citar o enlazar este ítem:
http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3323
Título : | Identificación automática de señales de audio |
Autor : | Camarena Ibarrola, José Antonio |
Asesor: | Chávez González, Edgar Leonel |
Palabras clave : | info:eu-repo/classification/cti/7 FIE-D-2008-0006 Identificación automática Señales audio TES |
Fecha de publicación : | ene-2008 |
Editorial : | Universidad Michoacana de San Nicolás de Hidalgo |
Resumen : | Given a set of audio signals, find out if a new audio signal may be identified with one of the members of the set, this problem becomes interesting when the signal to identify has been deformed by equalization, noise contamination, lossy compression, re-recording, etc.,. The problem is even more complex if the audio-signals to be identified are actually musical pieces performed by different artists. This problem is known as Automatic Audio-signal Identification. Audio-Fingerprints also known as Audio-Signatures replace the audio signals for identification purposes. The most robust Audio-fingerprint (AFP) found in the literature is based in a measure of the flatness of the spectrum of the signal; this AFP is now part of the standard of MPEG-7 2. The most cited AFP was developed by Haitsma and Kalker at the Philips Research Labs, this AFP is a classic reference in the literature. In this thesis report, two AFPs based on Shannon's entropy are introduced. The first one which we named TES (Time-domain Entropy Signature) is more robust than Haitsma-Kalker's AFP, it is very small and fast to compute since it is extracted directly in time domain. TES is more robust than Haitsma-Kalker's AFP for whole songs under every deformation considered in this work, still TES is computed three times faster. The AFP of MPEG-7 is as effective as TES for every deformation considered in this work except for equalization where MPEG-7 was found to be more robust. For identifying audio-signals using 5 seconds excerpts we introduce the Multi-Band Spectral Entropy Signature (MBSES). With MBSES we achieved 100% of precision rate for severe deformations (For such levels of deformations none of the other AFPs gets 100% of precision rate). In a collection with 4000 songs of various genres MPEG-7 could only identify 63% of the songs contaminated with noise, 79% of the re-recorded ones, and 82% of the filtered ones. Dada una colección de señales de audio, descubrir si una nueva señal de audio se identifica con alguno de los miembros de la colección, este problema se vuelve interesante cuando las señales a reconocer han sufrido deformaciones como ecualización, contaminación por ruido, compresión con pérdidas, regrabación, etc. El problema se complica cuando se deben identificar piezas musicales que han sido ejecutadas por diferentes artistas. Este problema se conoce como Identificación automática de señales de audio. Las Huellas de Audio también conocidas como Firmas de Audio reemplazan a las señales de audio con fines de identificación. La huella más robusta encontrada en la literatura se basa en una medida de lo plano que resulta ser el espectro de la señal, esta huella forma parte del estándar de MPEG-7 1. La huella más citada en la literatura fue desarrollada por Haitsma y Kalker en los laboratorios de Philips Research, esta huella se ha convertido en una referencia obligada. En esta tesis presentamos dos huellas de audio basadas en la entropía de Shannon. La primera de ellas a la que denominamos TES (Time domain Entropy Signature) es más robusta que la huella de Haitsma y Kalker para canciones completas bajo todas las deformaciones contempladas y se calcula tres veces más rápido. Por otro lado MPEG-7 es más robusta que TES bajo ecualización, siendo ambas igualmente efectivas para las demás deformaciones. A la segunda huella la denominamos MBSES (Multi Band Spectral Entropy Signature). Con MBSES logramos el 100% de reconocimiento incluso haciendo más severas las deformaciones (ninguna de las huellas anteriores logra el 100% de reconocimiento en estas condiciones). En una colección de 4000 canciones de géneros diversos, al utilizar MPEG-7 solo se logró identificar al 63% de las canciones contaminadas por ruido, al 79% de las re-grabadas y al 82% de las filtradas. |
Descripción : | Facultad de Ingeniería Eléctrica. Doctorado en Ciencias en Ingeniería Eléctrica |
URI : | http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3323 |
Aparece en las colecciones: | Doctorado |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
FIE-D-2008-0006.pdf | 676.59 kB | Adobe PDF | ![]() Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.