Por favor, use este identificador para citar o enlazar este ítem:
http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3356
Título : | Carcterización e identificación robusta de señales de audio |
Autor : | Manzo Martínez, Alain |
Asesor: | Camarena Ibarrola, José Antonio |
Palabras clave : | info:eu-repo/classification/cti/7 FIE-D-2014-1622 Alineamiento de audio Cromagramas Distancia coseno |
Fecha de publicación : | sep-2014 |
Editorial : | Universidad Michoacana de San Nicolás de Hidalgo |
Resumen : | In this work we discuss methods related to signal processing which are useful for characterizing and identifying audio in a robust way. These methods are addressed to discuss two of the fundamental problems in all audio identification systems. These problems are: a) the audio features extraction process which best characterizes the signal and b) the recognition technique that enhances the sensitivity of the audio identification stage. With respect to the first problem, we propose a new features extraction process which is based on estimating the entropy of the energy coefficients of the signal using a filters bank adapted to the octaves of each of the twelve musical notes (chroma). We have called this new audio feature “entropy-per-chroma” and it is useful to highlight the harmonic and melodic content of a signal. This feature has also the characteristic of being robust to noise and dynamic changes of volume, tempo and excitement in audio performances. On the other hand, the second problem is analyzed from the perspective of two different audio identification systems. The rst is an isolated words speech recognition system which is used to evaluate our Alignment Technique by Cosine Distance (ATCD). ATCD measures the similarity (distance) between two time series based on a function which is similar to that of the data structures of queue. The most important features of ATCD are: a) it does not require a-priori knowledge about the time series; b) it does not need a training stage and c) linear computational cost. In the experiments we use ROC curves to evaluate the sensitivity of the system. Finally, we propose an audio recognition technique that is useful to align two musical pieces in real time. En este trabajo se presentan métodos de procesamiento de señales que sirven para caracterizar e identificar audio de manera robusta. Estos métodos están direccionados para tratar dos de los problemas fundamentales de todo sistema de identificación de audio. Estos problemas son: a) el proceso de extracción de características que mejor caracteriza la señal y b) la técnica de reconocimiento que mejora la sensibilidad de la etapa de identificación de audio. Con respecto al primer problema, proponemos un proceso de extracción de características que está basado en estimar la entropía de los coeficientes de energía de la señal utilizando un banco de filtros adaptado a las octavas de cada una de las 12 notas musicales (croma). A esta nueva característica de audio se le denominó “entropía por croma” y sirve para resaltar el contenido armónico y melódico de una señal de audio. Esta característica tiene la peculiaridad adicional de que es robusta a ruido y a cambios dinámicos de volumen, tempo y emoción en interpretaciones musicales. Por otra parte, el segundo problema se analiza desde la perspectiva de dos sistemas de identificación de audio diferentes. El primero es un sistema de reconocimiento de voz de palabras aisladas que nos sirve para evaluar el desempeño de nuestra Técnica de Alineamiento por Distancia Coseno (TADC). TADC mide la similitud (distancia) entre dos series de tiempo en base a una función similar a la que tienen las estructuras de datos de cola. Las características de TADC más importantes son: a) no requiere conocimiento previo de las series de tiempo, b) no necesita una etapa de entrenamiento y c) costo computacional lineal. En los experimentos hacemos un análisis mediante curvas ROC para evaluar la sensibilidad del sistema. |
Descripción : | Facultad de Ingeniería Eléctrica. Doctorado en Ciencias en Ingeniería Eléctrica |
URI : | http://bibliotecavirtual.dgb.umich.mx:8083/xmlui/handle/DGB_UMICH/3356 |
Aparece en las colecciones: | Doctorado |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
FIE-D-2014-1622.pdf | 1.68 MB | Adobe PDF | ![]() Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.