SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

116
SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES BASADO EN LA FUNCION DE TRANSFERENCIA RELACIONADA CON LA CABEZA (HRTF) VANESSA BARRERA GIRALDO UNIVERSIDAD DE SAN BUENAVENTURA FACULTAD DE INGENIERIA INGENIERIA DE SONIDO SANTAFE DE BOGOTA, D.C. 2009

Transcript of SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

Page 1: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES BASADO EN LA FUNCION DE TRANSFERENCIA RELACIONADA CON

LA CABEZA (HRTF)

VANESSA BARRERA GIRALDO

UNIVERSIDAD DE SAN BUENAVENTURA FACULTAD DE INGENIERIA INGENIERIA DE SONIDO

SANTAFE DE BOGOTA, D.C. 2009

Page 2: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

2

TABLA DE CONTENIDO

INTRODUCCION 4 1. PLANTEAMIENTO DEL PROBLEMA 5 1.1 ANTECEDENTES 5 1.2 DESCRIPCION Y FORMULACION DEL PROBLEMA 6 1.3 JUSTIFICACION 6 1.4 OBJETIVOS DE LA INVESTIGACION 7 1.4.1 Objetivo General: .................................................................................... 7 1.4.2 Objetivos Específicos: ............................................................................ 7

1.5 ALCANCES Y LIMITACIONES DEL PROYECTO 8 1.5.1 Alcances ................................................................................................. 8 1.5.2 Limitaciones ............................................................................................ 8

2. MARCO DE REFERENCIA 9 2.1 MARCO TEORICO – CONCEPTUAL 9 2.1.1 Generalidades ........................................................................................ 9 2.1.3 Función de Transferencia Relacionada con la Cabeza (HRTF) ........... 24 2.1.4 Procesamiento digital de Señales ........................................................ 27

3. METODOLOGIA 42 3.1 ENFOQUE DE LA INVESTIGACION 42 3.2 LINEA DE INVESTIGACION USB 42 3.3 TECNICAS DE RECOLECCION DE LA INFORMACION 42 3.4 POBLACION Y MUESTRA 42 3.5 HIPOTESIS 43 3.6 VARIABLES 43 3.6.1 Variables Independientes ..................................................................... 43 3.6.2 Variables Dependientes ........................................................................ 43

4. DESARROLLO INGENIERIL 44 4.1 PROTOTIPO 1 44 4.1.1 Análisis. ................................................................................................ 44 4.1.2 Diseño .................................................................................................. 49 4.1.3 Codificación. ......................................................................................... 51 4.1.4 Pruebas ................................................................................................ 53

4.2 PROTOTIPO 2 53 4.2.1 Análisis. ................................................................................................ 53 4.2.2 Diseño .................................................................................................. 55 4.2.3 Codificación. ......................................................................................... 61 4.2.4 Pruebas. ............................................................................................... 62

4.3 PROTOTIPO 3 62 4.3.1 Análisis. ................................................................................................ 62 4.3.2 Diseño .................................................................................................. 64 4.3.3 Codificación. ......................................................................................... 70 4.3.4 Pruebas. ............................................................................................... 71

Page 3: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

3

5. ANALISIS DE RESULTADOS 74 5.1 Valoración Subjetiva 74 5.1.1 Metodología .......................................................................................... 76 5.1.2 Formato de la valoración ...................................................................... 78 5.1.3 Resultados. ........................................................................................... 79

CONCLUSIONES 93 RECOMENDACIONES 95 ANEXOS 96 Anexo 1 96 Manual de operación ....................................................................................... 96

Anexo 2 99 Programación .................................................................................................. 99

GLOSARIO 107 BIBLIOGRAFIA 115

Page 4: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

4

INTRODUCCION

La forma en la que el ser humano percibe constantemente la información de los elementos que conforman su medio ambiente, es por medio de los sentidos (visión, audición, tacto, olor y gusto), los cuales se han desarrollados de manera diferente, debido a la interacción entre el hombre y su entorno; y las características fisiológicas las cuales varían de una persona a otra. El sistema auditivo es uno de los sentidos que más información capta acerca de nuestro entorno y uno de los más desarrollados. Este utiliza ciertas pistas para reconocer la procedencia de un sonido (localización sonora espacial), estas pistas pueden ser función de la memoria, de la interpretación o asociación, pero las más dominantes son las diferencias de tiempo y nivel con que el sonido llega a un oído con respecto al otro. Estas diferencias son interpretadas por nuestro cerebro, el cual nos indica la procedencia de un sonido en el plano horizontal. Todos los cambios que sufre el sonido antes de llegar al tímpano, debido a la forma de la cabeza, pabellón auditivo, la sombra que produce la cabeza y reflexiones del hombro forman un filtro, una respuesta binaural en tiempo y frecuencia, que puede ser representada matemáticamente por la llamada función de transferencia relacionada con la cabeza (HRTF), única para cada persona y para cada punto en un espacio tridimensional. Teniendo estas funciones para diferentes posiciones alrededor del oyente, pueden ser usadas para programar un sistema, que simule el proceso natural de filtrado, para que a cualquier entrada monofónica su salida fuese un sonido binaural con ubicación en tres dimensiones. Al espacializar un sonido en tres dimensiones es posible simular escenas auditivas que aumenten el sentido de inmersión del oyente, y la cantidad de información que es aceptada y procesada. Las escenas auditivas en tres dimensiones tienen aplicaciones tanto para el entretenimiento, entrenamiento, comunicaciones o como ayudas a personas con algún tipo de limitación visual. A continuación se presenta el desarrollo de un sistema espacializador digital de sonido en tres dimensiones, empleando una base de datos de HRTFs. El trabajo contempla desde el análisis e identificación de problemas y oportunidades, hasta la validación y evaluación del sistema.

Page 5: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

5

1. PLANTEAMIENTO DEL PROBLEMA

1.1 ANTECEDENTES

A través de la historia, hemos sido testigos del interés de la humanidad por entender y simular la manera como los seres humanos interpretan los fenómenos o sucesos que ocurren en su entorno, la forma por la cual esto es posible es por medio de los sentidos, empezando por el más desarrollado la visión y seguido por la audición. El físico británico Lord Rayleigh, fue el primero en formular una teoría sobre la audición binaural y la manera en la cual el ser humano distingue la procedencia de un sonido, mediante la teoría duplex (1907). Que se mantiene hasta ahora con algunas extensiones, y establece la existencia de dos claves que utiliza el cerebro para la detectar la procedencia de un sonido en el espacio tridimensional. Estas son la diferencia interaural de nivel de presión sonora (ILD) y la diferencia interaural de tiempo (ITD) con que llega la onda sonora a los oídos. 1 El CONVOLTRON fue el primer sistema de sonido en tres dimensiones, desarrollado por Elizabeth Wenzel para la sección VIEW (virtual interactive enviroment workshop) de la NASA. Este dispositivo es capaz de espacializar cualquier sonido originario de un micrófono o de cualquier reproductor como si proviniese de una fuente en un espacio tridimensional Se basa en dos tarjetas colocadas dentro de un computador IBM, la primera es la “spectrum board” en esta se encuentran los datos de las mediciones de HRTF a 74 diferentes posiciones y consta de una tarjeta modificada TMS320-C25; la otra es la “convolution engine” donde se realiza el proceso de filtrado de las 4 señales entrantes y los filtros HRTF a una frecuencia de muestreo de 50KHz. En este momento la empresa Crystal River Engineering ha distribuido el Convoltron y también ha desarrollado una gama de diferentes sistemas para la percepción del sonido en tres dimensiones, todos en tiempo real y programados en DSPs. Beachtron es una variación más asequible que el Convoltron y operada desde un PC. Acoustetron esta diseñado de igual manera que los anteriores mencionados aplicado a las telecomunicaciones, control de tráfico aéreo, entrenamiento en la conducción de vehículos, guiado de aparatos teledirigidos, Etc. 2

1 Macpherson, Ewan A y Middlebrooks, John C. Listener weighting of cues for lateral angle: The duplex theory of sound localization revisited. Kresge Hearing Research Institute, University of Michigan, 2002. 2 Begault, Durand R. 3-D sound for virtual reality and multimedia. Academic Press, Inc. 1994.

Page 6: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

6

1.2 DESCRIPCION Y FORMULACION DEL PROBLEMA

La tecnología de realidad virtual intenta recrear entornos cada vez con mayor naturalidad, esto se logra imitando la manera como el ser humano captura los cambios en el medio que activan su percepción. El método de captación del sonido en los seres humanos es binaural, lo que significa que escuchamos con dos oídos y que el pabellón auditivo, hombros y cabeza, forman un obstáculo para las ondas sonoras provenientes de una o más fuentes en el espacio tridimensional. Estos obstáculos brindan las pistas necesarias para que nuestro cerebro descifre la ubicación de las fuentes sonoras en un ambiente envolvente. La cabeza binaural o dummy head, una cabeza artificial con dos micrófonos posicionados en los oídos y es utilizada para simular la manera en que el hombre captura el sonido. Este método consigue que el oyente tenga la sensación de estar en el lugar donde se capturo el sonido, pero es costoso e impractico al momento de movilizar la cabeza binaural a los lugares donde se quiere capturar el sonido. Otra forma de lograr un sonido en tres dimensiones, es a través de un sistema de reproducción multicanal. Al variar el nivel entre dos parlantes, derecho e izquierdo, se obtiene la sensación que el sonido pasa por una línea, la línea que une los dos parlantes. Si se añaden dos parlantes, adelante y atrás, se conseguirá un sonido en dos dimensiones, al posicionar otros dos arriba y a bajo se lograra un sonido en tres dimensiones. Este método aunque efectivo, tiene la desventaja de necesitar varios parlantes para lograr una sensación de sonido tridimensional, como mínimo seis. Si la clave para la localización sonora esta en los obstáculos que representa el cuerpo para las ondas provenientes del espacio, al obtener la HRTF para cada oído y diferentes puntos del espacio, es posible simular la procedencia de fuentes sonoras en estos puntos del espacio. Se logrará la sensación de sonido en tres dimensiones, engañando el cerebro del oyente como si realmente estuviese un ambiente real, implementando un sistema que evite las grabaciones binaurales o las reproducciones multicanal. ¿Como se puede lograr una percepción 3D del sonido por medio de la función de transferencia relacionada con la cabeza (HRTF)?.

1.3 JUSTIFICACION

Para lograr que un sonido reproducido por un sistema de audio, se perciba como si proviniese de arriba, abajo, delante o detrás no es necesario ubicar múltiples parlantes, es posible engañar la manera como el sistema auditivo identifica la ubicación espacial de una fuente sonora y esto se logra conociendo la función de transferencia relacionada con la cabeza (HRTF).

Page 7: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

7

Al desarrollar un sistema que simule el filtrado natural que sufren las ondas sonoras provenientes de una fuente en cualquier punto del espacio, es posible obtener sonido en tres dimensiones y por medio de este, lograr fácilmente que el cerebro asimile y procese mayor cantidad de información, tenga mas conciencia de su entorno dando una pista para la atención visual3. Incrementando la emoción y la inmersión 4. Espacializar un sonido monofónico por medio de procesamiento digital de señales, utilizando una base de datos de HRTFs, es la técnica más eficaz y de menor costo para obtener sonido en tres dimensiones, evitando las grabaciones binaurales, reproducción multicanal y sus implicaciones. El interés acerca del sonido tridimensional se ha incrementado significativamente en los últimos años en personas dedicadas al desarrollo de realidad virtual, interfaces hombre/computador, de sistemas de ayuda para discapacitados visuales, en sistemas de entretenimiento como juegos computarizados, video y música; o en sistemas de telecomunicaciones. La implementación de sistemas digitales de sonido 3d facilitaría la manipulación espacial de fuentes sonoras en simulaciones acústicas virtuales.

1.4 OBJETIVOS DE LA INVESTIGACION

1.4.1 Objetivo General:

• Diseñar e Implementar un software espacializador de sonido, aplicando

la función de transferencia relacionada con la cabeza (HRTF).

1.4.2 Objetivos Específicos:

• Seleccionar las funciones de transferencia relacionada con la cabeza

(HRTF). • Programar y aplicar las funciones de trasferencias seleccionadas a la

señal de entrada.

• Diseñar una interfaz grafica, por la cual sea posible manipular los parámetros de elevación, acimut y distancia.

• Validar el dispositivo mediante un estudio subjetivo.

3 Shilling, R. and B. G. Shinn-Cunningham . Virtual Auditory Displays. Aparece en el Handbook of Virtual Environment Technology. K. Stanney (ed), Lawrence Erlbaum, Associates, Inc., 2000. 4 Inmersión es la sensación de estar en un espacio virtual en 3D.

Page 8: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

8

1.5 ALCANCES Y LIMITACIONES DEL PROYECTO

1.5.1 Alcances

• Lograr algoritmos de interpolación de las funciones de transferencia relacionada con la cabeza (HRTF) para suavizar los cambios entre coordenadas adyacentes.

• Realizar espacializaciones de más de un sonido a la vez y en tiempo

real.

• Conseguir la reproducción del sonido en tres dimensiones en parlantes mediante un algoritmo de cancelación cross talk.

• Implementar el dispositivo a nivel institucional, nacional e internacional;

en los diferentes campos de aplicación del sonido en tres dimensiones (técnicas holofónicas, video juegos, sistemas de realidad virtual, simuladores de vuelo, telecomunicaciones, interfaces para la ayuda a personas con discapacidades visuales, etc.).

1.5.2 Limitaciones

• La precisión del dispositivo depende en su mayoría en la manera como se obtiene la función de transferencia relacionada con la cabeza (HRTF), para obtener la mayor aproximación la medición debería realizarse en un ambiente anecoico, donde no existan ondas reflejadas que puedan modificar la señal capturada, el parlante y los micrófonos deben tener una respuesta en frecuencia plana.

• La precisión del dispositivo depende también de las coordenadas que

se tomaron en cuenta al momento de la medición, entre mayor sea el numero de puntos de medición mas preciso será el dispositivo.

• Una función de transferencia relacionada con la cabeza individualizada

lograra una percepción mas real, de lo contrario la sensación será como estar escuchando con los oídos de otra persona.

• El número de señales a ser espacializadas depende del procesador

digital que se utilice.

• El dispositivo es efectivo si la reproducción del sonido se realiza mediante audífonos.

Page 9: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

9

2. MARCO DE REFERENCIA

2.1 MARCO TEORICO – CONCEPTUAL

2.1.1 Generalidades

2.1.1.1 Ondas Sonoras. Cuando existe un fenómeno sonoro, las partículas del medio se desplazan alrededor de su punto de equilibrio. Lo que viaja a través del medio es la perturbación. Como cuando arrojamos una piedra a un lago podemos observar fácilmente las ondas moverse en el agua (perturbación), las partículas del agua chocan unas con otras transmitiendo la energía del choque, volviendo a su punto de equilibrio y transmitiendo la onda hasta que la energía sea mínima. Para que una onda se propague en un medio, este debe ser elástico, tener masa e inercia. Un medio es un conjunto de osciladores que son capaces de vibrar por acción de una fuerza. Las ondas sonoras se propagan en medios donde existan estas propiedades, donde las partículas transmiten la energía de partícula a partícula chocando entre ellas, oscilando alrededor de su punto de equilibrio. Por esto es posible hacer una analogía con un sistema mecánico de masa resorte. Si la distancia entre partículas es pequeña (medios sólidos), estás tendrán mayor velocidad de propagación debido a que pierden menos energía en el recorrido que hacen al oscilar alrededor de su punto de equilibrio .No existe sonido en el vació En un fenómeno sonoro existe una variación de presión con respecto a la presión atmosférica o estática que tiene el aire cuando no hay presencia de sonido, esta tiene un valor de 10^5 pa., 10^6 dinas / cm, 10^5 N /m o 14,7lb / ft. A medida que las partículas chocan unas con otras, hay un aumento de densidad de partículas en esa zona lo que aumenta la presión en ese punto con respecto a la presión existente en la atmósfera, a esta le llamamos zona de compresión o condensación, y sería el punto de mayor amplitud de la onda senosoidal. Detrás de esta zona se crea otra con menor densidad de partículas y de menor presión que la atmosférica, a la que llamamos zona de rarefacción, y seria el punto de menor amplitud de la onda.

Page 10: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

10

Ilustración 1 Zonas de presión 5

La longitud de onda, es la distancia perpendicular entre dos frentes de onda en los que los desplazamientos tienen una diferencia de fase de un periodo completo. (Ver graficas punto 3). Su unidad es el metro. Frecuencia: de una función periódica en el tiempo, es el número de veces que esta se repite a si misma en un segundo es el que nos dice el tono de un sonido. Se mide en hercios (Hz), en honor a Heinrich Rudolf Hertz, es el inverso del periodo. 1 Hz = 1/ s Multiplicando el valor de la frecuencia con el de la longitud de onda obtenemos la velocidad del sonido. A cero grados Celsius con humedad y presión atmosférica normales, la velocidad del sonido en el aire es de 333 m/s, aumenta 1% por cada 5,5 grados Celsius. La velocidad de las ondas sonoras depende también de la compresibilidad y de la inercia del medio

inercialprop

elasticapropv

..

..=

][23720 cTv += Si se eleva la temperatura el calor imprime más energía a las moléculas o partículas del medio, aumentando su velocidad. En aire cálido la longitud de onda no varía, pero aumentan las vibraciones por segundo. El mismo sonido reproducido en un medio de temperatura fría sonara más grave que el mismo sonido en un medio con temperatura más alta. 2.1.1.2 Fisiología del Oído Humano. El oído es un sofisticado amplificador y analizador de frecuencias, que en menos de una pulgada cúbica, transduce la intensidad sonora en un rango de 10^13 amplitudes, capaz de adaptarse a ambientes con elevados niveles de ruido y protegerse de daños, rechaza sonidos en entornos con múltiples fuentes sonoras y separar una o un grupo de fuentes. Este se divide en tres sectores: el oído externo, el oído medio y el oído interno.

5 Daniel Maggiolo. Escuela Universitaria de Música. Uruguay.

Page 11: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

11

Ilustración 2 Oído Humano6 . Oído externo: Este es el encargado de recoger las ondas en el medio ambiente y enviarlas al oído medio y se compone de los siguientes órganos:

• Pabellón auricular u oreja: esta compuesto por cartílago y piel. Y es el encargado de darnos las pistas necesarias para la localización de fuentes.

• Conducto auditivo externo: es la continuación del pabellón auricular que

lleva las ondas sonoras a la membrana del tímpano, sus pelos y secreción glandular contribuyen a que el aire tenga la misma temperatura en los dos lados del tímpano.

Este se asimila a un tubo cerrado en un extremo y tiene una longitud de aproximadamente 2 cm., transforma las ondas esféricas en planas, refuerza las frecuencias entre 2000 y 4000 hz.

• Tímpano: este limita el oído externo con el medio. Es una membrana elástica, semitransparente muy fina en niños es de forma circular y en adultos es de forma elíptica midiendo 8mm en el eje vertical y 9mm en el horizontal y su espesor es de 0,1mm. La presión de las ondas sonoras que viajan por el conducto auditivo externo, hacen vibrar al tímpano para que transmita la energía a la cadena de huesecillos del oído medio.

La presión del sonido en el tímpano es 10 veces la presión que existe en el extremo exterior abierto del conducto. Oído medio: En esta se encuentra la trompa de Eustaquio y una cadena de huesecillos

6 http://sonia1989.wordpress.com/2008/12/

Page 12: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

12

• Trompa de Eustaquio: este comunica al oído medio con la nasofaringe

igualando la presión a los dos lados del tímpano a la presión atmosférica.

• Cadena de huesecillos: esta cadena esta conformada por tres

huesecillos el martillo, yunque y estribo que conducen la vibración del tímpano a la ventana oval.

Existen unos musculitos que protegen el oído cuando hay sonidos muy fuertes, estos musculitos se contraen limitando el movimiento del martillo (debilitando las vibraciones del oído medio), y el estribo que se contrae alejándose de la ventana oval, para que la vibración que se transmite al sensible oído interno sea menor. Cuando un sonido es muy súbito (explosión), estos musculitos no tienen tiempo de entrar en acción, por lo que el estribo puede dañar la estructura del oído interno. La función del oído medio es transmitir la energía de un medio a otro (aire-liquido). Todo medio se opone a la propagación del sonido por su densidad, elasticidad y cohesión de sus moléculas. Las moléculas del agua están más apretadas que las del aire que a su vez tienen más elasticidad que las del agua. Por esto las moléculas del agua son más difíciles de desplazar alrededor de su punto de equilibrio (mayor impedancia). La transmisión de las ondas del aire al líquido del oído interno resulta con una pérdida de energía de alrededor 30 dB que equivale al 99,9%. Para recuperar esta energía esta cadena de huesecillos actúa como un transformador por medio de dos trucos mecánicos, el primero es el sistema de palancas que forman el martillo, yunque y estribo. Las vibraciones del tímpano mueven al martillo que empuja al yunque y estribo a la ventana oval. El extremo interior de la palanca recorre menor distancia pero ejerce más fuerza que en el extremo exterior. La ganancia de este sistema es de 2 o 3 dB; el segundo truco es la relación de superficie entre el tímpano y la ventana oval esta relación es de 14:1, esta relación recobra 23 dB. La acción de transformación que realizan los 3 huesecillos recupera de 25 a 27 dB.La mejor adaptación de impedancias se realiza alrededor de 1khz. Oído interno: El oído interno es una cavidad hermética en forma de caracol llena de líquido, en el oído interno están la coclea, los conductos semicirculares, la ventana oval y la ventana redonda. La cóclea es muy pequeña en forma espiral y está incrustada en el hueso temporal, el más duro del cuerpo, por lo que es muy difícil de estudiar. La cóclea está dividida en tres conductos el timpánico, vestibular y coclear. Entre el conducto timpanito y coclear esta la membrana basilar donde se encuentra el órgano de Corti, en este órgano se encuentran las células ciliadas conectadas al nervio las cuales al moverse y hacer contacto mandan la información al cerebro.

Page 13: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

13

Ilustración 3 Oído interno7

El estribo ejerce fuerza sobre la ventana oval y esta fuerza se convierte en ondas de presión hidráulicas, las cuales recorren los conductos vestibular, timpanito y coclear, y terminan en la ventana redonda donde se disipa la energía. El canal timpanito y vestibular están llenos de un liquido que se llama perilinfa; y el conducto coclear tiene endolinfa estos tienen propiedades iónicas. La perilinfa es rica en sodio y pobre en potasio y la endolinfa al revés. Con esto se genera una diferencia iónica y se genera un potencial electricote 80 m v. También existen los conductos semicirculares que son los encargados de percibir los movimientos en tercera dimensión e informárselo al cerebro. Este no influye con la audición, solo con el equilibrio. Cuando la onda hidráulica que pasa por la coclea, hace vibrar la membrana basilar y con ella las células ciliadas. Cuanto más fuerte es el sonido se excitan más células ciliadas y más fibras nerviosas, por esto existe un mayor número de descargas de potencial por unidad de tiempo además de estimularse determinadas zonas del cerebro. Las células ciliadas externas (CCE) que son alrededor de unas 20000, están mas próximas al centro de la membrana basilar y a la membrana tectoria, lugares que vibran con mayor facilidad, por esta razón son las responsables de mandar la información de los sonidos mas débiles. Las células ciliadas internas (CCI) que son alrededor de 3500, aunque en cantidad son menores que las externas más del 90% de las fibras que se aferran al nervio coclear hacen sinapsis detectan con las CCI. Para sonidos con intensidades altas tanto las células ciliadas externas como internas mandan la información al cerebro.

7 Vásquez Morachimo Iris L. Desarrollo y anomalías del oído interno.

Page 14: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

14

Ilustración 4 Membrana Basilar8 La membrana basilar es una estructura cuyo espesor y rigidez no son constante, cerca de la ventana oval esta membrana es gruesa y rígida, y a medida que se aleja de la ventana oval se vuelve mas delgada y flexible, la variación de rigidez en función de la posición afecta la velocidad de propagación de las ondas a lo largo de ella, y es una de las responsables de la selectividad de frecuencias en el oído interno.

Ilustración 5 Detección de frecuencias en el oído interno9 En el extremo mas cercano a la ventana oval existe mayor deformación de la membrana basilar con tonos altos lo que hace que las células ciliadas se doblaran contra la membrana tractorial y se mandara la señal eléctrica al

8 http://www.nature.com/neuro/journal/v12/n6/fig_tab/nn.2311_F1.html 9 http://www.labc.usb.ve/EC4514/AUDIO/Sistema%20Auditivo/LA_COCLEA.html

Page 15: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

15

cerebro indicando el pico en esta frecuencia, lo mismo ocurre a lo largo de toda la coclea donde En el extremo mas alejado de la ventana se perciben las frecuencias mas graves. La dificultad en la discriminación de las diferentes frecuencias a lo largo del canal se debe al elevado grado de amortiguamiento de las ondas a través del estrecho canal del caracol. Debido a este amortiguamiento no se producen flexiones de suficiente magnitud como para que se cree una onda estacionaria capaz de hacer resonar la membrana basilar. El oído interno funciona como un analizador de frecuencias cuando la onda envolvente pasa por la membrana basilar existe un lugar de mayor vibración o resonancia a lo largo de la membrana basilar según la longitud de onda de la frecuencia y manda la señal al cerebro donde es interpretada como un sonido. 2.1.1.3 decibeles, logaritmos, presión e intensidad sonora. La relación entre la magnitud objetiva de un estimulo físico y la percepción cognitiva de este estimulo, puede ser caracterizada por la ley de Weber-Fechner. “En presencia de un estimulo la variación minima perceptible es proporcional al estimulo ya existente”. Esta ley indica que esta relación no es lineal sino logarítmica para todos los sentidos humanos. El termino logaritmo viene del griego logos (relación) y arithmos (números), el logaritmo decimal de un número dado es el número del exponente al cual debe ser elevado 10 para obtener ese número. El decibel es la décima parte del Bel (B) en honor a Alexander Bell, este sistema de notación adoptado universalmente que permite realizar expansiones y compresiones de escala para simplificar los cálculos con grandes cantidades. Entonces el nivel de presión sonora, en decibeles, es 20 veces el logaritmo en base 10 de la relación entre la presión sonora efectiva del sonido y el valor de referencia de presión sonora efectiva10 11.

Donde: Pref=0.0002 microbar o 20µ pa La intensidad de sonido es el promedio en el tiempo de la energía que fluye por unidad de área. El nivel de intensidad sonora, en decibeles, es 10 veces el logaritmo en base 10 de la relación entre la intensidad del sonido y la intensidad de referencia.

10 Beranek.Leo . Acoustics. Acoustic Laboratory Edition 1954 11 La presión efectiva del sonido en un punto es el valor RMS de la presión instantánea, sobre un intervalo de tiempo en ese punto.

Page 16: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

16

Donde: I ref= 10p watt/m^2 2.1.2 Percepción binaural y sonido espacial. La percepción binaural es específicamente útil en la habilidad de localizar sonidos, determinar su contenido y significado12 , de gran importancia tanto para animales que buscan presas y tratan de evadir predadores potenciales, como para seres humanos a definir su entorno. El sistema auditivo utiliza dos receptores (oídos) posicionados a extremos de la cabeza, lo que convierte a la audición en un sistema tridimensional. Aunque es sistema auditivo humano esta diseñado para ser mas eficiente en la localización de fuentes sonoras sobre el plano horizontal (Azimut), no solo podemos escuchar sonidos que provienen de derecha e izquierda, sino de arriba-abajo, cerca y lejos. Otros procesos que se le atribuyen a la percepción binaural son: La supresión de eco, diferenciar sonidos en ambientes muy reverberantes donde el retardo entre señales sea mayor a 5ms; Detección de señales en presencia de otra señal o ruido (Diferencia de nivel de enmascaramiento binaural BMLD o efecto cocktail-party), y la agrupación de diferentes fuentes sonoras. 13 14 2.1.2.1 Localización Sonora Espacial. Para que la localización sonora sea posible, el sistema auditivo necesita de ciertas pistas acústicas, resultado de la interacción de las ondas sonoras y el oído externo, la cabeza y la parte superior del cuerpo. Las pistas mas dominantes para la localización sonora son las diferencias de tiempo y nivel con que el sonido llega a un oído con respecto al otro (ITD, ILD)15. Estas diferencias son mínimas cuando la fuente de sonido esta justo al frente 0º de nosotros o detrás 180º y máximas cuando están a 90º, justo a los lados. Los animales han desarrollado un pabellón auditivo móvil que les permite encontrar una fuente de sonido sin mover la cabeza, los seres humanos movemos la cabeza hasta minimizar las diferencias de tiempo y nivel que nos llevaran a mirar fijamente a la fuente de sonido.

12 Litovsky, Ruth Y. Binaural Hearing. 13 Colburn, H. Steven. Shinn-Cunningham, Barbara. The perceptual consequences of binaural hearing. Hearing Research Center, Boston University, Boston, MA, USA. 14 Duda, R. 0. Auditory Localization Demonstrations .Departmenotf Electrical Engineering, San Jose State University, San Jose. 15 ITD “interaural time differences” ILD “interaural level differences”.

Page 17: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

17

Aparte de las diferencias de tiempo y nivel el cerebro también usa la memoria, interpretación o asociación para descifrar la procedencia de un sonido, como cuando estamos acostados y escuchamos sonidos dentro de la casa, como alguien sacando algo de la nevera o un carro pasando por la calle, es fácil debido a la costumbre imaginarnos con gran precisión el comportamiento de la fuente de sonido. Pero cuando no conocemos la procedencia de los sonidos las pistas que tenemos para descifrar la procedencia de un sonido sobre el plano horizontal, son las diferencias interaurales de tiempo y nivel (ITD y ILD respectivamente).

Ilustración 6 Plano medio, frontal y horizontal.16 Teoría Duplex. Lord Rayleigh fue el primero en realizar un análisis comprensivo de la física de la percepción binaural, al principio del siglo XIX. El plantea la existencia de dos claves que utiliza el cerebro para localizar una fuente sonora, la diferencia interaural de nivel de presión sonora (ILD) y la diferencia interaural de tiempo con que llega la onda sonora a los oídos17. “A menos que una fuente sonora este localizada directamente al frente o detrás de la cabeza, el sonido llegará primero en tiempo al oído que físicamente este mas cercano a la fuente sonora y con mayor intensidad”18. Los seres humanos tenemos gran sensibilidad a pequeñas diferencias interaurales de tiempo y de nivel. Por ejemplo en tonos puros de baja frecuencia, la diferencia apenas notable (JND)19 para las ITD es del orden de 10µs, y para las ILD la JND correspondiente es de 1dB. Existen otros estudios para determinar el mínimo ángulo audible (MAA) 20 que es la separación angular más pequeña percibida entre dos sonidos. Donde según el tipo de señal existe un mínimo ángulo para diferenciar la localización de una fuente sonora que se mueve sobre el plano horizontal.

16 Maria Fellner, Robert Höldrich. Physiologische und Psychoakustische Grundlagen des räumlichen Hörens 17 Macpherson, Ewan A y Middlebrooks, John C. Listener weighting of cues for lateral angle: The duplex theory of sound localization revisited. Kresge Hearing Research Institute, University of Michigan, 2002. 18 Wang, DeLiang & Brown, Guy J. Computational Auditory Scene Analysis .Cáp. 5 Binaural Sound Localization. John Wiley & Sons, Inc. 2005. 19 Just-noticeable differences (JND). 20 Minimum audible angle (MAA).

Page 18: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

18

Ilustración 7 Diferencias interaurales de Tiempo (ITD) y diferencias interaurales de nivel (ILD).21 La siguiente tabla muestra el desplazamiento mínimo apreciable bajo condiciones ideales, en el plano horizontal para diferentes tipos de señales

Señal MAA

Clic 0.75º-2º senosoidales 1º-4º Barrido de tono 0.8º-3.3º

Voz 0.9º-1.5º ruido 3.2º

Tabla 1 Mínimo ángulo audible (MAA) para diferentes señales

El primero en medir MAA fue Mills en 1958 y sus estudios apuntaron a decir que:

• 10µs de ITD corresponden a 1º. • MAA es función de la frecuencia y del azimut de referencia • Alrededor de los 1.5Kz el sistema auditivo no es muy eficaz y mínimo

ángulo es mayor debido a la teoría duplex.

Rayleigh establece en su teoría que las ITD y las ILD, para tonos puros y en campo libre, operan de manera complementaria en el rango de frecuencia. La diferencia interaural de nivel (ILD) es más pronunciada para frecuencias altas, cuando la longitud de onda del sonido es comparada con la longitud de la cabeza, aproximadamente 22cm.

21 http://interface.cipic.ucdavis.edu/CIL_tutorial/3D_psych/azimuth.htm

Page 19: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

19

Ilustración 8 MAA en diferentes frecuencias y para diferentes posiciones de

azimut.22 Las diferencias de tiempo interaural existen para todas las frecuencias, pero sonidos periódicos pueden ser decodificados sin ambigüedades, solo para las frecuencias en cuales la máxima diferencia interaural, físicamente posible, sea menor que el periodo de la forma de onda a esa frecuencia23. Para una cabeza de tamaño normal 660µs es el máximo tiempo de diferencia.24 Entonces podemos decir que para sonidos de frecuencia mayor a 1.5Khz la localización sonora se realizará utilizando las diferencias interaurales de nivel, e inferiores a esta a través de las diferencias interaurales de tiempo. Pero los estudios de Rayleigh se basaron en estímulos de tonos puros y en el mundo real la mayoría de sonidos tienen un ancho de banda y son más complejos. Estudios posteriores demuestran que las personas son sensitivas a las diferencias interaurales de tiempo en frecuencias altas, cuando el estimulo es un sonido complejo. Debido a que el sistema auditivo puede extraer información temporal de las envolventes en frecuencias altas, de sonidos con múltiples componentes frecuenciales25 26.

22 http://www.audiologieboek.nl/niveau2/hfd2/2-7-1.htm 23 Wang, DeLiang & Brown, Guy J. Computational Auditory Scene Analysis .Cáp. 5 Binaural Sound Localization. John Wiley & Sons, Inc. 2005. 24 Para tonos puros el termino interaural phase delay (IPD) es usado, ya que la ITD corresponde a una diferencia de fase. 25 Henning, G. B. ‘‘Detectability of interaural delay in high-frequency complex waveforms,’’ J. Acoust. Soc. Am. 55, 84–90. 1974 26 McFadden, D., and Pasanen, E. G. ‘‘Lateralization at high frequencies based on interaural time differences,’’ J. Acoust. Soc. Am. 59, 634–639. 1976.

Page 20: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

20

Ilustración 9 Diferencias interaurales de intensidad en el plano horizontal27

Ilustración 10 ITD plano horizontal28

27 Computational Perception 15-485/785. Sound Localization 1 28 Computational Perception.15-485/785. Sound Localization 1

Page 21: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

21

La teoría duplex explica la localización de fuentes sonoras sobre el plano horizontal, pero no hace distinción entre los sonidos provenientes de adelante y atrás, tampoco de sonidos en el plano medio donde las ITD y las ILD son cero. A la manipulación de las ITD y las ILD de diferentes señales, para ser reproducida mediante audífonos se le conoce como Lateralización. La palabra” lateralizar” se refiere a un caso especial de localización donde:

• La percepción espacial ocurre dentro de la cabeza a lo largo del eje interaural, entre los oídos.

• Esta percepción se logra manipulando ITD y ILD de una señal reproducida a través de audífonos29.

No es posible aplicar la teoría duplex para estimar la posición de una fuente sonora en un espacio tridimensional, donde el sonido puede variar en elevación y distancia, puesto que las pistas dadas por las ITD y las ILD no pueden especificar una única posición espacial. Existen infinidad de posiciones de igual distancia con relación a la cabeza del oyente, que tiene las mismas ITD y las ILD. Es donde entra el rol del pabellón auditivo que debido a su forma crea un filtro para las ondas provenientes de cualquier punto en el espacio, creando una diferencia espectral entre las señales provenientes de las fuentes A y B, 1 y 2 de la siguiente ilustración:

Ilustración 11 El Cono de la Confusión. Una fuente en la posición A que teóricamente produce la misma ITD y las ILD que la fuente B, y el mismo caso para la fuente numero 1 y 2.30 Percepción de la Distancia. Para mantener la sensación de realismo en un sistema de sonido 3d virtual, es importante incluir pistas relacionadas a la distancia, que nos ayuden a identificar la procedencia de una fuente sonora.

29 Begault, Durand. R. “3D Sound For Virtual Reality and Multimedia”. AP Professional. Pág. 39-40. 1994. 30 Elizabeth M. Wenzel, Durand R. Begault. The Role of Dynamic Information in Virtual Acoustic Displays.

Page 22: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

22

Varios estudios sobre la percepción auditiva de la distancia se han realizado hasta el momento31, y se han clasificado en dos tipos de métodos experimentales: La primera diferencia metodológica es la sensación de distancia ya sea relativa o absoluta. La percepción de la distancia absoluta se refiere a la habilidad del oyente en determinar la distancia de una fuente sonora, en una exposición inicial sin el beneficio de una familiaridad cognitiva. La percepción relativa obtiene este beneficio de escuchar una fuente sonora en diferentes distancias y en espacios de tiempo espaciados; La segunda diferencia metodológica es si al oyente se le pregunta por la distancia aparente de la fuente en una imagen sonora virtual o la distancia actual de una fuente sonora real. Puede ser el caso que en algunos estudios se posicionen diferentes parlantes en diferentes lugares y se le pregunte al oyente donde siente que proviene el sonido. Un cambio en la distancia física entre el oyente y la fuente sonora producirá una serie de cambios en la onda acústica que alcanza los oídos del sujeto. Si las condiciones entre el oyente y la fuente son estáticas, Se podría generalizar cuatro factores acústicos o pistas, que ayudan al sujeto a estimar la distancia de una fuente sonora.

a)

b)

Ilustración 12 a) Ley del inverso cuadrado, la intensidad es inversamente proporcional al cuadrado de la distancia. b) para fuentes omnidireccionales la reducción es de 6dB cada vez que se duplica la distancia, en metros o pies.32 Intensidad. En ausencia de otras pistas acústicas la intensidad de una fuente sonora es la pista primaria para identificar su distancia. En condiciones anecoicas o de campo libre, la relación entre la intensidad y la distancia puede ser descrita por la ley del inverso cuadrado, esta establece que para una

31 Little, A.D., Mershon, D.H., & Cox, P.H., "Spectral content as a cue to perceived auditory distance". Mershon, D.H. & Bowers, J.N., "Absolute and relative cues for the auditory perception of egocentric distance". Coleman, P.D., "Dual role of frequency spectrum in determination of auditory distance". Fukusima, S.S., Loomis, J.M., and Da Silva, J.A.,"Accurate distance perception accessed by two triangulation methods". 32 http://www.e-radiography.net/radtech/i/inverse_square.htm

Page 23: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

23

fuente omnidireccional existirá una reducción de 6dB cada vez que se duplique la distancia. Esta pista juega un rol más importante cuando no existe familiaridad con la fuente sonora. Un ejemplo es la diferencia entre la voz susurrada y la voz gritada. La voz susurrada se sentirá más cercana que un grito así tenga la misma intensidad, debido a la familiaridad de estas dos señales. Relación entre energía reverberante y energía directa. En ambientes donde el sonido se refleja con las superficies, la relación entre la energía que llega directamente de la fuente sonora y la energía que llega al oyente después de ser reflejada por las superficies, decrece sistemáticamente al aumentar la distancia de la fuente sonora. En la ilustración 13, podemos observar un ejemplo de un recinto, la línea con triángulos representa el campo libre, donde se cumple la ley del inverso cuadrado. La línea con círculos representa la inclusión de las reflexiones tempranas (reverberación en los primeros 80ms) y por ultimo la línea con cuadros ilustra la inclusión de reflexiones tardías, completando la reverberación. La ley del inverso cuadrado se cumplirá solo para una distancia muy reducida del recinto (distancia crítica).

Ilustración 13 Relación entre el sonido directo y reflejado, al aumentar la distancia la relación R/D disminuye. ER representa las reflexiones tempranas y LR las reflexiones tardías.33 Pistas espectrales para determinar la distancia. Existe un cambio en el espectro de una señal a medida que la distancia entre la fuente y el oyente varía. Esto se debe a diferentes factores como la influencia de las condiciones atmosféricas, la absorción molecular del aire y la curvatura del frente de onda. Psicoacústicamente hablando estas pistas son menos importantes que la intensidad, la familiaridad o la relación entre la energía directa y la reverberante. Los efectos espectrales creados por la absorción del aire son relativamente pequeños, especialmente para distancias pequeñas, pero se vuelve significativo para frecuencias altas en largas distancias. Un ejemplo son

33 Begault.D.R 3D sound for virtual reality and multimedia.

Page 24: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

24

los datos entregados por Harris 34 que muestran que a una distancia de 100 metros, a una temperatura del aire de 68º Fahrenheit y 20% se humedad, causaran una atenuación de 7.4dB en 4Khz, que es significante. Pero en distancias menores a 10 metros la atenuación será de menor a 1dB.

Ilustración 14 coeficiente de atenuación total vs. La humedad relativa del aire a 20º C (68º F) en función de la frecuencia (Harris).

2.1.3 Función de Transferencia Relacionada con la Cabeza (HRTF)

2.1.3.1 Respuesta al impulso relacionada con la cabeza (HRIR). Sistemas lineales, como el sistema que forman la cabeza, el torso, los hombros y los pabellones auditivos, para difractar y reflejar las ondas sonoras dependiendo su localización en el espacio tridimensional; Pueden ser caracterizados por la respuesta al impulso h(t). Conociendo la respuesta al impulso es posible simular la salida del sistema a cualquier entrada, mediante el proceso matemático de la convolución35. La respuesta anatómica a una señal analítica de una fuente en cualquier punto del espacio hasta que llega al tímpano, es conocida como respuesta al impulso relacionada con la cabeza (HRIR)36 . Existe una respuesta al impulso diferente para cada posición y para cada oído.

34 Harris, C.M. Absorption of sound in air vs. Humidity and temperature. Journal of the Acoustical Society of America. 1996. 35 Para mayor información sobre los sistemas lineales, transformada de Fourier y convolución, referirse al apartado 2.1.4 Procesamiento Digital de Señales. 36 HRIR en ingles Head Related Impulse Response.

Page 25: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

25

En la siguiente ilustración se presenta la respuesta al impulso relacionada con la cabeza (HRIR) del oído derecho en el plano horizontal; en función del grado de azimut, tiempo y amplitud. Ilustración 15 HRIR del oído derecho para diferentes posiciones de azimut, a través del plano medio. 37 Se observa que cuando el grado de azimut es 90º esta al frente del oído derecho, la intensidad es mayor y el tiempo de arribo inferior que para cualquier otra posición. La señal es de menor intensidad y con mayor tiempo de llegada cuando esta justo al frente del oído izquierdo azimut igual a 270º con una diferencia de tiempo de mas o menos 0,7 ms., acertando con la teoría duplex. Es posible observar también las reflexiones causadas por los hombros, pabellón auditivo y torso. La función de transferencia relacionada con la cabeza (HRTF) es la versión en el dominio de la frecuencia de la respuesta al impulso relacionada con la cabeza (HRIR). Esta función describe el filtrado que produce la anatomía humana debido a las reflexiones, ocasionando una atenuación o una amplificación selectiva en ciertas frecuencias en función a la elevación, azimut y distancia de la fuente sonora. Existen mecanismos fisiológicos que ayudan a la localización de una fuente sonora, entre ellos el pabellón auditivo juega el papel más importante. Debido a su forma crea reflexiones a las ondas incidentes al canal auditivo modificando el espectro de la señal. Como se observa en la ilustración 17 diferencias en las dimensiones del pabellón auditivo causan diferencias en la respuesta al impulso y por ende a la función de transferencia, el pabellón auditivo es como una huella digital no existen dos iguales, por esta razón utilizar funciones de transferencia individualizadas realzará la percepción sonora en tres dimensiones, de lo contrario seria como oír a través de los oídos de otra persona.

37 Cipic Laboratory. Introducción al sonido espacial.

Page 26: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

26

a) b) Ilustración 16 a) HRTF azimut 80 y elevación 0 del sujeto 156 de la base de datos de la CIPIC laboratory b) HRTF azimut 80 y elevación 180, justo detrás de la oreja derecha, para el mismo sujeto. 2.1.3.2 El papel del pabellón auditivo. El pabellón auditivo es también el encargado de resolver el cono de la confusión, en la ilustración 16 vemos dos posiciones con las mismas diferencias interaurales de tiempo y de nivel, pero sus funciones de transferencia no son iguales. Esto debido a que no existe simetría física en el plano frontal, por lo que las ondas provenientes de atrás y adelante tendrán caminos distintos para alcanzar el tímpano. Las pistas que brinda el pabellón auditivo son mas importantes para determinar la posición en cuanto a la elevación de una fuente sonora, que a azimut. Para determinar la posición en cuanto a azimut las diferencias interaurales de tiempo y de nivel son más eficaces.

Ilustración 17 Respuesta del pabellón auditivo en función de la elevación, cuando la proviene del frente existe una interferencia destructiva que causa una caída alrededor de los 10000 Hz. 38

38 Cipic Laboratory. Introducción al sonido espacial.

Page 27: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

27

Ilustración 18 Diferencia de la HRTF debido a las diferentes formas que puede tomar el pabellón auditivo de una persona.39

2.1.4 Procesamiento digital de Señales

2.1.4.1 Señales y sistemas Señales continuas y discretas. Las señales son funciones que describen la variación en tiempo de una variable física de un proceso físico. Existen señales análogas como las eléctricas (voltaje y corriente), señales de voz, presión y temperatura por nombrar algunas. Cuando la función depende de una sola variable, se dice que es unidimensional. Como una señal de voz, donde su amplitud varía con el tiempo. Cuando la función depende de más variables se dice que es multidimensional, una imagen es bidireccional, representa coordenadas horizontal y vertical de la imagen. Una manera de clasificar señales es en la manera como estas se definen en función de una variable independiente como el tiempo. Se dice que una señal x(t) es continua en tiempo si esta definida para todo tiempo t. O sea, que el valor o amplitud de la señal varía continuamente con el tiempo. Las señales

39 Vikas C. Raykar & Ramani Duraiswami. Extracting the frequencies of the pinna spectral notches in measured head related impulse responses.

Page 28: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

28

continuas en tiempo surgen naturalmente cuando una forma de onda física como una onda sonora o luminosa se convierte en señal eléctrica mediante un transductor. Una señal en tiempo discreto se define solo en instantes de tiempo discretos, en este caso la variable independiente t tiene valores discretos t=tn para algún intervalo de valores enteros n que suelen estar uniformemente espaciados. x[n] = x(nt) n=0, 1, 2 ….

a) b) Ilustración 19 Señal senoidal amortiguada exponencialmente de la forma

a) Continúa en tiempo y Amplitud b) fracción de la señal discreta en tiempo y amplitud

Impulso Unitario. Esta función, conocida también como función delta o distribución Dirac, se define en tiempo continuo de la siguiente manera: δ (t)= 0 para t ≠ 0 1)( =∫ dttδ Esta ecuación señala que el impulso es cero en todos los lados menos en el origen, y que el área total bajo el impulso unitario es la unidad.

Ilustración 20 Impulso unitario x[n] =1 cuando n=1 y 0 para el resto de posiciones.

Page 29: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

29

La versión discreta del impulso unitario, se define por medio de:

δ [n]= {1, n=0} {0, n≠0} Sistemas continuos y discretos. En términos de lenguaje matemático, Una señal, llamada señal de entrada, ocasiona la aparición de otra llamada señal de salida. La relación matemática entre la señal de entrada y la de salida se le llama un sistema. En otros términos, un sistema es cualquier proceso que produzca una señal de salida en respuesta a una señal de entrada.

Ilustración 21 Sistemas continuos y sistemas discretos40 Propiedades básicas de los sistemas Sistemas con y sin memoria. Se puede decir que un sistema carece de memoria o es sin memoria si su salida para cada valor de la variable independiente en un tiempo dado, depende solamente de la entrada en ese mismo tiempo. Por ejemplo, el sistema especificado por la relación:

( )22 ][][2][ nxnxny −= Es sin memoria ya que el valor de y[n] en cualquier instante de tiempo no depende tan sólo del valor de x[n] en ese mismo instante.

40 Las ilustraciones del capitulo señales y sistemas fueron tomadas de The Scientist and Engineer's Guide to Digital Signal Processing. De Steven W. Smith

Page 30: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

30

El concepto de memoria en un sistema corresponde a la presencia de un mecanismo en el sistema que mantiene o almacena información sobre los valores de entrada en instantes diferentes al tiempo actual. Un ejemplo puede ser un retraso en la señal: y[n]=x[n-1] En donde se debe mantener o almacenar el valor precedente de la entrada. Invertibilidad y sistemas inversos. Se dice que un sistema es invertible si distintas entradas producen distintas salidas. Para un caso discreto, si un sistema es invertible, entonces se dice que existe un sistema inverso tal que, cuando se encuentre en cascada con el sistema original, produce una salida w[n] igual a la entrada x[n] del primer sistema, como podemos apreciar en el siguiente ejemplo. Esta interconexión en serie, tiene una relación entrada – salida total que es la misma que la del sistema de identidad. En el caso continuo, podemos apreciar este ejemplo: y(t) = 2x(t) en donde su sistema inverso sería w(t) = ½ y(t). Para dicho sistema, la diferencia entre dos valores sucesivos de salida es, precisamente el mismo valor de entrada, por lo que en este caso el sistema inverso es: W[n] = y[n] – y[n-1], como podemos apreciar en el siguiente diagrama: Causalidad. Un sistema es causal si la salida del sistema en cualquier instante depende solo de las entradas presentes y pasadas, pero no de las futuras. Todos los sistemas sin memoria son causales, ya que la salida responde solo a valores presentes de la entrada.

Page 31: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

31

Y(n) = x[n] – x[n-1] Sistema Causal. Y[n] = x[n] +x[n+1] + 2x[n-1] Sistema no causal. Estabilidad. La estabilidad es una propiedad muy importante que debe ser tomada en cuenta en cualquier aplicación práctica de un sistema. Un sistema estable es aquél en el que entradas pequeñas conducen a respuestas que no divergen. Se dice entonces que si la entrada a un sistema estable es limitada, (es decir, si su magnitud no crece en forma ilimitada), entonces la salida también debe ser limitada, por tanto no puede divergir. Invariancia en el tiempo. Se dice que un sistema es invariante en el tiempo si el comportamiento y características del mismo están fijos en el tiempo. Por ejemplo, el siguiente circuito:

Ilustración 22 Circuito RC

Es invariante en el tiempo si los valores de resistencia R y capacitancia C son constantes a través del tiempo: si se hace un experimento con este circuito hoy podríamos esperar obtener los mismos resultados mañana. Por otro lado, si se varían los valores de R y C o estos variaran con el tiempo entonces los resultados del experimento dependerían del tiempo en que se leve a cabo. Linealidad. Un sistema lineal, ya sea en tiempo continuo o discreto, es aquél que cumple con la propiedad de superposición. Dicho principio establece que la respuesta del sistema a una suma ponderada de señales, sea igual a la correspondiente suma ponderada de las salidas a cada una de las señales de entrada. Matemáticamente , sea y1[t] la respuesta al sistema continuo a una entrada x1[t], y sea y2[t] la salida correspondiente a la entrada x2[t] .Establecido esto el sistema es lineal si:

El mismo principio puede ser aplicado en el caso discreto.

Page 32: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

32

2.1.4.2 Sistemas LTI. Los sistemas LTI o invariantes en el tiempo, son de fácil acceso al análisis, ya que todos cumplen con el principio de superposición, por lo que, si podemos representar la entrada a un sistema LTI en términos de una combinación lineal de un conjunto de señales básicas entonces podemos utilizar la superposición para calcular la salida al sistema en términos de su respuesta a estas señales. Veremos entonces que una de las características del impulso unitario, tanto discreto como continuo es que las señales muy generales se pueden representar como la combinación lineal de impulsos retardados. Este hecho junto con las propiedades de superposición e invariancia, nos permiten realizar una caracterización completa de cualquier sistema LTI en términos de su repuesta a un impulso unitario. Esta representación es conocida en el campo discreto como la suma de convolución y en el caso continuo como integral de convolución. Requerimientos de Linealidad. Un sistema es llamado lineal, si cumple con las propiedades matemáticas de homogeneidad y aditividad. Si podemos probar que un sistema cumple con las anteriores condiciones, entonces probamos que el sistema es lineal. Existe una tercera condición que si bien no es propia de todos los sistemas LTI es tomada en cuenta en la mayoría de técnicas de DSP y es llamada de cambio invariante. Cuando encontramos el término Sistema Lineal utilizado en DSP se debe asumir que dicho sistema también cumple con el cambio invariante. Homogeneidad. Un sistema se dice homogéneo si el cambio en amplitud de la señal de entrada, resulta en el correspondiente cambio en amplitud de la señal de salida como se ilustra a continuación: Si Entonces En el ejemplo anterior se observa que si x[n] resulta en y[n], entonces kx[n] resulta en ky[n] para cualquier señal x[n] y cualquier constante k.

Page 33: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

33

Aditividad. Consideremos un sistema en donde una entrada x1[n] produce una señal de salida y1[n]. Ahora supongamos que otra entrada x2[n] produce otra salida y2[n] . Un sistema se dice que es aditivo si una entrada de x1[n]+ x2[n] resulta en una salida de x2[n]+ y2[n], para todas las señales de entrada posibles. En otras palabras, señales que son sumadas en la entrada producen señales que son sumadas en la salida. Por ejemplo, si: Y si:

Entonces: Un sistema se dice que es aditivo si señales sumadas pasan a través de él sin interactuar. Cambio invariante. Esto quiere decir que un cambio en la señal de entrada resultara en nada más que en un cambio idéntico en la señal de salida. En otros términos, si una señal de entrada x[n] resulta en una de salida y[n], una señal de entrada x[n+s] resulta en una de salida y[n+s], para cualquier señal de entrada y cualquier constante s. Sumando una constante s a la variable independiente n , la onda puede ser adelantada o retardada en dirección horizontal. Por ejemplo si s= 2 entonces la señal se correrá dos muestras a la izquierda, y por el contrario si s= -2 , la señal se correrá dos muestras a la derecha. Si:

Page 34: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

34

Entonces . El cambio invariante es importante ya que significa que las características del sistema no cambian en el tiempo (o con cualquiera que fuese su variable independiente). Convolución. Es la operación matemática que permite obtener la salida Y de un sistema a partir de la entrada X y su función de transferencia H.

y(t) = x(t) * h(t)

Esta operación es un tanto complicada en el dominio del tiempo, pero muy sencilla en el dominio de la frecuencia (un proceso de multiplicación). Por esta razón, el procesamiento de señal digital se acostumbra a realizarse en el dominio de la frecuencia.

Y(f) = X(f) . H(f)

La convolución es la forma matemática de combinar dos señales para así formar una tercera señal. Es la técnica más importante en DSP, ya que involucra tres señales de interés: la de entrada, la de salida y la respuesta al impulso.

Ilustración 23 Función delta Dirac en sistemas lineales

Page 35: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

35

La función delta y la respuesta al impulso en la convolución. Un impulso como vimos en el apartado de señales, es una señal que esta compuesta por valores de ceros exceptuando un punto que tiene otro valor y la la función delta δ[n], es un impulso normalizado, lo que quiere decir que la muestra numero cero de la señal tiene un valor de 1, mientras que todas las otras muestras tienen valor de 0 . Por otra parte la respuesta al impulso es, como su nombre lo dice, es la señal que sale de un sistema cuando la señal de entrada es el impulso unitario o función delta. Si dos sistemas son distintos en cualquier forma, entonces tendrán distintas respuestas al impulso. Proceso de convolución. El proceso de cómo un sistema cambia una señal de entrada en una de salida, se puede numerar de la siguiente manera: Primero: la señal de entrada es descompuesta en una seri de impulsos, cada uno de los cuales puede ser tomado como una función delta escalada y cambiada. Segundo: la señal resultante de cada impulso es la versión escalada y cambiada de la respuesta al impulso. Tercero: la señal total resultante puede ser encontrada adicionando las respuestas al impulso Todo lo anterior significa que si conocemos la respuesta al impulso de un sistema, entonces podemos calcular como será la señal de salida cualquiera que sea la señal de entrada.

Ilustración 24 Convolución en sistemas lineales. En el proceso de la convolución, la señal de salida de un sistema lineal es igual a la señal de entrada convolucionada con la respuesta al impulso del sistema y la longitud de la señal de salida y(t) será la longitud de la señal de entrada x(t) mas la longitud de la respuesta al impulso h(t) menos 1. Propiedades de la convolución.

Page 36: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

36

1. Propiedad Conmutativa. La propiedad conmutativa de la convolución establece que el orden en que las señales son convolucionadas puede ser intercambiado: Si Entonces 2. Propiedad asociativa. Por medio de esta propiedad podemos demostrar que es posible convolucionar 3 o más señales, como aparece en la ecuación:

La propiedad asociativa muestra dos importantes características de los sistemas lineales en forma de cascada. Primero, el orden de los sistemas puede ser modificado sin cambiar la operación de la cascada. Segundo, dos o mas sistemas en cascada pueden ser reemplazados por un solo sistema, como se demuestra de la siguiente manera: Si Entonces: Y también: 3. Propiedad distributiva. La ecuación de la propiedad distributiva puede escribirse de la forma:

La cual describe la operación de sistemas paralelos con salidas sumadas. Aquí, dos o más sistemas pueden compartir la misma entrada x[n] y tener sus salidas sumadas para obtener y[n].

Page 37: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

37

Si Entonces 2.1.4.3 Transformada de Fourier “Cualquier señal periódica continua puede ser representada como la suma de

ondas senoidales escogidas apropiadamente”.

El análisis de Fourier es una familia de técnicas matemáticas las cuales se basan en la descomposición de señales en sinusoidales. La idea de la descomposición es el tratar con procedimientos más fáciles que los que se tratan con la señal original. Por ejemplo, la descomposición de una señal en impulsos permite que la señal sea analizada por puntos en un instante de tiempo lo que nos lleva a la útil técnica de la convolución. Los componentes de seno y coseno son más fáciles de tratar que la señal original ya que poseen la propiedad de la fidelidad sinusoidal. Dicha propiedad establece que la entrada sinusoidal a un sistema garantiza una salida sinusoidal. También es posible tratar con descomposiciones triangulares y cuadradas pero es menos práctico. En general, la transformada de Fourier puede ser dividida en cuatro categorías derivadas de los 4 tipos básicos de señales que se pueden encontrar. Una señal puede ser continua o discreta y cada una de estas puede ser periódica o aperiódica. La combinación de estas da como resultado las cuatro categorías ya mencionadas y que se describen a continuación: Continua y aperiódica. Dentro de estas se encuentran, por ejemplo, señales con decaimiento exponencial y la curva de Gauss. Dichas señales se extienden desde el infinito negativo hasta el positivo sin repetirse en patrones periódicos. La transformada de Fourier para este tipo de señal es llamada simplemente Transforma de De Fourier. Ejemplo:

Page 38: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

38

Periódica y Continua. Aquí se incluyen las señales seno, cuadradas y en general cualquier forma de onda que se repita a si misma en patrones periódicos. Esta versión de la transformada de Fourier es llamada Serie de Fourier. Ejemplo: Discreta y Aperiódica. Dichas señales están definidas por puntos discretos entre el infinito negativo y el positivo y no se repiten a si mismas en orden periódico. Este tipo de transformada es llamada Transformada en Tiempo Discreto de Fourier. Ejemplo: Periódica y Discreta. Son señales discretas que se repiten a si misma en orden periódico desde el infinito negativo hasta el positivo. Este tipo de transformada es llamada Transforma Discreta de Fourier. Ejemplo: El siguiente ejemplo ilustra como una señal puede ser descompuesta en señales sinusoidales y cosenoidales (descomposición de Fourier). La señal ilustrada muestra una serie de muestras desde 0 hasta 15

Page 39: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

39

Y su descomposición en nueve señales senoidales y nueve cosenoidales, cada una con diferente frecuencia y amplitud. Señales Cosenoidales

Señales Senoidales

Page 40: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

40

Se dice entonces que estas 18 señales sumadas producen la señal original. 2.1.4.4 Transformada rápida de Fourier. La Transformada rápida de Fourier es (FFT) otro método para calcular la Transformada Discreta De Fourier siendo increíblemente más eficiente que otros métodos reduciendo el tiempo computacional por cientos. La transformada Rápida de Fourier opera descomponiendo una señal de N puntos en el dominio del tiempo, entre N señales de un solo punto. Luego se calcula el correspondiente espectro y frecuencia para dichas señales. Por último se sintetizan los espectros para formar uno solo en frecuencia. El siguiente es un ejemplo de descomposición de una señal en el dominio del tiempo usando FFT. Una señal de 16 puntos 2 señales de 8 puntos 4 Señales de 4 puntos 8 señales de dos puntos 16 señales de 1 punto Esta descomposición no es otra cosa que una reordenación de muestras en la señal. El siguiente paso en el algoritmo de la FFT es el de encontrar el espectro en frecuencia de las señales de un solo punto, lo cual es sencillo ya que el espectro de la señal de un solo punto es igual a si mismo. Aunque aquí no se requiere trabajo alguno se debe recordar que las señales de un punto se encuentran ahora representadas como espectros de frecuencia, y no son señales en dominio del tiempo. La última etapa en la FFT es la de combinar el espectro de N frecuencias en exactamente el orden inverso al que se tenia cuando la descomposición se llevo a cabo. Este recurso es llamado bit reversal. Podemos apreciar según la ilustración 25 como terminan las muestras luego del bit reversal. Se observa que el orden de los números binarios es exactamente el inverso del que se encuentra en orden normal.

Page 41: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

41

Decimal Binario Decimal Binario.

Ilustración 25 Bit reversal Mientras que la FFT estima el contenido espectral (contenido armónico) de muestras de una señal en el dominio del tiempo. Decimos que los resultados de la FFT son muestras en el dominio de la frecuencia. Tomando en cuenta esto decimos que existe un proceso inverso IFFT que convertirá muestras de señal en el dominio de la frecuencia de nuevo en muestras de señal en el dominio del tiempo y es de notar que esta no actúa igual que la transformada inversa de Fourier ya que es otro proceso distinto.

Page 42: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

42

3. METODOLOGIA

3.1 ENFOQUE DE LA INVESTIGACION

El enfoque que empleado en el desarrollo de este proyecto, es un enfoque empírico-analítico por su utilidad técnica, encaminado a analizar el proceso de localización de fuentes sonoras del sistema auditivo y realizar una síntesis de este proceso para lograr una espacialización sonora artificial.

3.2 LINEA DE INVESTIGACION USB

El proyecto se encuentra dentro de la línea institucional de tecnologías actuales y sociedad. En la sub-línea de procesamiento de señales y dentro del campo de investigación en diseño de sistemas de sonido.

3.3 TECNICAS DE RECOLECCION DE LA INFORMACION

Este proyecto está fundado en una base de datos de las respuestas al impulso relacionadas con la cabeza (HRIRs) y sus respectivas transformadas de Fourier, las funciones de transferencia relacionadas con la cabeza (HRTFs), realizadas por el laboratorio CIPIC de la universidad Davis en California para 45 diferentes sujetos en un ambiente anecoico. Las cuales serán simuladas como filtros digitales utilizando MATLAB, para que a una señal monofónica su salida sea una señal binaural con posible espacialización en tres dimensiones. Para validar el dispositivo es necesario realizar un estudio subjetivo, basado en un test que consiste en variar las coordenadas de un sonido en el dispositivo y observar la efectividad con que el oyente descifra la procedencia de la fuente de sonido, según su proximidad física con los sujetos medidos por la CIPIC.

3.4 POBLACION Y MUESTRA

El sonido en tres dimensiones es percibido naturalmente por cualquier persona que no tenga limitaciones auditivas, realizar un muestreo probabilístico donde todos los individuos de esta población tengan la misma probabilidad de ser elegidos, asegurando que la muestra sea representativa y donde sea posible generalizar, es dispendioso en tiempo, trabajo y dinero, optándose por un método no probabilístico casual o incidental, donde se toman como muestra los

Page 43: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

43

individuos a los que se tiene fácil acceso. Este método no garantiza una representatividad de la muestra y por ende no permiten realizar estimaciones inferenciales sobre la población.

La muestra incluye 10 individuos, hombres y mujeres entre 19 y 32 años, profesionales o estudiantes relacionados con audio, así como profesionales y estudiantes de otras áreas. A los cuales se les realiza una medición antropométrica del pabellón auditivo para determinar el sujeto en la base de datos con mayor similitud y el índice de semejanza, determinar la influencia de los errores en la localización con el uso de HRTF casi individualizadas.

3.5 HIPOTESIS

Utilizando técnicas de procesamiento digital de señales y una base de datos de HRTFs, es posible lograr que una señal monofónica se convierta en una señal binaural con posible espacialización en tres dimensiones. La correcta localización de la señal binaural espacializada depende de la cercanía entre las medidas antropométricas del pabellón auditivo del sujeto del cual se extrajeron las HRTFs y las del usuario del sistema.

3.6 VARIABLES

3.6.1 Variables Independientes

• Datos de las HRTF escogidos para realizar el dispositivo. • Las características fisiológicas y auditivas de los oyentes que validaron

el dispositivo.

3.6.2 Variables Dependientes

• Tipo de del procesador digital de señales. • Tipo de audífonos con los que la señal especializada será reproducida. • Manera de formulación de la validación del dispositivo.

Page 44: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

44

4. DESARROLLO INGENIERIL

Al momento de desarrollar un software es importante tener una planeación del proceso, donde se analice y represente sistemáticamente el funcionamiento del sistema. Esto se podría sintetizar en el concepto de ciclo de vida del desarrollo del sistema, en la ilustración 26 se muestran las etapas principales de este ciclo, base para el desarrollo y documentación de este proyecto. La primera etapa es el análisis, al final de esta etapa se obtienen los requerimientos o necesidades del sistema. Le sigue el diseño, en esta se obtienen las especificaciones del programa o software. Codificación, las especificaciones obtenidas en la etapa anterior son programadas en un lenguaje matemático. Pruebas, es posible que después de realizar algunas pruebas con el software este presente errores que lleven a una re-planeación de sistema, volviendo a la etapa de análisis para comenzar de nuevo el ciclo. Aparte de estas cuatro etapas principales, cabe denotar siete fases para el desarrollo de cualquier sistema41:

• Identificar objetivos, problemas y oportunidades. • Determinar los requerimientos de la información. • Analizar las necesidades del sistema. • Diseñar el sistema recomendado. • Desarrollar y documentar el software. • Probar el software. • Evaluar el sistema.

Ilustración 26 Ciclo de Vida del desarrollo de un sistema tradicional.

4.1 PROTOTIPO 1

4.1.1 Análisis. El sistema que forma la cabeza, el torso y el pabellón auditivo modifica temporal y espectralmente las ondas sonoras provenientes de un

41 Kendall.Kenneth E. Análisis y diseño de sistemas. Prentice hall Hispanoamérica S.A. 1997.

Page 45: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

45

ambiente envolvente, ofreciéndonos pistas para una percepción tridimensional de fuentes sonoras. Este sistema es lineal e invariante en el tiempo haciendo posible la caracterizado por medio de la respuesta al impulso y la obtención de la señal que entraría a nuestro oído interno a partir de una señal de entrada y la función de transferencia HRTF, implementando la operación matemática de la convolución para cada oído y en cada punto del espacio que se desea recrear. Para lograr una percepción tridimensional del sonido aplicando técnicas de procesamiento digital de señales, es necesaria una base de datos de HRIR para cada oído y para diferentes posiciones que cubran un espacio tridimensional, y aplicar la transformada de Fourier a la señal de entrada y a las HRIRs binaurales para que el proceso de convolución se convierta en un simple proceso de multiplicación. El primer prototipo debe cumplir con las siguientes funciones:

• Seleccionar y cargar base de datos de HRIRs. • Cargar una señal de entrada .wav. • Aplicar transformada Fourier señal de entrada • Aplicar transformada Fourier a las HRIRs binaurales. • Obtener la señal de salida de cada oído, multiplicando la señal de

entrada por su respectiva función de transferencia HRTF. • Aplicar transformada inversa de Fourier pasando las señales de salida al

dominio del tiempo, formando una señal binaural representativa a un punto específico en el espacio.

• Reproducir señal binaural. • Grabar la señal binaural en formato .wav.

4.1.1.1 Base de Datos HRTF. Para lograr un sistema virtual de sonido en tres dimensiones es necesario tener una base de datos de funciones de transferencia relacionadas con la cabeza (HRTF) para diferentes puntos y para cada oído. Existen diferentes métodos para obtener funciones de transferencia relacionadas con la cabeza, estas pueden ser medidas, simuladas o calculadas. En este trabajo se utilizarán HRTF medidas, se busca que las funciones de transferencia representen únicamente el sistema formado por la antropometría y no por los efectos del ambiente de medición. En términos generales lo que busca es multiplicar el espectro de una señal de entrada por el espectro producido por el sistema constituido por el oído externo, cabeza y torso. Es posible obtener la HRTF de un individuo o una cabeza binaural, reproduciendo una señal analítica en una posición deseada (por lo menos un metro de distancia) y midiendo la respuesta al impulso (HRIR) con un micrófono posicionado en la entrada del canal auditivo. Debido a que el canal auditivo estará presente al momento de la reproducción con audífonos, es necesario remover los efectos de resonancia de este al momento de la medición para que

Page 46: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

46

no exista doble resonancia en el instante que la señal sea reproducida, para esto se bloquea los canales auditivos del sujeto. En la siguiente ilustración se muestra la manera como son normalmente son capturadas, recopiladas y recuperadas las HRTFs en sistemas de espacialización sonora virtual.

Ilustración 27 Sistema de medición almacenamiento y recuperación de HRTF42 En general los siguientes son los pasos necesarios para obtener una base de datos HRTF idónea.

1. Generar señal analítica. 2. Medir en un ambiente con mínima influencia de la energía reflejada

dentro del recinto (anecóico).

3. Definir el número de posiciones a medir y las coordenadas, entre mayor sea el número de posiciones se obtendrá una mejor resolución espacial y más suave será la transición entre posiciones adyacentes. Pero esto hace que el proceso lleve más tiempo.

4. Guardar digitalmente la señal capturada por los micrófonos.

5. Compensar los datos para campo libre, corrigiendo la no linealidad del

equipamiento implementado. Coordenadas. Un sistema de coordenadas es necesario para especificar la localización de una fuente sonora relativa al oyente. Una opción es el sistema de coordenadas rectangulares centrada en la cabeza, descrita en la ilustración # 6. Donde el plano horizontal define la separación arriba/abajo, el plano frontal define la separación delante/detrás y el plano medio la separación derecha/izquierda.

42 Begault.D.R. 3D sound for virtual reality and multimedia.

Page 47: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

47

Al ser la cabeza un objeto esférico, un sistema de coordenadas esféricas es utilizado usualmente, donde las coordenadas estándar son elevación, azimut y distancia. Al momento de la medición de las HRIR es práctico la implementación de un arreglo de parlantes centrados en la cabeza del sujeto a medir. Existen dos tipos de coordenadas al momento de medir y almacenar los datos: El sistema de coordenadas polares verticales, uno de los más usados, y el sistema de coordenadas polares interaurales.

Ilustración 28 Sistemas de coordenadas polares43

4.1.1.2 Base de datos de IRCAM. El instituto francés IRCAM midió dentro de su cámara anecoica de 324 m3, una serie de HRIRs en 187 posiciones de fuente sonora de 51 sujetos. La configuración consiste en 10 ángulos de elevación, que van desde -45º a +90º en resolución vertical de 15º con pasos horizontales que van de 24 a 1 en 90º de elevación, en coordenadas interaurales, como se muestra en la tabla 2.

Fue utilizado un TANNOY 600 como transductor de salida, al cual se midió su repuesta al impulso con un micrófono B&K omnidireccional tipo 4149 con un amplificador B&K 2801, usando un barrido logarítmico como señal de prueba, ubicando la capsula del micrófono tan cerca como fuera posible al centro de la cabeza del sujeto. Las HRIRs fueron medidas con los canales auditivos del sujeto bloqueados evitando la resonancia del canal en la grabación, usando un par de micrófonos miniatura Knowles FG3329 de 2.54mm de diámetro con un preamplificador que aseguraba 40dB de ganancia. La medición fue controlada

43 Richard O.Duda. 3-D Audio for HCI. Department of Electrical Engineering San Jose State University

Page 48: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

48

mediante un software en tiempo real para Max/MSP que permite la deconvolución sincronizada de la señal capturada por el micrófono, la señal de medición fue un barrido logarítmico de 8192 puntos a 44100Hz.

Elevación

Incrementos

en acimut

Puntos por

elevación

-45 15 24

-30 15 24

-15 15 24

0 15 24

15 15 24

30 15 24

45 15 24

60 30 12

75 60 6

90 360 1 Tabla 2 Puntos de medición de la base de datos de IRCAM 4.1.1.3 Base de datos de CIPIC. CIPIC HRTF DATABASE es una base de datos de dominio público de alta resolución espacial, incluye HRIRs para 45 sujetos en 25 direcciones de azimut y 50 de elevación (1250 direcciones) con aproximadamente 5º de incremento angular. Además de incluir las mediciones antropométricas de cada sujeto y un programa desarrollado en Matlab para la visualización de los datos. Las mediciones se realizaron en 43 personas entre estudiantes y visitantes, y la cabeza binaural Kemar con pabellón auditivo largo y corto. Las HRTF fueron medidas con los sujetos sentados en el centro de arreglo de parlantes a 1m de distancia. En el arreglo se utilizaron como transductores los Bose Acoustimass con 5.8cm de diámetro de cono. Un sistema Snapshot modificado generaba una señal Golay que era capturada por los micrófonos ER-7C probe, con los canales auditivos del sujeto bloqueados. La salida de estos micrófonos fue digitalizada a 44100Hz y 16-bit de resolución y procesada por la función oneshot del Snapshot formando el arreglo de HRIR de 25x50 direcciones. Se aplicó una ventana Hanning a las mediciones para remover las reflexiones del recinto y el resultado fue compensado para campo libre, corrigiendo las características espectrales de los transductores. La longitud final de cada HRIR corresponde a 200 muestras, o sea una duración de 4.5ms. 4.1.1.3 Selección de la base de datos. La mayoría de sistemas de audio espacial basados en la HRTF utilizan una base de datos estándar, normalmente proveniente de mediciones de la cabeza binaural KEMAR, Sin embargo es conocido que las HRTFs varían significativamente de persona a persona debido a las características antropométricas y el implementar HRTFs

Page 49: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

49

no individualizadas puede causar errores de localización en el plano frontal y vertical. Las dos bases de datos analizadas cumplen con las condiciones adecuadas de medición y el respaldo de dos grandes instituciones, garantizando que las HRTFs representan el sistema formado por el pabellón auditivo, torso y cabeza. Estas dos bases de datos incluyen mediciones de más de un sujeto ofreciendo la posibilidad de encontrar una configuración que mejor se acomode a las características físicas del usuario. Aunque la base de datos de IRCAM comprenda mayor número de sujetos, la base de datos de CIPIC ofrece mayor información sobre sus características antropométricas, brindando la posibilidad de un estudio profundo sobre las diferencias individuales de las HRTFs y posibilita el diseño de un sistema donde el usuario elija un set de HRTFs de mayor proximidad según sus características físicas. Otra razón por la cual se decidió trabajar con la base de datos de CIPIC es su amplia resolución espacial, esta comprende 1250 puntos a comparación de los 187 de la base de datos de IRCAM. Para suavizar los cambios entre coordenadas adyacentes es necesario implementar el proceso de interpolación en el dominio de la frecuencia y respetando las diferencias interaurales de nivel, al tener una mejor resolución espacial en la base de datos se simplifica el proceso de interpolación y los movimientos de la señal espacializada serán percibidos con mayor naturalidad.

4.1.2 Diseño

Ilustración 29 Flujo de la señal del prototipo 1 en simulaciones de fuente sonora virtual de un punto fijo. 4.1.2.1 Procesos Interfaz Principal

Nombre Cargar HRIR de la base de datos Número 1 Descripción Carga al programa las HRIR del sujeto elegido Cuando se ejecuta Al cargar el programa Entradas Nombre y Posición del Sujeto

Salidas Matriz de HRIRs por cada oído Requisitos Requiere que la carpeta que contiene la base de datos

con las HRIRs esté en el mismo path que el programa

Page 50: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

50

Observaciones Matriz de 25x50x200. 25 posiciones de azimut, 50 de elevación y 200 muestras a 44100Hz.

Nombre Cargar archivo de audio Número 2 Descripción Carga un archivo de audio en formato .wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

ARCHIVO la opción Cargar .wav Entradas Nombre del archivo Salidas Vector X y frecuencia de muestreo. Requisitos No requiere otro proceso previo Observaciones Nombre Espacialización Punto fijo Número 3 Descripción Ubica la fuente sonora virtual en un único punto Cuando se ejecuta Presionar botón Aplicar Entradas X vector de la señal de audio cargada, frecuencia de

muestreo y las posiciones en azimut, elevación y distancia.

Salidas Matriz estéreo de la señal espacializada, cambio en la gráfica de X

Requisitos Haber cargado una señal de audio, las HRIR y los parámetros de posicionamiento.

Observaciones Habilitar en el GUIDE únicamente las posiciones de entrada de los parámetros de posicionamiento.

Nombre Reproducción Número 4 Descripción Reproducir la señal espacializada Cuando se ejecuta Presionar botón Play Entradas Vectores de la señal espacializada, uno por cada

oído. Salidas reproducción Requisitos Haber realizado el proceso 3 Observaciones

Nombre Guardar Número 5 Descripción Guardar señal espacializada en .wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

ARCHIVO la opción Guardar .wav Entradas Matriz binaural.

Page 51: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

51

Salidas reproducción Requisitos Haber realizado el proceso 3 Observaciones Desbloquear esta opción hasta la ejecución del

proceso 3

4.1.2.2 Diseño interfaz gráfica Interfaz Principal Virtualizer Opening Function

• Declarar variables globales • Graficar imagen de fondo • Determinar valores iniciales • Deshabilitar botón Aplicar

Cargar HRIR

• Tomar el valor de la lista • Cargar matrices de respuestas al impulso HRIRs

Cargar archivo de audio

• Cargar señal de audio • Habilitar el botón de Aplicar

Espacialización Punto fijo

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído.

Reproductor

• Reproducir señal original o binaural

Guardar .WAV

• Guardar señal binaural en formato .wav

4.1.3 Codificación. Matlab es el lenguaje de programación elegido debido a su entorno amigable, la facilidad en la adquisición, la exploración y la visualización de datos, el desarrollo de algoritmos e interfaces graficas. Matlab es la abreviatura de Matrix Laboratory y se especializa en realizar operaciones entre vectores y matrices de manera más eficiente que otros lenguajes de programación como el C o Fortran.

Page 52: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

52

La matriz de las HRIRs para cada oído y cada posición de la base de datos de CIPIC están archivadas en formato MAT-file, para acceder a ellas desde Matlab es necesario cargar la matriz mediante el comando load. Si quisiéramos acceder a la matriz de HRIR del sujeto 003 utilizamos el siguiente comando: load hrir_final_003

Para realizar la simulación de sonido en tres dimensiones es necesario cargar al sistema una señal de entrada, esta señal representa la fuente sonora que se desea especializar. Para realizar este proceso se utiliza el comando uigetfile, que abre una ventana donde se enlistan los archivos y directorios que contienen archivos .wav. Esta función guarda el camino y el nombre del archivo seleccionado para luego ser archivado en un vector x con su correspondiente frecuencia de muestreo fs de la siguiente manera: [file,path]=uigetfile('*.wav','cargar archivo'); [x,fs]=wavread(file); La simulación se realiza por medio del proceso de convolución. Como vimos en el capitulo 2 referente a señales y sistemas, la convolución en el dominio de la frecuencia se convierte en un proceso de multiplicación. Por esta razón es más eficiente implementar una transformada de Fourier a las respuestas al impulso HRIR y a la señal original. La señal original x es dividida en 2 y cada una multiplicada por la correspondiente función de transferencia. El resultado almacenado en una matriz que representa la señal binaural. 44 El algoritmo implementado en el sistema para realizar el proceso de convolución, fue desarrollado por Stephen McGover y es más rápido que la función conv de Matlab.45 Function [y]=fconv(x, h) Ly=length(x)+length(h)-1; % Longitud del vector de salida y Ly2=pow2(nextpow2(Ly)); % Tamaño de la transformada X=fft(x,Ly2); % Transformada rápida de Fourier H=fft(h,Ly2); % Transformada rápida de Fourier Y=X.*H; % Multiplicación entre espectros y=real(ifft(Y, Ly2)); % Transformada inversa rápida de Fourier y=y(1:1:Ly); % Toma solo los primeros N elementos Tenemos ahora dos vectores que representan la señal de salida para cada oído, archivamos estos vectores en un matriz de Ly filas por dos columnas, y reproducimos la señal utilizando el comando sound de la siguiente manera: y=[yl yr]; sound(y,fs)

44 Para acceder a un punto específico en la matriz de HRIRs que sea capaz de operarse con nuestra señal de entrada es necesario utilizar la función squeeze que convierta la HRIR de este punto en un vector de 1x200. 45 www.mathworks.com/matlabcentral/fileexchange.

Page 53: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

53

4.1.4 Pruebas. Luego de realizar el proceso de espacialización descrito anteriormente en diferentes puntos y con diferentes señales de audio, como ruido, voz, sonidos impulsivos y sonidos cotidianos, se detecto que la señal de salida saturaba el sistema en amplitud, requiriendo un proceso de normalización, si aplicamos tal proceso a la señal binaural de salida se perderá el efecto de espacialización y la señal será percibida justo al frente de la cabeza del usuario, se recomienda realizar el proceso de normalización en cada proceso respetando las diferencias interaurales de nivel en cada punto del espacio. En un ambiente real no es común la situación en la cual se identifique eficazmente la procedencia de una fuente sonora estática, sin un movimiento de la cabeza que ayude al reconocimiento visual y a minimizar las diferencias interaurales de tiempo y de nivel. La falta de costumbre a este tipo de situaciones puede ser la causa a los errores en la localización sobre el plano frontal y vertical que experimentaron diferentes usuarios del sistema. Los usuarios aseguraron también percibir los sonidos como si proviniesen dentro de la cabeza, no se experimento la sensación de externalización necesaria para lograr una escena auditiva convincente. Ocurrieron problemas también al cargar una señal de entrada estéreo, partiendo del hecho de que es más fácil controlar la posición de una fuente sonora virtual cuando esta es igual para cada oído, antes de realizarse el proceso de convolución.

4.2 PROTOTIPO 2

4.2.1 Análisis. Un resultado óptimo del proceso de espacialización virtual en tres dimensiones se logra recreando las pistas que el ser humano utiliza día a día para reconocer naturalmente la procedencia de un sonido. Esto significa permitir que la fuente sonora virtual permanezca constante a la posición relativa de orientación del usuario, utilizando un dispositivo que rastree la posición de cabeza como un Head-tracker, actualizando las coordenadas y realizando la espacialización en tiempo real; Utilizar HRTF individualizadas en vez de genéricas e incluir efectos realísticos del medio como reverberación por convolución, teniendo en cuenta los cambios en las reflexiones tempranas según la posición y representando correctamente el campo difuso reverberante46. Al no contar con DSP de mayor velocidad que permita realizar espacializaciones en tiempo real, se descarta la opción de utilizar un head

46 Lehnert & Blauert. Principals of Binaural Room Simulaton. pp 259-291. Begault, Perceptuals Effects of synthetic Reverberation on three-dimensional audio systems. pp 895-904.

Page 54: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

54

tracker que habilite los movimientos de cabeza como pista para la correcta localización. Pero es posible el diseño de un sistema donde sea posible realizar movimientos de la fuente sonora virtual, dividiendo la señal original en el número de posiciones que existan desde una coordenada inicial a una coordenada final, a cada sección realizarle el proceso de espacialización47 por su respectivo punto en el espacio y sumar estas secciones. La idea de un diseñador de sistemas de sonido en tres dimensiones es de tener control completo y manipulación de la percepción espacial auditiva de alguna persona, no solo se necesitan nociones de ingeniería sino también consideraciones psicoacústicas, estudiadas en el capitulo 2 Marco de Referencia. El modelo fuente-medio-receptor describe la manera natural como escuchamos los sonidos en un entorno, donde cada elemento contiene un número de transformaciones físicas, neurológicas y perceptuales, que alteran la señal que sale de la fuente hasta que es percibida por el sistema auditivo. Las características de la señal de entrada que sea elegida determinaran la percepción de la fuente sonora virtual, una mala captura de este sonido deteriora la sensación de estar en ambiente real. Es importante tener en cuenta que el sistema trabaja con señales monofónicas, si una señal estéreo es introducida al sistema se debe convertir en señal monofónica que se ubique perceptualmente justo al frente de la cabeza. Los sonidos que escuchamos normalmente contienen pistas acerca de los ambientes, esto sería posible aplicándole a la señal los efectos producidos por el entorno o medio como reverberación. Basándose en el principio de los sistemas lineales, es posible conocer la señal de salida luego de que esta pasa por un recinto mediante la respuesta al impulso de este sistema, esta se conoce normalmente con las siglas RIR (Room Impulse Response). La reverberación es parte fundamental de la inmersión experimentada, ofreciendo pistas del entorno y la distancia. Para nuevo sistema se requiere también minimizar la distorsión de la señal de salida sin perder el efecto de espacialización. Esto se logra evitando la saturación de las señales binaurales en cada proceso del sistema, normalizando las señales con respecto al mayor valor existente en cualquiera de las 2 señales (una por cada oído). El segundo prototipo debe cumplir con las siguientes funciones:

• Cargar set de HRIRs. • Cargar una señal de entrada .wav. • Cargar la Respuesta al impulso de un recinto. • Realizar la convolución entre la señal de entrada y la respuesta al

impulso del recinto.

47 Se refiere al proceso de espacialización, la convolución entre la respuesta al impulso HRIR de cada oído y la señal de entrada.

Page 55: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

55

• Obtener la señal de salida binaural, multiplicando la señal de entrada con reverberación por su respectiva función de transferencia HRTF.

• Realizar movimientos de la señal, escogiendo las coordenadas iníciales y finales.

• Normalizar la señal de entrada, las HRIRs y la señal binaural de salida. • Reproducir señal binaural. • Grabar la señal binaural en formato .wav.

4.2.2 Diseño

Ilustración 30 Flujo de la señal del prototipo 3, en simulaciones con movimientos de fuente sonora virtual.

Ilustración 31 Flujo de la señal del prototipo 2, en simulaciones de fuente sonoras virtuales de un punto fijo.

Page 56: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

56

4.2.2.1 Procesos Interfaz Principal

Nombre Cargar HRIRs Número 1 Descripción Carga al programa las HRIR del sujeto elegido Cuando se ejecuta Al cargar el programa Entradas Nombre y Posición del Sujeto

Salidas Matrices de HRIRs por cada oído Requisitos Requiere que la carpeta que contiene la base de datos

con las HRIRs esté en el mismo path que el programa Observaciones Matriz de 25x50x200. 25 posiciones de azimut, 50 de

elevación y 200 muestras a 44100Hz.

Nombre Normalizar HRIRs Número 2 Descripción Dejar el valor máximo de las HRIRs binaurales en 1 y

conservando las proporciones en el resto de valores. Cuando se ejecuta Luego de cargar las HRIRs Entradas Matrices de HRIRs binaurales

Salidas Matrices de HRIRs binaurales normalizadas Requisitos El proceso 1 Observaciones

Nombre Cargar archivo de audio Número 3 Descripción Carga un archivo de audio en formato .wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

ARCHIVO la opción Cargar fuente.wav Entradas Nombre del archivo Salidas Vector X y frecuencia de muestreo. Requisitos No requiere otro proceso previo Observaciones Nombre Normalizar archivo de audio Número 4 Descripción Dejar el valor máximo de la señal de entrada en 1 y

conservando las proporciones en el resto de valores. Cuando se ejecuta Luego de cargar la señal de audio

Page 57: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

57

Entradas Vector de la señal de audio

Salidas Vector de la señal de audio normalizado Requisitos El proceso 3 Observaciones Si la señal de audio es estereofónica, por medio de

este proceso es posible convertirla en señal monofónica.

Nombre Cargar RIR Número 5 Descripción Carga respuesta al impulso de un recinto en formato

.wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

ARCHIVO la opción Cargar RIR.wav Entradas Nombre del archivo. Salidas Vector IR y frecuencia de muestreo. Requisitos No requiere otro proceso previo. Observaciones Nombre Normalizar RIR Número 6 Descripción Dejar el valor máximo de la RIR en 1 y conservar las

proporciones en el resto de valores. Cuando se ejecuta Luego de cargar la RIR Entradas Vector RIR

Salidas Vector RIR normalizado Requisitos El proceso 5 Observaciones Nombre Reverberación Número 7 Descripción Aplica efectos del ambiente a la señal de entrada Cuando se ejecuta Presionar botón Aplicar reverb Entradas Vector X de la señal de audio cargada, la RIR Salidas Vector de la señal con reverberación Requisitos Procesos 2 y 3 Observaciones Nombre Tipo de Espacialización Número 8 Descripción Define el tipo de proceso que se utilizara para

especializar la señal de audio. Cuando se ejecuta Cuando el usuario selecciona una de las opciones

Page 58: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

58

Entradas Un tipo de espacialización. Salidas Tipo de proceso a realizar Requisitos Haber cargado una señal de audio y las HRIR Observaciones Por defecto empieza en Punto Fijo Nombre Espacialización Punto fijo Número 9 Descripción Ubica la fuente sonora virtual en un único punto Cuando se ejecuta Presionar botón Aplicar Entradas X vector de la señal de audio cargada, frecuencia de

muestreo y las posiciones en azimut, elevación y distancia.

Salidas Matriz estéreo de la señal jspecializada, cambio en la gráfica de X

Requisitos Haber cargado una señal de audio, las HRIRs y los parámetros de posicionamiento.

Observaciones Habilitar en el GUIDE únicamente las posiciones de entrada de los parámetros de posicionamiento.

Nombre Espacialización Barrido Horizontal Número 10 Descripción Desplaza la fuente sonora a través del plano

horizontal con un grado de elevación constante. Cuando se ejecuta Presionar botón Aplicar. Entradas X vector de la señal de audio cargada, frecuencia de

muestreo, posición inicial y final en azimut y distancia, únicamente inicial en elevación.

Salidas Matriz estéreo de la señal jspecializada, cambio en la grafica de X

Requisitos Haber cargado una señal de audio, las HRIRs y los parámetros de posicionamiento.

Observaciones Deshabilitar la posición final en elevación. Nombre Espacialización Barrido Vertical Número 10 Descripción Desplaza la fuente sonora a través del plano vertical

con un grado de elevación constante Cuando se ejecuta Presionar botón Aplicar. Entradas X vector de la señal de audio cargada, frecuencia de

muestreo, posición inicial y final en elevación y distancia, únicamente inicial en azimut.

Salidas Matriz estéreo de la señal jspecializada, cambio en la grafica de X

Requisitos Haber cargado una señal de audio, las HRIRs y los

Page 59: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

59

parámetros de posicionamiento. Observaciones Deshabilitar la posición final en azimut. Nombre Reproducción Número 11 Descripción Reproducir la señal jspecializada Cuando se ejecuta Presionar botón Play Entradas Vectores de la señal jspecializada, uno por cada

oído. Salidas reproducción Requisitos Haber realizado el proceso 3 Observaciones Nombre Guardar Número 12 Descripción Guardar señal jspecializada en .wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

ARCHIVO la opción Guardar .wav Entradas Matriz binaural. Salidas reproducción Requisitos Haber realizado el proceso 3 Observaciones Desbloquear esta opción hasta la ejecución del

proceso 3

4.2.2.2 Diseño interfaz grafica Interfaz Principal Virtualizer Opening Function

• Declarar variables globales • Graficar imagen de fondo • Determinar valores iniciales • Deshabilitar botón Aplicar

Cargar HRIR

• Tomar el valor de la lista • Cargar matriz de respuestas al impulso HRIR • Normalizar las repuestas al impulso binaurales

Cargar archivo de audio

• Cargar señal de audio

Page 60: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

60

• Normalizar la señal • Convertir a señal monofónica • Habilitar el botón de Aplicar espacialización

Cargar RIR

• Cargar respuesta al impulso • Normalizar la señal • Convertir a señal monofónica • Habilitar el botón de Aplicar reverb

Reverberación

• Calcular la convolución entre la señal de entrada y la respuesta al impulso de recinto.

• Normalizar la señal resultante

Tipo de Espacialización

• Tomar el valor del menú • Habilitar sliders de coordenadas finales según el tipo de espacialización

Punto fijo

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído. • Normalizar en estéreo la señal resultante

Barrido horizontal

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído. • Normalizar en estéreo la señal resultante

Barrido vertical

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído. • Normalizar en estéreo la señal resultante

Aplicar

• Tomar el valor de las coordenadas • Realizar especialización según su tipo

Reproductor

Page 61: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

61

• Reproducir señal original o binaural

Guardar .WAV

• Guardar señal binaural en formato .wav

4.2.3 Codificación. En el proceso de codificación se utilizan en su mayoría, las mismas funciones del prototipo anterior y se incluyen las nuevas especificaciones descritas en el apartado anterior, para mayor entendimiento de la codificación implementada esta puede ser revisada en el Anexo 3.

Se busca durante todo el proceso que la señal tenga la mínima distorsión posible, por esta razón se utiliza el proceso de normalización en el momento de cargar la señal de audio, cargar las HRIR y después del proceso de convolución, teniendo especial cuidado para no variar las diferencias interaurales de nivel que logran el efecto binaural. Los algoritmos empleados para realizar los diferentes procesos de normalización están basados en esta función: x=x/max(abs(x)); El proceso de mayor relevancia incluido en este prototipo es el movimiento de fuentes virtuales, para lograr el efecto de movimiento se divide la señal original en el número de posiciones deseadas y a cada uno de estos fragmentos se le aplica el proceso de convolución con las HRIRs de la dirección deseada. El resultado de cada espacialización es almacenado en un nuevo vector que contendrá la sumatoria de cada fragmento espacializado en una dirección especifica, como lo muestra la siguiente ilustración:

Ilustración 32 Suma de secciones individualmente espacializadas, donde N representa el número de muestras de cada sección de x y M las muestras de la respuesta al impulso h.

Page 62: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

62

4.2.4 Pruebas. Cuando el proceso de normalización es aplicado a las salidas de los diferentes procesos, respetando las diferencias interaurales de tiempo y nivel, se asegura una señal de salida binaural sin distorsión. Además de que al ser implementado en la señal de entrada se asegura que esta sea monofónica y su posición aparente sea justo al frente de la cabeza. Emplear reverberación por convolución mejora la naturalidad y la externalización del sonido procesado, pero al trabajar con el procesador interno del computador, como es el caso de este trabajo, se torna poco práctico implementar la reverberación en sistemas auditivos virtuales en tres dimensiones, debido a que el tamaño del vector de la respuesta a impulso del recinto es mayor que una respuesta al impulso HRIR incrementando el tiempo que le toma al dispositivo realizar la operación, por lo que se recomienda trabajar con DSP externo que acelere este proceso y en cual sea posible trabajar en tiempo real. Luego de desarrollar el algoritmo que crea el efecto de movimiento de la fuente y probarlo con diferentes tipos de señales se noto un problema de discontinuidad que dependía del ancho de banda de la señal cargada al sistema. Esto debido al proceso de unión de las convoluciones individuales por cada posición. Señales de corto ancho de banda, como el sonido de las tijeras o de unos fósforos en movimiento, no presentaban este problema de ruido (clic). Mientras que señales de mayor ancho de banda, como el de la voz o ruido, era notable y molesto. Trabajar con el prototipo 2 para la creación de escenas auditivas virtuales, toma demasiado tiempo y requiere una solución para el ruido que se forma al aplicar el algoritmo de movimiento de fuente. Se recomienda el diseño de un nuevo prototipo que consuma menos tiempo en operación y elimine el ruido generado mejorando la calidad del sonido presentado.

4.3 PROTOTIPO 3

4.3.1 Análisis. El principal desafío en este prototipo esta en eliminar el clic generado al aplicar el algoritmo que logra el efecto de movimiento en la fuente sonora virtual. Al estudiar la señal de salida se puede dar cuenta la influencia entre el número de posiciones usadas, la periodicidad y el nivel de los clics. Si analizamos la base teórica implementada (ilustración 32), observamos que el tamaño de cada una de las secciones espacializadas, será la suma de las muestras de la señal original x y las muestras de la respuesta al impulso HRIR menos uno. El vector final será la longitud de x mas N veces M-1, donde N es el numero de posiciones y M la longitud de la respuesta al impulso HRIR. El método de adición implementado crea una discontinuidad en la señal final que es percibida como un sonido clic en sonidos con amplio ancho de banda.

Poco se ha trabajado sobre la causa y los parámetros de esta discontinuidad, pero se considera que las diferencias en amplitud y fase de las HRTFs antes y

Page 63: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

63

después del cambio de posición, tienen gran influencia en la generación de este ruido, al utilizar una base de datos con mejor resolución espacial se minimizan estas diferencias y el ruido se reduce. Sin embargo no existe claridad en cuanto a cómo debería ser la resolución espacial de una base de datos para evitar la discontinuidad48. La base de datos de la CIPIC tiene una alta resolución espacial, antes de probar con el proceso de interpolación, se puede probar el método Overlap-add, este minimiza el efecto de la discontinuidad y se basa en la técnica fundamental de DSP, donde primero se descompone la señal en componentes simples, luego cada componente es procesado de manera independiente y finalmente estos componentes ya procesados son recombinados en la señal final49. Es poco práctico implementar algoritmos de reverberación por convolución al sistema espacializador si trabajar con el procesador del computador, este proceso es descartado en el prototipo 3. Aunque se recomienda aplicar reverberación a la señal que se carga al sistema, siguiendo el modelo fuente-medio-receptor, para mejorar la externalización y la sensación de estar en lugar real. Una manera de mejorar la externalización de fuentes sonoras virtuales es utilizar HRTF individualizadas, para obtener las HRTFs de una persona es necesario el proceso descrito en el apartado 4.1.1.1. La base de datos de CIPIC ofrece las HRTFs de 45 sujetos y sus medidas antropométricas, haciendo posible que el usuario del sistema encuentre un sujeto con gran similitud antropométrica aumentando la experiencia virtual. Para este prototipo se incluirá una interfaz gráfica por medio de la cual, el usuario luego de medir e ingresar los datos al sistema, pueda cargar el set de HRIRs del sujeto en la base de datos de mayor proximidad antropométrica. Uno de los objetivos planteados es modificar la percepción de la distancia de una fuente sonora virtual, como vimos en el capitulo 2.2.1 existen ciertas pistas para reconocer la distancia de una fuente sonora: la intensidad, la relación entre sonido directo y reverberante y los cambios en el espectro de la señal debido a la absorción del aire. Para el caso de este proyecto donde no se realizará el proceso de reverberación y donde los cambios espectrales debido a la absorción del aire son significativos para largas distancias, se tomara la intensidad de la señal como única pista para la simulación de la distancia de la fuente virtual sonora. El tercer prototipo debe cumplir con las siguientes funciones:

• Seleccionar las funciones de transferencia (HRTF) según características antropométricas del usuario.

• Cargar archivo de audio que represente la fuente sonora virtual. • Modificar distancia, azimut y elevación de la fuente sonora virtual.

48Otani, Makoto y Hirahara Tatsuya. A dynamic virtual auditory display: it´s design, performance, and problems in HRTF switching. 49 Smith, Steven W. The Scientist and Engineer's Guide to Digital Signal Processing. Cap 18 FFT Convolution.

Page 64: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

64

• Realizar movimientos de la señal, escogiendo las coordenadas iniciales y finales.

• Reproducir, parar y pausar la señal original y espacializada. • Exportar el archivo de audio virtual en formato .wav.

4.3.2 Diseño

Ilustración 33 Flujo de la señal del prototipo 3, en simulaciones con fuente sonora virtual en un punto fijo.

Ilustración 34 Flujo de la señal del prototipo 3, en simulaciones con movimientos de fuente sonora virtual

Page 65: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

65

4.3.2.1 Procesos Interfaz 1 Antropometría

Nombre Cargar Programa Número 1 Descripción Carga el programa de antropometría Cuando se ejecuta Cuando el usuario selecciona dentro del menú, de la

interfaz principal Antropometría la opción Selección Sujeto.

Entradas Nombre del programa Salidas GUIDE del programa Requisitos No requiere otro proceso previo Observaciones Etapa de adquisición de datos Nombre Adquirir Número 2 Descripción Adquiere la información de las medidas del usuario, Cuando se ejecuta Cuando el usuario ingresa los datos en las casillas Entradas Medidas antropométricas del usuario de pabellón

auditivo Salidas Vector con medidas Requisitos Medir físicamente al sujeto Observaciones Etapa adquisición de datos Nombre Selección Sujeto Número 3 Descripción Determina el índice de semejanza de todos los

sujetos de la base de datos para encontrar el de mayor parecido al usuario, en términos antropométricos.

Cuando se ejecuta Cuando el usuario presiona el botón Buscar Entradas Matriz de las mediciones antropométricas de los

sujetos de la base de datos y el usuario Salidas Nombre y posición del Sujeto, índice de semejanza Requisitos Proceso #2 Observaciones Entre más cercano sea el índice de semejanza mayor

será el parecido antropométrico entre el sujeto y el usuario

Interfaz Principal

Nombre Cargar HRIR de la base de datos Número 4

Page 66: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

66

Descripción Carga al programa las HRIR del sujeto elegido Cuando se ejecuta Cuando se halla seleccionado el sujeto Entradas Nombre y Posición del Sujeto

Salidas Matriz de HRIR por cada oído Requisitos Requiere que la carpeta que contiene la base de datos

con las HRIR esté en el mismo path que el programa Observaciones Matriz de 25x50x200. 25 posiciones de azimut, 50 de

elevación y 200 muestras a 44100Hz.

Nombre Cargar archivo de audio Número 5 Descripción Carga un archivo de audio en formato .wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

ARCHIVO la opción Cargar .wav Entradas Nombre del archivo Salidas Vector X y frecuencia de muestreo. Requisitos No requiere otro proceso previo Observaciones Grafica en función del tiempo. Nombre Tipo de Espacialización Número 6 Descripción Define el tipo de proceso que se utilizara para

especializar la señal de audio. Cuando se ejecuta Cuando el usuario selecciona una de las opciones Entradas Un tipo de espacialización. Salidas Tipo de proceso a realizar Requisitos Haber cargado una señal de audio y las HRIR Observaciones Por defecto empieza en Punto Fijo Nombre Espacialización Punto fijo Número 7 Descripción Ubica la fuente sonora virtual en un único punto Cuando se ejecuta Presionar botón Aplicar Entradas X vector de la señal de audio cargada, frecuencia de

muestreo y las posiciones en azimut, elevación y distancia.

Salidas Matriz estéreo de la señal espacializada, cambio en la gráfica de X

Requisitos Haber cargado una señal de audio, las HRIR y los parámetros de posicionamiento.

Observaciones Habilitar en el GUIDE únicamente las posiciones de entrada de los parámetros de posicionamiento.

Page 67: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

67

Nombre Espacialización Barrido Horizontal Número 8 Descripción Desplaza la fuente sonora a través del plano

horizontal con un grado de elevación constante. Cuando se ejecuta Presionar botón Aplicar. Entradas X vector de la señal de audio cargada, frecuencia de

muestreo, posición inicial y final en azimut y distancia, únicamente inicial en elevación.

Salidas Matriz estéreo de la señal espacializada, cambio en la grafica de X

Requisitos Haber cargado una señal de audio, las huir y los parámetros de posicionamiento.

Observaciones Deshabilitar la posición final en elevación. Nombre Espacialización Barrido Vertical Número 9 Descripción Desplaza la fuente sonora a través del plano vertical

con un grado de elevación constante Cuando se ejecuta Presionar botón Aplicar. Entradas X vector de la señal de audio cargada, frecuencia de

muestreo, posición inicial y final en elevación y distancia, únicamente inicial en azimut.

Salidas Matriz estéreo de la señal espacializada, cambio en la grafica de X

Requisitos Haber cargado una señal de audio, las huir y los parámetros de posicionamiento.

Observaciones Deshabilitar la posición final en azimut. Nombre Audio player. Número 10 Descripción Controla la reproducción del archivo de audio Cuando se ejecuta Cuando el usuario selecciona alguno de los botones

del player. Entradas Señal de audio original o espacializada. Salidas Reproducción, pausa y stop de la señal. Requisitos Cargar archivo de audio Observaciones Si no se ha realizado ningún proceso a la señal la

reproducción será de la señal monofónica original.

Nombre Guardar Número 11 Descripción Guardar señal espacializada en .wav Cuando se ejecuta Cuando el usuario selecciona dentro del menú

Page 68: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

68

ARCHIVO la opción Guardar .wav Entradas Matriz binaural. Salidas reproducción Requisitos Haber realizado el proceso 3 Observaciones Desbloquear esta opción hasta la ejecución del

proceso 3 4.3.2.2 Diseño interfaz gráfica Interfaz Antropometría Opening Function

• Declarar variables globales • Graficar imagen de referencia

Buscar

• Tomar el valor de las casillas d • Calcular el índice de semejanza • Publicar el sujeto según el tipo de semejanza • Publicar el índice según el tipo de semejanza

Tipo de semejanza

• Determinar el tipo de semejanza (mayor o menor)

Interfaz Principal Virtualizer Opening Function

• Declarar variables globales • Graficar imagen de fondo • Determinar valores iniciales • Deshabilitar botón Aplicar

Cargar HRIR

• Tomar el valor de la lista • Cargar matriz de respuestas al impulso HRIR • Normalizar las repuestas al impulso binaurales

Cargar archivo de audio

• Cargar señal de audio • Normalizar la señal • Convertir a señal monofónica

Page 69: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

69

• Habilitar el botón de Aplicar

Tipo de Espacialización

• Tomar el valor del menú • Habilitar sliders de coordenadas finales según el tipo de espacialización

Punto fijo

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído. • Normalizar en estéreo la señal resultante • Aplicar algoritmo de distancia

Barrido horizontal

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído. • Aplicar método overlap-add estéreo • Normalizar en estéreo la señal resultante • Aplicar algoritmo de barrido de distancia

Barrido vertical

• Tomar el valor de las coordenadas • Calcular la convolución de las señales por cada oído. • Aplicar método overlap-add estéreo • Normalizar en estéreo la señal resultante • Aplicar algoritmo de barrido de distancia

Aplicar

• Tomar el valor de las coordenadas • Realizar especialización según su tipo

Reproductor

• Reproducir señal original o binaural • Parar señal original o binaural • Pausar señal original o binaural

Guardar .WAV

• Guardar señal binaural en formato .wav

Page 70: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

70

4.3.3 Codificación. El programa de antropometría se encarga de encontrar en la base de datos el sujeto con mayor o menor índice de semejanza con respecto a las medidas antropométricas del pabellón auditivo del usuario introducidas al sistema. Este índice de semejanza es el promedio del valor absoluto de la diferencia entre las medidas del usuario y el sujeto en la base de datos, entre menor sea el índice de semejanza mayor será el parecido antropométrico. Las funciones implementadas para cargar las HRIRs y la señal de audio, realizar el proceso de convolución, normalización y movimiento de fuentes sonoras virtuales, se encuentran descritas en los apartados anteriores 4.1.3 y 4.2.3. En este prototipo se usa el método overlap-add para disminuir el de ruido creado por las discontinuidades al variar la posición de la fuente virtual, este método consiste en sumar las últimas M-1 muestras del primer proceso con las M-1 primeras muestras del segundo proceso y así consecutivamente hasta que la señal resultante y será de la misma longitud que la señal de entrada x.

Ilustración 35 Método de Overlap-add donde N representa el número de muestras de cada sección de x y M las muestras de la respuesta al impulso h. La señal binaural resultante del proceso de overlap-add es normalizada y procesada por un algoritmo que la hará variar perceptualmente con respecto a la distancia. Se optó por un método basado en la ley del inverso cuadrado, variando la intensidad de la fuente con respecto a su posición relativa al punto egocéntrico dentro de la cabeza50. La siguiente ecuación fue utilizada en el momento de la codificación para representar la pérdida de intensidad al variar la distancia relativa de la fuente: Ir = 20*Log10 (1/d) Donde:

50 Virtualizer ofrece la posibilidad de realizar movimientos de la fuente con respecto a la distancia, dividiendo la señal binaural en secciones de a centímetro y a cada una modificada según su correspondiente intensidad relativa.

Page 71: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

71

Ir= Intensidad relativa en dBfs. d= distancia en m.

Ilustración 36 Intensidad relativa en dBfs vs. Incrementos en la distancia. 51 function [y_d,v_amp_db]=distancia_rel(y,dist) % Esta función modifica la amplitud de la señal % binaural "y" dependiendo de la distancia en metros % siendo 1 metro el máximo valor de amplitud % devuelve el valor en decibeles full scale v_amp=1/dist; v_amp_db=round(20*log10(v_amp)); y_d=zeros(length(y),2); y_d(:,1)=y(:,1).*v_amp; y_d(:,2)=y(:,2).*v_amp;

4.3.4 Pruebas. La implementación del método overlap-add mejoro la calidad del sonido presentado, disminuyendo los efectos de la discontinuidad al cambiar de posición, en movimientos verticales el clic se volvió imperceptible en señales de amplio ancho de banda. Sin embargo, en movimientos horizontales se seguía presentando este problema pero en menor magnitud. Los puntos de azimut elegidos por CIPIC para registrar las HRIRs binaurales están distribuidos según el vector az=[-80 -65 -55 -45:5:45 55 65 80] , con una separación angular entre coordenadas adyacentes de 5º a 15º, esta alta separación podría ser la responsable de la persistencia en la discontinuidad para movimientos sobre el plano horizontal. Al analizar las HRTFs en coordenadas adyacentes de la base de datos CIPIC, como se muestra en las ilustraciones 37 y 38, se ve que las diferencias son alrededor de los 2dB para puntos con 5º de separación angular y de 7dB en separaciones de 15º. Si comparamos la distribución sobre el plano horizontal con la asignada a los

51 Begault. 3-D sound for virtual reality and multimedia. Fig 4.43.

Page 72: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

72

puntos de elevación, conforme la función el= -45 + 5.625*(0:49), se puede notar una mejor resolución espacial sobre el plano vertical que sumado a la implementación del método overlap add aseguran un movimiento de fuente sonora virtual sin la percepción de clics. Por lo que se recomienda aumentar la resolución espacial del sistema ya sea mediante la medición de puntos intermedios entre coordenadas adyacentes o implementando métodos de interpolación lineal.

Ilustración 37 Comparación entre HRTF de coordenadas con 5º de diferencia.

Ilustración 38 Comparación entre HRTF de coordenadas con 15º de diferencia. Otro problema encontrado al momento de realizar las pruebas fue la poca diferenciación entre los sonidos que virtualmente se hallaban adelante y atrás del usuario. Se intento aumentar, por medio de técnicas de ecualización, las

Page 73: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

73

bandas más sensibles según la posición pero esto ayudo poco a la localización, restándole claridad y naturalidad a la fuente sonora virtual. Con el prototipo 3 es posible seleccionar diferentes sets de HRIRs que conduzcan a un estudio más profundo sobre la dependencia de utilizar HRTFs individualizadas y una correcta localización. Además ofrece la posibilidad de simular diferentes posiciones de una fuente sonora virtual en un espacio tridimensional, realizar movimiento de la fuente sobre los diferentes planos, reproducir y guardar la señal espacializada. Facilitando la creación de escenas auditivas virtuales en 3d.

Page 74: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

74

5. ANALISIS DE RESULTADOS

La percepción del sonido requiere tareas cognitivas complejas, en las cuales la información transmitida por medio de las señales acústicas es analizada, almacenada, recobrada, comparada entre sí e interpretada. El procesamiento de información por parte del cerebro, en términos de contenido, lógica y organización. Es la base del estudio de la conducta inteligente del hombre, pero existen factores somáticos que motivan la adquisición, el procesamiento y el almacenamiento de la información, y de las emociones. Esto último es lo que diferencia a la función cerebral de la computación neural. Los computadores no se preocupan por la supervivencia. Desde que los organismos superiores tuvieron que contar más y más con la información adquirida a lo largo de su vida y almacenarla en el cerebro, fue surgiendo la necesidad de una memoria adecuadamente protegida y de rápido acceso. Esto llevó a una memoria distribuida y al modo de representación holológico, en lugar de una codificación fotográfica de escenas ambientales donde exista correspondencia punto a punto entre los rasgos del estimulo (objeto) y los rasgos de la distribución de la actividad neural (imagen); la información del objeto o estimulo es mapeada sobre el dominio entero de la imagen. Consecuencia natural de este almacenamiento es el proceso asociativo. En todos los actos perceptivos conscientes, en última instancia es alguna motivación la que impulsa a la cognición, esta conduce a un estado afectivo, el que a su vez impulsa o refuerza la atención perceptiva.52

5.1 Valoración Subjetiva

Para determinar la efectividad del sistema Virtualizer se elaboró un estudio subjetivo con el fin de determinar la influencia de usar HRTF casi individualizadas en la naturalidad del sonido percibido y la localización sonora, los errores en localización en el plano horizontal con fuentes sonoras estáticas, los errores en la localización sonora en el plano medio y horizontal con fuentes

52 Roeder. Juan G. Acústica y Psicoacústica de la música. Cap 5.6 Procesos cerebrales cognitivos y afectivos en la percepción musical.

Page 75: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

75

dinámicas, los errores en localización sonora en puntos clave de los tres planos con fuentes estáticas y la externalización de estímulos con y sin reverberación. La percepción de la distancia no fue tomada en cuenta debido a que estudios anteriores sobre la localización de la distancia en fuentes sonoras virtuales, se alejan de manera considerable a respuestas ideales, como se muestra en los estudios realizados por Begault y Wenzel.

Ilustración 39 Juicios subjetivos en distancia y azimut con estimulo de voz. La primera figura representa una respuesta ideal.53

53 Begault & Wenzel. Headphone Localization of Speech.

Page 76: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

76

5.1.1 Metodología

Ilustración 33: Medición de características antropométricas El estimulo sonoro utilizado para la localización de fuentes sobre el plano horizontal, fue el sonido de la voz de un hombre de 5 segundos de duración, representando una fuente sonora del mundo real. A diferencia de estímulos normalmente utilizados en estudios psicoacústicos de localización sonora, como ruido blanco filtrado o no en bandas54, por medio de la voz humana, el sujeto en estudio puede usar referencias cognitivas para determinar la naturalidad y la posición en el plano horizontal. Además este tipo de sonidos esta presente en diferentes aplicaciones, como lo son la teleconferencia virtual, los video juegos y la comunicación en sistemas de navegación. El nivel de la señal fue ajustado por el usuario identificando la fuente sonora a un metro de distancia y a un nivel normal de voz, utilizando los audífonos Audio Técnica ATH-M40fs con respuesta en frecuencia plana y extendida diseñados para monitoreo profesional en estudio, usados en otros experimentos referentes a la binauralidad55. Para determinar los errores en la localización sonora sobre el plano medio y en los puntos clave de los tres planos y en el movimiento horizontal, se utilizó un estimulo diferente (ruido rosa) para evitar que la relación cognitiva con el sonido 54 Oldfield & Parker. Localization judgments of White Noise, under free field conditions. Wightman & Kistler. Headphone simulation of free-field listening. II Psychophysical validation. Middlebrooks. Narrow-band sound localization related to external ear acoustics. 55 Schärer, Zora & Lindau, Alexander. Evaluation of Equalization Methods for Binaural Signals. Convención AES mayo 2009.

Page 77: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

77

de la voz humana aumentara los errores en la localización en algunos puntos (en situaciones normales las personas no hablan justo encima de nuestra cabeza). La valoración comienza entrenando auditivamente al sujeto para que reconozca las posibles posiciones y los posibles movimientos de la fuente virtual, que se pueden realizar mediante el sistema Virtualizer. Utilizando como estimulo el sonido de la caja de fósforos y las HRTFs del sujeto con mayor proximidad en la base de datos. Se realizan movimientos horizontales y verticales de la fuente virtual y se le pregunta al usuario el punto inicial y final del movimiento. Para determinar la tri-dimensionalidad del dispositivo se proceso la señal para que pareciera estática en los puntos arriba de la cabeza, abajo, justo al frente, justo detrás, completamente a la derecha y completamente a la izquierda y se le pregunto al usuario por la procedencia aparente de la fuente sonora. Luego de este entrenamiento se cambia el tipo de estimulo por el del sonido de la voz masculina donde se le pide al usuario que califique de 1 a 5 la naturalidad de la fuente sonora siendo 5 el más natural y 1 el menos natural, especializando la señal con las HRTFs de diferentes sujetos en la base de datos, la del sujeto más próximo antropometricamente hablando, el menos próximo y las de la cabeza binaural KEMAR. Se realizó un estudio más detallado sobre el plano horizontal, debido a que la evolución anatómica humana ha desarrollado una mayor capacidad de localización de fuentes sonoras sobre este plano. En esta parte del test fueron empleadas las HRTFs del sujeto con mayor similitud en la base de datos y el estimulo de la voz humana, 16 posiciones virtuales fueron generadas, al sujeto se le presto una hoja guía para que pudiese identificar correctamente las coordenadas del sonido percibido con la gráfica de la ilustración 40.

Ilustración 40 Sistema de orientación de las coordenadas polares

Page 78: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

78

Elevación Acimut # Reproducción

-25

-45

-65-90-65-45-250 1

25456590 2

6545250

0

180

0

Coordenadas Generado Percibido0º Acimut 90º Elevación Arriba0º Acimut -45º Elevación Abajo0º Acimut 0º Elevación Delante 0º Acimut 180º Elevación Detrás 90º Acimut 0º Elevación Derecha.-90º Acimut 0º Elevación Izquierda

Nombre:Edad:Profesión:

Indice de SemejanzaIndice de SemejanzaSujeto Menor Similitud

Sujeto Mayor Similitud

5.1.2 Formato de la valoración

VALORACION SUBJETIVA Nº____

Movimientos

Generado Percibidoder a izq por el frenteizq a der por detrás

Generado PercibidoHacia arriba de frenteHacia abajo detrás

Movimientos Verticales

Movimientos Horizontales

Puntos en los tres planos Plano Horizontal

Naturalidad Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Page 79: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

79

Sujeto

en estudio

Sujeto base

de datos HRTF

Indice de

Semejanza

Sujeto

en estudio

Sujeto base

de datos HRTF

Indice de

Semejanza

Mayor Sem 0,2003 Mayor Sem 0,1219

Menor Sem 0,7645 Menor Sem 0,6759

KEMAR 0,2165 KEMAR 0,1863

Mayor Sem 0,1008 Mayor Sem 0,2365

Menor Sem 0,6035 Menor Sem 0,5143

KEMAR 0,2736 KEMAR 0,2672

Mayor Sem 0,1631 Mayor Sem 0,1025

Menor Sem 0,5675 Menor Sem 0,6992

KEMAR 0,1866 KEMAR 0,3552

Mayor Sem 0,3652 Mayor Sem 0,3522

Menor Sem 0,6911 Menor Sem 0,7523

KEMAR 0,4683 KEMAR 0,4632

Mayor Sem 0,1655 Mayor Sem 0,1013

Menor Sem 0,521 Menor Sem 0,5062

KEMAR 0,3568 KEMAR 0,254110

6

7

8

9

1

2

3

4

5

Indice de Semejanza

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

1 2 3 4 5 6 7 8 9 10

Sujetos

5.1.3 Resultados. Es importante para el estudio planteado tomar en cuenta los índices de semejanza antropométrica entre los datos medidos de los sujetos a estudio y los de los sujetos en la base de datos de HRTF. A continuación se presenta la tabla donde se representan estos valores:

Tabla 3 Índices de semejanza de los sujetos en estudio con los sujetos de la base de datos. Se espera que los sujetos con el menor índice de semejanza tengan mejores resultados en la valoración, ya que esto significa una gran similitud antropométrica con los sujetos en la base de datos, acercándose a unas HRTF individualizadas. Ilustración 41 Índices de semejanza de menor valor para los sujetos en estudio.

Page 80: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

80

Sujeto1Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 2Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 3Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 4Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 5Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 6Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 7Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 8Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 9Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

Sujeto 10Sujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

PromedioSujeto Mayor Semejanza 1 2 3 4 5

Sujeto Menor Semejanza 1 2 3 4 5

KEMAR 1 2 3 4 5

5.1.3.1 Naturalidad de los estímulos

Utilizando las HRTF del sujeto de mayor similitud antropométrica, el 100% de los sujetos les pareció más natural el estimulo presentado que con las HRTF del sujeto menos próximo en la base de datos. El 50% de los sujetos en estudio les pareció más natural el estimulo con las HRTF del sujeto de mayor similitud que las de la cabeza binaural KEMAR. En promedio la naturalidad del estimulo presentado con las HRTF del sujeto de mayor similitud y las HRTF de la cabeza binaural KEMAR es igual y es mayor que con HRTF del sujeto de menor proximidad en la base de datos. Se observa también que los sujetos con menor índice de semejanza encuentran más natural el estimulo especializado con las HRTF del sujeto de mayor semejanza. El sujeto número 1 percibe con igual naturalidad el estimulo producido mediante la HRTF del sujeto de mayor similitud y las HRTF de la cabeza binaural KEMAR, esto puede ser debido a la cercanía entre el índice de semejanza de estos dos sujetos.

Page 81: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

81

5.1.3.2 Consistencia en el movimiento de fuentes virtuales Las x significan una confusión en el movimiento, la mayoría de sujetos que tuvieron errores o no tenían claro el movimiento de la fuente sonora virtual identificaron alguno de los puntos extremo (arriba o abajo). No se tomo en cuenta la confusión delante-atrás, este se estudia en la localización sobre el plano horizontal. Aunque el movimiento de la fuente sonora virtual sobre el plano horizontal es claro para todos los sujetos, se necesita comprobar la relación entre el índice de semejanza y los errores en los movimientos verticales. Para comprobar que el número de errores depende de la cercanía antropométrica se realizó una regresión lineal entre el número de errores y los sujetos organizados según el índice de semejanza, buscando una correlación positiva de las dos variables. El coeficiente de correlación de Pearson, es un índice que mide el grado de covariación entre variables relacionadas linealmente, pensado para variables cuantitativas.

Donde : σXY es la covarianza de (x,y) σX y σY son las desviaciones típicas de las distribuciones

marginales.

Page 82: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

82

Este índice es de fácil ejecución e interpretación, los valores oscilan entre -1 y 1 donde los valores entre 0 y 1 representan una correlación positiva; 1 es una correlación positiva perfecta, si una variable aumenta la otra lo hace en iguales proporciones; -1 una correlación negativa perfecta, una relación inversamente proporcional; y 0 representa la no existencia de una relación lineal. El coeficiente de determinación de Pearson es el cuadrado del coeficiente de correlación y ofrece una mejor idea de la relación entre las variables. Por ejemplo, si se tiene un coeficiente de correlación de 0.8 entre la inteligencia y el rendimiento académico, se podría decir que el 64% del rendimiento académico es debido a la inteligencia.

Ilustración 42 Diagrama de dispersión y regresión lineal de los errores en la percepción de movimiento sobre el plano medio. Aunque la correlación entre el número de errores de localización sobre el plano medio y la semejanza antropométrica no es alta, y la muestra no es significativa para inferir sobre la población, se evidencia la influencia de implementar HRTF individualizadas en la correcta localización sobre el plano medio. En el caso de los movimientos verticales de fuentes sonoras virtuales espacializadas por el sistema Virtualizer, existe una correlación positiva entre los errores de localización y el grado de cercanía antropométrica, con un coeficiente de determinación Pearson de 0.3659 y un error estándar Se=0.6663. Se deduce entonces, que el 36% de los errores en la localización de movimientos verticales en el sistema Virtualizer se debe a la cercanía antropométrica entre el usuario y el sujeto en la base de datos.

Page 83: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

83

5.1.3.3 Localización sobre el plano medio, horizontal y frontal

El 100% identifico correctamente los puntos (90,0) y (-90,0) completamente a la derecha y completamente a la izquierda. El 30% identifico correctamente el punto (-45,0) 45º por debajo del punto medio de la línea imaginaria que une los dos oídos. El 60% identifico correctamente el punto (0,90) justo arriba de la cabeza. El 40% identifico correctamente el frente y el 50% identifico correctamente al punto justo atrás. En la ilustración 43 se compara el filtrado que sufre se una onda sonora que se encuentra arriba y abajo de la cabeza binaural KEMAR. Estas respuestas en frecuencia tienen gran similitud hasta los 8Khz, en frecuencias superiores se aprecia una reducción de alrededor de los 5db, se necesitaría un oído con alto nivel de entrenamiento para reconocer auditivamente la diferencia entre dos sonidos filtrados por estas HRTFs.

Ilustración 43 HRTF de la cabeza binaural KEMAR en las posiciones delante y detrás.

Page 84: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

84

Ilustración 44 HRTF de la cabeza binaural KEMAR en las posiciones abajo y arriba. La respuesta en frecuencia de las HRTFs para las posiciones arriba y abajo, tienen una diferencia espectral mayor que para las posiciones delante-atrás. El rizado en frecuencias superiores a 6Khz presente en los demás puntos es suavizado para la posición arriba de la cabeza. Esta comparación demuestra la existencia de pistas espectrales en las HRTFs de los puntos elegidos para el estudio, que permiten la percepción de la dirección de la fuente sonora por parte del usuario, la correcta localización por parte del usuario dependerá del grado con el que estas pistas sean representadas fielmente. Esto se asegura utilizando HRTFs individualizadas. Para determinar si existe o no relación entre el índice de semejanza antropométrico y el número de errores, se emplea una regresión lineal, encontrando un coeficiente de determinación de 0.338 y un error estándar Se=0.9793. Los resultados de esta prueba demuestran la eficiencia del sistema en brindar estímulos sonoros que sean perceptualmente localizados en los extremos derecho e izquierdo de la cabeza. Asegurando que el 100% de las fuentes sonoras virtuales espacializadas con el sistema Virtualizer en los extremos derecho e izquierdo serán localizadas correctamente. Existe confusión por parte del usuario para reconocer estímulos presentados delante-atrás y arriba-abajo, el estudio realizado demuestra la relación entre el número de errores y el índice de semejanza antropométrica, donde el 33% de los errores en la localización dependen del índice de semejanza antropométrica.

Page 85: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

85

Ilustración 45 Diagrama de dispersión y regresión lineal de los errores en la percepción de fuentes sonoras estáticas en puntos sobre los diferentes planos. 5.1.3.4 Localización sobre el plano horizontal Sujeto 1

-25 o

-45 o

-65 o

-90 o

-65 o o o

-45 o o

-25 o o o

0 o o

25 o o o

45 o o o o

65 o o

90 o

65 o o

45 o

25 o

0 o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25Elevación 0 180 0

0

180

0

Tabla 4 Diagrama de dispersión sujeto 1

Page 86: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

86

Como podemos apreciar en la gráfica del sujeto 156 el sujeto tiene confusiones en la localización de fuentes virtuales delante-atrás, para el las fuentes que se espacializaron delante son identificadas en su mayoría en la parte posterior. El sujeto número uno tuvo 3 aciertos y 13 errores, un coeficiente de determinación de 0.671 y un error estándar Se=1.826, existe la posibilidad que este sujeto ubique correctamente el 67% de los estímulos presentados sobre el plano horizontal.

Sujeto 2

-25 o

-45 o o o

-65 o o

-90 o

-65 o

-45 o o

-25 o o

0 o

25 o o

45 o o

65 o o

90 o

65 o

45 o

25 o

0 o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25

0

180

0

Elevación 0 180 0

Tabla 5 Diagrama de dispersión sujeto 2

El sujeto número dos tuvo ocho aciertos y ocho errores, su localización en la parte posterior de la cabeza es casi perfecta pero no identifico correctamente las fuentes especializadas en la parte delantera. El sujeto número dos tiene el 62% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 2.13 Sujeto 3

El sujeto tres, quien tuvo 4 aciertos y 12 errores, tampoco tenia experiencia con este tipo de procedimientos y su profesión no involucraba el audio. El sujeto a pesar de no tener mayor semejanza con el sujeto de la base de datos usado para la espacialización, pudo distinguir correctamente si la fuente se encontraba delante o atrás de él. Este sujeto tiene el 90% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 1.28

56 El eje de vertical representa la posición generada mientras el eje horizontal representa la posición percibida por el sujeto en estudio.

Page 87: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

87

-25 o o

-45 o

-65 o

-90 o

-65 o o o

-45 o o

-25 o o o

0 o

25 o o

45 o o

65 o o

90 o o o

65 o

45 o

25 o

0 o o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25Elevación 0 180 0

0

180

0

Tabla 6 Diagrama de dispersión sujeto 3

Sujeto 4

-25 o

-45 o

-65 o

-90 o

-65 o o o

-45 o o

-25 o

0 o

25 o

45 o

65 o o

90 o

65 o o o o o

45 o

25 o

0 o o o o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25Elevación 0 180 0

0

180

0

Tabla 7 Diagrama de dispersión sujeto 4

El sujeto número cuatro, quien posee el mayor índice de semejanza en el estudio, tuvo 5 aciertos y 11 errores, con un coeficiente de correlación R=0.7671. Se esperaba que este sujeto tuviera la mayor cantidad de errores en el estudio, pero debido a su profesión de ingeniero de sonido se puede esperar que la experiencia modifique los resultados. El sujeto número cuatro tiene el 76% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 2.48.

Page 88: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

88

Sujeto 5

-25 o

-45 o

-65 o

-90 o

-65 o o o

-45 o o

-25 o o

0 o

25 o o o

45 o o

65 o o

90 o

65 o

45 o

25 o

0 o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25

0

180

0

Elevación 0 180 0 Tabla 8

Diagrama de dispersión sujeto 5 El sujeto número cinco, con 8 aciertos y 8 errores, con un coeficiente de correlación R=0.71175 y error estándar Se=1.803. El sujeto a estudio, estudiante de ingeniería de sonido, acertó correctamente la posición horizontal pero no el grado de elevación, para el la mayoría de sonidos provenían detrás de su cabeza, su grado de semejanza antropométrica es bajo comparado con el resto de sujetos a estudio. El sujeto número cinco tiene el 71% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 1.8 Sujeto 6.

-25 o

-45 o o

-65 o

-90 o

-65 o

-45 o o o

-25 o

0 o

25 o

45 o o o

65 o o

90 o o

65 o

45 o o

25 o

0 o o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25Elevación 0 180 0

0

180

0

Tabla 9 Diagrama de dispersión sujeto 6

Page 89: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

89

El sujeto número seis identificó correctamente 7 posiciones y se equivoco en 9. No tenia experiencia previa con este tipo de experimentos y su profesión no se relacionaba con el audio. Su índice es menor que el de otros sujetos que tuvieron mejores resultados en la evaluación, esto puede ser a su falta de experiencia. El sujeto número seis tiene el 49% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 4.075. Sujeto 7

-25 o o

-45 o o

-65 o

-90 o

-65 o o

-45 o o o

-25 o

0 o o

25 o

45 o

65 o o o

90 o

65 o o o

45 o

25 o

0 o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25Elevación 0 180 0

0

180

0

Tabla 10 Diagrama de dispersión sujeto 7

El sujeto siete, quien es músico profesional, obtuvo 10 errores, tiene una alta dispersión en los datos alejándose de una respuesta ideal. Por lo que tiene el 42% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 3.06 Sujeto 8. Este obtuvo el mayor número de aciertos en el estudio, con 11

aciertos y 5 errores. Se puede observar en la gráfica que el resultado es casi igual a un resultado ideal. El sujeto a estudio tiene un alto grado de semejanza antropométrica con el sujeto de la base de datos, además de estar dedicado a la grabación y mezcla musical. Lo que demuestra que la unión entre la experiencia y utilizar HRTF individualizadas aumentan la efectividad en la localización de fuentes sonoras virtuales.

El sujeto número ocho tiene el 98% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un bajo error estándar de 0.59

Page 90: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

90

-25 o

-45 o o

-65 o o

-90 o

-65 o

-45 o

-25 o

0 o

25 o

45 o o

65 o

90 o

65 o

45 o o o

25 o

0 o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25

0

180

0

01800Elevación

Tabla 11 Diagrama de dispersión sujeto 8

Sujeto 9. Este sujeto quien no contaba con experiencia previa en este tipo de

estudios y no estaba relacionado con el audio. Este tiene el 59% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, con un error estándar de 3.41

-25 o o o

-45 o o

-65 o o

-90 o

-65 o o

-45 o o

-25 o o

0 o o

25 o o

45 o o

65 o

90 o

65 o

45 o o

25 o o

0 o o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25Elevación 0 180 0

0

180

0

Tabla 12 Diagrama de dispersión sujeto 9

Page 91: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

91

Sujeto 10

-25 o

-45 o o

-65 o o

-90 o

-65 o

-45 o o

-25 o

0 o o

25 o

45 o o

65 o

90 o

65 o o

45 o

25 o

0 o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -250 180 0Elevación

0

180

0

Tabla 13 Diagrama de dispersión sujeto 10

El sujeto número diez tuvo 10 aciertos, coeficiente de determinación de 0.812 y un error estándar Se=1.921. Su profesión no se relacionaba con el audio, pero tiene alto grado de semejanza antropométrica con el sujeto de la base de datos. Este tiene el 81% de probabilidad de localizar correctamente fuentes sonoras virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal.

Resultado General. Los errores en la localización de fuentes virtuales espacializadas a través del sistema Virtualizer sobre el plano horizontal, se relacionan con el grado de cercanía antropométrica a través de la ecuación y= 0.66x+5.867, con un coeficiente de correlación de 0.71, donde la probabilidad de que un error en la localización sea debido al grado de cercanía antropométrica es del 51%.

Ilustración 46 Relación entre el número de errores y la similitud antropométrica

Page 92: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

92

Es necesario un estudio que comprenda otras variables como la integración de pistas visuales, tipo de estimulo y equipamiento implementado, porque la percepción sonora depende de diferentes factores tanto físicos y psicológicos.

-25 o o o o

-45 o o o o o o

-65 o o o

-90 o

-65 o o o o o

-45 o o o o o o

-25 o o o o o

0 o o o o

25 o o o o o

45 o o o o o

65 o o o o

90 o o o

65 o o o o o

45 o o o

25 o o

0 o o o o

Acimut 0 25 45 65 90 65 45 25 0 -25 -45 -65 -90 -65 -45 -25

o o o o o o o o10% 20% 30% 40% 50% 60% 70% 80%

Elevación 0 180 0

0

180

0

Tabla 14 Diagrama de dispersión general

La gráfica de correlación general evidencia que la localización en la parte posterior de la cabeza (elevación 180) es clara, pero existen confusiones en los puntos que se encuentran delante de la cabeza (elevación 0). Existe alto grado de correlación entre la localización del estimulo sonoro presentado y percibido, con coeficiente de correlación promedio es de 0,83, donde un usuario del sistema tiene el 69% de probabilidad de localizar correctamente fuentes sonoras virtuales sobre el plano horizontal.

Page 93: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

93

CONCLUSIONES

Sistemas lineales como el formado por la cabeza, hombros y pabellón auditivo, son caracterizados por medio de la función de transferencia relacionada con la cabeza (HRTF). A través de este trabajo se prueba que es posible convertir una señal monofónica en una señal binaural, con diferentes características espectrales según su posición, implementando técnicas de procesamiento digital de señales, donde existen dos elementos fundamentales para simular la salida de un sistema LTI, la señal de entrada y la función de transferencia del sistema. La base de datos de los laboratorios CIPIC es una buena opción a usar, consta de 45 sets de HRTFs medidos en diferentes sujetos y la cabeza binaural KEMAR, con las respectivas mediciones antropométricas brindando la posibilidad de realizar un estudio sobre las características individuales de las HRTFs; y además comprende una amplia resolución espacial (1250 puntos), reduciendo los efectos creados por las discontinuidades al realizar movimientos en las fuentes virtuales. Añadir efectos del medio como reverberación aumenta el realismo de la escena auditiva y ayuda a la externalización del sonido, pero al trabajar con el procesador del computador, el tiempo que toma aplicar esta operación aumenta. Para aumentar la inmersión y la externalización, las señales cargadas al sistema Virtualizer deben tener este proceso previo, siguiendo la cadena fuente-medio-receptor. Aplicar el proceso de normalización a la señal de entrada, a las HRIRs y luego de la convolución evita la saturación en la señal de salida. Además de que al ser implementado en la señal de entrada, asegura que esta sea monofónica y su posición aparente sea justo al frente de la cabeza, desde donde su posición puede ser controlada sin dificultades. Para lograr un efecto de movimiento en la fuente sonora virtual, se divide la señal de entrada por el número de puntos que determinan el trayecto de la fuente, a cada sección se le aplica las HRTFs respectivas y el resultado es almacenado en un nueva señal. Esta señal presenta un ruido (clic) que depende del ancho de banda del estimulo presentado y el número de posiciones seleccionados. Este ruido puede ser reducido aumentando la resolución espacial en la base de datos, o bien aplicando el método overlap-add que minimice las discontinuidades en la señal de salida.

Page 94: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

94

En el estudio subjetivo realizado para evaluar el sistema, se encontró que los sujetos a estudio perciben con mayor naturalidad los estímulos espacializados con las HRTFs del sujeto en la base de datos con mayor similitud antropométrica, en cuanto al pabellón auditivo se refiere, que los estímulos espacializados con las HRTFs del sujeto en la base de datos con menor similitud antropométrica, y de igual naturalidad entre los estímulos espacializados con las HRTFs del sujeto en la base de datos con mayor similitud y las HRTFs de la cabeza binaural KEMAR. Los movimientos de fuentes sonoras virtuales a través del plano horizontal son correctamente identificados por los usuarios del sistema, mientras que los movimientos verticales son difícilmente identificados con precisión. El estudio revelo la existencia de una relación entre el número de errores y la cercanía antropométrica, donde el 36% de los errores en la localización de movimientos verticales en el sistema Virtualizer dependen del índice de semejanza antropométrica entre el usuario y el sujeto en la base de datos. Existe confusión por parte del usuario del sistema Virtualizer para reconocer estímulos presentados delante-atrás y arriba-abajo, en el estudio se demuestra la relación entre el número de errores y el índice de semejanza antropométrica, donde el 33% de los errores en la localización dependen del índice de semejanza antropométrica. Al analizar las HRTFs de estos puntos se evidencia los diferentes tipos de filtros según la posición, donde algunos sujetos tienen mayores transformaciones que otros. El estudio sobre la localización en el plano horizontal con fuentes sonoras virtuales estáticas, demostró también una relación con el índice de semejanza antropométrica, donde la probabilidad de que un error en la localización sea debido al grado de cercanía antropométrica es del 51%. Existe una correlación positiva y alta entre la posición de los estímulos presentados y la posición percibida sobre el plano horizontal, con un con coeficiente de correlación de Pearson promedio es de 0,83. Podemos decir entonces que un usuario del sistema Virtualizer tiene el 69% de probabilidad de localizar correctamente fuentes sonoras virtuales sobre el plano horizontal. Los sujetos que nunca habían intentado descifrar auditivamente la ubicación de una fuente sonora, tuvieron mayor número de errores en la localización, que fueron mejorando a medida que se realizaron más experimentos. Se concluye entonces, que la correcta localización en sistemas de audio virtual depende de la combinación entre la experiencia y el uso de HRTFs individualizadas. El sistema Virtualizer crea una clara imagen virtual de las fuentes sonoras que se encuentran a los costados posteriores y ofrece la posibilidad al usuario de escoger un set de HRTF con mayor similitud a sus propias HRTF, esto aumenta la correcta localización a través de los diferentes planos y aclaran el cono de la confusión.

Page 95: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

95

RECOMENDACIONES

Para lograr una simulación exitosa, una base de datos de HRTFs es requerida, estas funciones deben representar únicamente el sistema formado por la cabeza, hombros y pabellón auditivo. La calidad de las HRTFs depende de la manera como fueron obtenidas, en el apartado 4.1.1.1 se indican los pasos para lograr una base de datos idónea. Los requerimientos de espacio, tiempo y equipamiento dificultan la medición de una base de datos con alta calidad, pero existen diferentes bases de datos de HRTFs de uso libre en Internet. Aunque la implementación de HRTF individualizadas reduce las confusiones en la localización delante-atrás y problemas de exteriorización de estímulos sonoros. Es poco práctico debido al tiempo que toma realizar estas mediciones, el equipamiento y las condiciones acústicas requeridas. Utilizar HRTF no individualizadas estándar y de alta calidad, combinadas con estímulos visuales puede eliminar las confusiones y ayudar a la externalización. Para suavizar los cambios entre coordenadas adyacentes es necesario implementar el proceso de interpolación en el dominio de la frecuencia y respetando las diferencias interaurales de nivel, al tener una mejor resolución espacial en la base de datos se simplifica el proceso de interpolación y los movimientos de la señal espacializada serán percibidos con mayor naturalidad. Se recomienda trabajar con un DSP externo que agilice las operaciones, por el cual sea posible implementar el proceso de reverberación, que facilite la espacialización de mayor número de señales y el trabajo en tiempo real. El índice de semejanza antropométrico utilizado para la valoración subjetiva, es un promedio de las diferencias entre las medidas del sujeto a evaluar y el sujeto medido en la base de datos. Se aconseja un mayor acercamiento a las diferencias antropométricas específicas que crean aumentos y disminuciones en diferentes frecuencias según su longitud y a las diferentes variables que influyen en la localización sonora espacial como la integración de pistas visuales, la clase de estimulo sonoro presentado y el equipamiento implementado.

Page 96: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

96

ANEXOS

Anexo 1

Manual de operación. El sistema Virtualizer 3D es un espacializador en tres dimensiones de señales digitales de audio en formato .wav. Utiliza 2 interfaces gráficas, la primera selecciona el sujeto dentro de la base de datos con las medidas antropométricas del pabellón auditivo más parecidas y menos parecidas a las del usuario. De esta manera el sistema se acerca a un sistema de HRTF individualizadas, mejorando la localización en el plano vertical y aclarando el cono de la confusión. En la segunda interfaz o principal se carga el archivo de audio a procesar, las funciones de transferencia HRTF, se elige el tipo de espacialización y se definen las coordenadas, El sistema Virtualizer permite recrear fuentes virtuales en 1250 posibles direcciones, utilizando 50 posiciones en elevación y 25 en azimut. Es posible también variar la distancia de la fuente virtual ampliando el ambiente virtual en 3D. En el mundo real las fuentes sonoras muy pocas veces están estáticas, con el fin de lograr mayor realismo el sistema Virtualizer 3D ofrece al usuario la posibilidad de realizar movimientos de la señal a través de los diferentes planos, activando y desactivando los Fader de posiciones finales de azimut, elevación y distancia. El sistema permite tener un control sobre el resultado final de la simulación a través de un reproductor de audio, que permite escuchar, pausar y parar la reproducción del archivo de audio. Si el resultado es el esperado Virtualizer permite exportar el archivo de audio binaural en formato .wav para ser utilizado en una estación de trabajo digital de audio (DAW) y así poder construir escenas auditivas virtuales que simulen un entorno de forma más real que las técnicas convencionales de mezcla. El sistema Virtualizer 3D permite:

• Seleccionar las funciones de transferencia (HRTF) según características antropométricas del usuario.

• Cargar archivo de audio que represente la fuente sonora virtual. • Modificar distancia, azimut y elevación de la fuente sonora virtual. • Realizar movimientos de la señal, escogiendo las coordenadas iniciales

y finales. • Reproducir, parar y pausar la señal original y espacializada. • Exportar el archivo de audio virtual en formato .wav.

Page 97: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

97

Ilustración 47 Interfaz gráfica sistema Virtualizer y sus secciones 1. Menú: Esta contiene 3 secciones. La sección de archivo donde es posible abrir la señal de audio, guardar la señal de audio y salir del programa. La sección de Antropometría, donde se carga la interfaz que permite encontrara el sujeto de mayor y menor similitud dentro de la base de datos y su respectivo índice de semejanza. Y finalmente la sección Ayuda, es otra interfaz introducida al sistema donde existe un texto explicativo sobre la utilización del sistema Virtualizer y un dibujo orientativo de las coordenadas utilizadas en el sistema. 2. Selección del las HRTF: En esta sección se seleccionan las HTRF según el nombre del sujeto en la base de datos de CIPIC. 3. Tipo de Espacialización: Fuente estática, Movimiento horizontal o Movimiento vertical. 4. Coordenadas: Puntos iníciales y finales de Acimut, Elevación y Distancia. 5. Aplicar: Al oprimir este botón, los datos de las secciones 2, 3 y 4 son aplicados a la señal de entrada. Si la señal de audio no ha sido cargada al sistema, se abrirá una ventana de advertencia. 6. Reproductor: Reproduce, pausa o para la señal original o espacializada binaural.

Page 98: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

98

Ilustración 48 Interfaz gráfica de Antropometría

Ilustración 49 Interfaz gráfica de Ayuda

Page 99: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

99

Anexo 2

Programación

function varargout = Virtualizer(varargin) gui_Singleton = 1; gui_State = struct('gui_Name', mfilename, ... 'gui_Singleton', gui_Singleton, ... 'gui_OpeningFcn', @Virtualizer_OpeningFcn, ... 'gui_OutputFcn', @Virtualizer_OutputFcn, ... 'gui_LayoutFcn', [] , ... 'gui_Callback', []); if nargin && ischar(varargin{1}) gui_State.gui_Callback = str2func(varargin{1}); end if nargout [varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:}); else gui_mainfcn(gui_State, varargin{:}); end function Virtualizer_OpeningFcn(hObject, eventdata, handles, varargin) axes(handles.axes2) background = imread('BACK.jpg'); axis off; imshow(background); axes(handles.axes1) background = imread('FRONT.jpg'); axis off; imshow(background); axes(handles.axes3) background = imread('LOGO_1.jpg'); axis off; imshow(background); handles.output = hObject; %Coloca la imagen en cada botón del audio player [a,map]=imread('play3.JPG'); [r,c,d]=size(a); x=ceil(r/30); y=ceil(c/30); g=a(1:x:end,1:y:end,:); g(g==255)=5.5*255; set(handles.butt_play,'CData',g); [a,map]=imread('pausa cuadrada.JPG'); [r,c,d]=size(a); x=ceil(r/45); y=ceil(c/55); g=a(1:x:end,1:y:end,:);

Page 100: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

100

g(g==255)=5.5*255; set(handles.butt_pause,'CData',g); [a,map]=imread('stop cuadrada.JPG'); [r,c,d]=size(a); x=ceil(r/45); y=ceil(c/45); g=a(1:x:end,1:y:end,:); g(g==255)=5.5*255; set(handles.butt_stop,'CData',g); %______________________________________________________________________

set(handles.slider_az_fin,'Enable','off') set(handles.slider_ele_fin,'Enable','off') set(handles.slider_dist_fin,'Enable','off') set(handles.slider_az_in,'Value',0.5) set(handles.slider_az_fin,'Value',0.5) set(handles.slider_ele_fin,'Value',0.18) set(handles.slider_ele_in,'Value',0.18) set(handles.slider_dist_in,'Value',0) set(handles.slider_dist_fin,'Value',0) set(handles.az_in_txt,'String',num2str(0)) set(handles.az_fin_txt,'String',num2str(0)) set(handles.ele_in_txt,'String',num2str(0)) set(handles.ele_fin_txt,'String',num2str(0)) set(handles.dist_in_txt,'String',num2str(1)) set(handles.dist_fin_txt,'String',num2str(1)) %______________________________________________________________________ evalin('base','config'); f = uimenu('Label','Archivo'); uimenu(f,'Label','Cargar Audio','Callback','cargar_archivo'); uimenu(f,'Label','Guardar Audio','Callback','guardar_archivo'); uimenu(f,'Label','Salir','Callback','terminator'); a= uimenu('Label','Antropometría'); uimenu(a,'Label','Seleccionar','Callback','Antropometria'); hlp= uimenu('Label','Ayuda'); uimenu(hlp,'Label','Virtualizer','Callback','Ayuda'); evalin('base',['cargar_hrir']); guidata(hObject, handles); function varargout = Virtualizer_OutputFcn(hObject, eventdata, handles) varargout{1} = handles.output;

Page 101: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

101

function slider_az_in_Callback(hObject, eventdata, handles) global n_posi_az gr_in_az v_sld_i_az v_sld_i_az=get(hObject,'Value'); [n_posi_az,gr_in_az]=grados_azimut(v_sld_i_az,25); set(handles.az_in_txt,'String',num2str(gr_in_az)) function slider_az_in_CreateFcn(hObject, eventdata, handles) if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor',[.9 .9 .9]); end function slider_az_fin_Callback(hObject, eventdata, handles) global n_posf_az gr_fin_az v_sld_f_az v_sld_f_az=get(hObject,'Value'); [n_posf_az,gr_fin_az]=grados_azimut(v_sld_f_az,25); set(handles.az_fin_txt,'String',num2str(gr_fin_az)) function slider_az_fin_CreateFcn(hObject, eventdata, handles) if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor',[.9 .9 .9]); end function slider_ele_in_Callback(hObject, eventdata, handles) global n_posi_el gr_in_ele v_sld_i_ele v_sld_i_ele=get(hObject,'Value'); [n_posi_el,gr_in_ele]=grados_azimut(v_sld_i_ele,50); set(handles.ele_in_txt,'String',num2str(round(gr_in_ele))) function slider_ele_in_CreateFcn(hObject, eventdata, handles) if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor',[.9 .9 .9]); end

Page 102: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

102

function slider_ele_fin_Callback(hObject, eventdata, handles) global n_posf_el gr_fin_ele v_sld_f_ele v_sld_f_ele=get(hObject,'Value'); [n_posf_el,gr_fin_ele]=grados_azimut(v_sld_f_ele,50); set(handles.ele_fin_txt,'String',num2str(round(gr_fin_ele))) function slider_ele_fin_CreateFcn(hObject, eventdata, handles) if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor',[.9 .9 .9]); end function slider_dist_in_Callback(hObject, eventdata, handles) global v_sld_i_dist v_sld_i_dist=get(hObject,'Value'); if v_sld_i_dist==0 set(handles.dist_in_txt,'String',num2str(1)) else set(handles.dist_in_txt,'String',num2str(v_sld_i_dist*100)) end

function slider_dist_in_CreateFcn(hObject, eventdata, handles) if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor',[.9 .9 .9]); end function slider_dist_fin_Callback(hObject, eventdata, handles) global v_sld_f_dist v_sld_f_dist=get(hObject,'Value'); if v_sld_f_dist==0 set(handles.dist_fin_txt,'String',num2str(1)) else set(handles.dist_fin_txt,'String',num2str(v_sld_f_dist*100)) end function slider_dist_fin_CreateFcn(hObject, eventdata, handles) if isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor',[.9 .9 .9]);

Page 103: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

103

end function az_in_txt_Callback(hObject, eventdata, handles) function az_in_txt_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function az_fin_txt_Callback(hObject, eventdata, handles) function az_fin_txt_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function ele_in_txt_Callback(hObject, eventdata, handles) function ele_in_txt_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function ele_fin_txt_Callback(hObject, eventdata, handles) function ele_fin_txt_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function dist_in_txt_Callback(hObject, eventdata, handles) function dist_in_txt_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function dist_fin_txt_Callback(hObject, eventdata, handles) function dist_fin_txt_CreateFcn(hObject, eventdata, handles)

Page 104: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

104

if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function butt_Aplicar_Callback(hObject, eventdata, handles) global v_d t_e az el x_d hrir_l hrir_r xspa_l xspa_r ... n_posi_az n_posf_az n_posi_el n_posf_el n_pos... sex_x_d hr hl d_xd ult_sex len_con len_ucon xspa_l1 xspa_r1 ... xspa_lu xspa_ru xspa_l xspa_r... y_over_l y_over_r y_over y ... v_sld_i_dist v_sld_f_dist v_amp_db t_e=get(handles.popup_tipo,'Value'); v_sld_i_dist=get(handles.slider_dist_in,'Value'); v_sld_f_dist=get(handles.slider_dist_fin,'Value'); if v_sld_i_dist<0.01 v_sld_i_dist=0.01; else end if v_sld_f_dist<0.01 v_sld_f_dist=0.01; else end if v_d==0 warndlg('No se ha cargado la Señal de Audio','Virtualizer') else switch t_e case 1 az=n_posi_az; el=n_posi_el; evalin('base','Punto_Fijo_2'); y=norm_ster(y_over); [y,v_amp_db]=distancia_rel(y,(v_sld_i_dist*100)); case 2 [hl,hr,xspa_l,xspa_r,n_pos,sex_x_d,len_con]=Barrido_horizontal(x_d,n_posi_az,n_posf_az,el,hrir_l,hrir_r); evalin('base','overlap_add_2'); y=norm_ster(y_over); if v_sld_i_dist==v_sld_f_dist [y,v_amp_db]=distancia_rel(y,(v_sld_i_dist*100)); else [y]=barrido_dist(y,v_sld_i_dist,v_sld_f_dist); end case 3

Page 105: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

105

az=n_posi_az; evalin('base','sweepy_elv'); evalin('base','overlap_add_2'); y=norm_ster(y_over); if v_sld_i_dist==v_sld_f_dist [y,v_amp_db]=distancia_rel(y,(v_sld_i_dist*100)); else [y]=barrido_dist(y,v_sld_i_dist,v_sld_f_dist); end end %tipo de x_spa end function butt_play_Callback(hObject, eventdata, handles) global v_d a_p y fs paus if v_d==0 warndlg('No se ha cargado la Señal de Audio','Virtualizer') elseif paus==1 a_p=audioplayer(y,fs); resume(a_p) paus=0; else a_p=audioplayer(y,fs); play(a_p) end function pushbutton4_Callback(hObject, eventdata, handles) function pushbutton5_Callback(hObject, eventdata, handles) function butt_pause_Callback(hObject, eventdata, handles) global v_d a_p x_d fs paus if v_d==0 warndlg('No se ha cargado la Señal de Audio','Virtualizer') else a_p=audioplayer(x_d,fs); paus=1; pause(a_p) end function butt_stop_Callback(hObject, eventdata, handles) global v_d a_p x_d fs if v_d==0 warndlg('No se ha cargado la Señal de Audio','Virtualizer') else

Page 106: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

106

a_p=audioplayer(x_d,fs); stop(a_p) end function popup_tipo_Callback(hObject, eventdata, handles) global t_e t_e=get(hObject,'Value'); switch t_e case 1 set(handles.slider_az_fin,'Enable','off') set(handles.slider_ele_fin,'Enable','off') set(handles.slider_dist_fin,'Enable','off') case 2 set(handles.slider_az_fin,'Enable','on') set(handles.slider_ele_fin,'Enable','off') set(handles.slider_dist_fin,'Enable','on') case 3 set(handles.slider_az_fin,'Enable','off') set(handles.slider_ele_fin,'Enable','on') set(handles.slider_dist_fin,'Enable','on') end function popup_tipo_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function sujeto_txt_Callback(hObject, eventdata, handles) function sujeto_txt_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end function pop_sujeto_Callback(hObject, eventdata, handles) global sujeto sujeto=get(hObject,'Value'); evalin('base',['cargar_hrir']); function pop_sujeto_CreateFcn(hObject, eventdata, handles) if ispc && isequal(get(hObject,'BackgroundColor'), get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end

Page 107: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

107

GLOSARIO

A Acimut: Angulo sobre el plano horizontal. Anecoico: Capaz de absorber las ondas sonoras sin reflejarlas. Cámara anecoica. Antropometría: parte de la Antropología que estudia las proporciones y medidas del ser humano. B Banda: Un rango de frecuencias especificado. Por ejemplo, banda de audio (20 a 20.000 Hz). Banda de octava: Un rango de frecuencias especificado. Por ejemplo, banda de audio (20 a 20.000 Hz).Gama de frecuencias comprendida entre dos que están en la relación, 2:1. La banda de audio frecuencias, contiene aproximadamente 10 bandas de octava. Belio Una unidad de nivel que denota la relación entre dos cantidades proporcionales a la potencia; el número de belios correspondientes a esta relación es el logaritmo de base 10 de la relación. (1 belio =10 decibelios) Binaural: Sonido enviado a ambos oídos. C Cámara anecoica: Recinto revestido en todas sus superficies con materiales acústicos de muy alta absorción en el cual se ha eliminado prácticamente toda reflexión sonora, anulando los efectos de eco y reverberación del sonido. Se utiliza para simular en el laboratorio situaciones de campo libre. Campo difuso: Campo sonoro tal que en un punto dado es igualmente probable cualquier dirección instantánea de la onda sonora. Campo directo: Parte del campo sonoro debido a las ondas sonoras que llegan desde la fuente sin haber experimentado ninguna reflexión. Canal auditivo: Tubo que une el pabellón u oreja con el tímpano. Si bien está ligeramente curvado, tirando del lóbulo suavemente hacia atrás es posible tomar contacto visual del tímpano por medio del otoscopio. Células ciliadas: Conjunto de células con terminación en forma de pelos que transforman en electricidad el movimiento de pandeo de estos pelos causado por la vibración entre las membranas basilar y tectoria. Cóclea: Cavidad con forma de caracol en el hueso temporal que contiene el oído interno: membrana basilar, órgano de Corti y nervio auditivo.

Page 108: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

108

Cognición: Se refiere al punto de vista en la psicología perceptual que promueve no solo la sensación, sino también un alto nivel de procesos en la memoria, entendimiento y razonamiento. D Decibelio: Unidad en la que se expresa el nivel de presión sonora, y en general la relación entre dos valores de presión, tensión eléctrica, o potencia.Decibel: Dicotico: Sonidos diferentes para ambos oídos. Diferencias apenas notables JND: en ingles Just-noticeable differences Diferencia Interaural de Nivel ILD: se define como la diferencia de nivel con el que una señal llega a un oído con respecto al otro. Diferencia Interaural de Tiempo ITD: se define como la diferencia de tiempo de llegada de una señal a un oído con respecto al otro. Difracción: Cambio producido en la propagación de una onda en presencia de un obstáculo. Diotico: Sonidos idénticos para ambos oídos. Distancia crítica: Distancia medida desde una fuente más allá de la cual predomina el campo reverberante por sobre el directo. E Efecto Cocktail Party: la habilidad de una persona de enfocarse en una sola fuente en presencia de múltiples fuentes o ruido de fondo Efecto Doppler: Aumento aparente de la frecuencia de una fuente sonora que se acerca o disminución aparente de frecuencia de una fuente que se aleja. Elevación: Angulo sobre el plano medio. Energía: Magnitud física asociada a un determinado sistema que indica, por ejemplo, la capacidad del mismo de realizar trabajo mecánico. Es la magnitud física más importante. En un sistema cerrado (es decir sin intervención ni interacción externa) la energía cumple con el principio de conservación. Energía acústica: Una forma de energía mecánica relacionada con las vibraciones del aire u otros medios. Enmascaramiento: Fenómeno psicoacústico por el cual un tono débil se vuelve inaudible en presencia de otro más intenso cercano en frecuencia. Enmascaramiento Binaural: fenómeno que ocurre cuando un sonido monoaural enmascara a otro sonido monoaural y se pierde la propiedad de enmascaramiento cuando se escucha binauralmente. Externalización: sentir la fuente sonora virtual fuera de la cabeza. F Filtro: Dispositivo (por lo general) electrónico que permite pasar ciertas frecuencias y bloquea otras. Filtro acústico: Dispositivo que aprovecha las propiedades resonantes de ciertas estructuras acústicas para atenuar o enfatizar ciertas frecuencias en forma puramente acústica.

Page 109: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

109

Frecuencia: Es el número de veces que esta se repite a sí misma en un segundo es el que nos dice el tono de un sonido. Se mide en hercios (Hz) Fuente sonora virtual: Fuente sonora aparente que se crea como consecuencia de la simulación binaural. Función de Transferencia Relacionada con la Cabeza (HRTF): H Herzio (Hz) Es la unidad de frecuencia. Equivale a un ciclo por segundo. Huesecillos Tres pequeños huesos en el oído medio (martillo, yunque y estribo) concatenados para realizar una acción de palanca y transformar oscilaciones de gran amplitud y pequeña fuerza en oscilaciones de pequeña amplitud y gran fuerza necesarias para excitar el líquido de la cóclea. Conceptualmente son un adaptador de impedancia mecánica. Humedad relativa ambiente Concentración de agua en el aire expresada como porcentaje con respecto a la máxima concentración que admite el aire a una temperatura dada. I Imparcialidad: Que juzga o procede sin parcialidad o pasión. Impulso: Una función de gran amplitud durante un tiempo muy corto. El parámetro más significativo es el área del impulso, no su amplitud ni su duración. Matemáticamente se modelizan mediante la función generalizada denominada delta de Dirac. En general se utilizan como señales de prueba. Un ejemplo es el estallido de un globo o un disparo de salva para medir el tiempo de reverberación. Inmersión: sensación de estar en un espacio virtual en 3D. Inteligibilidad de la palabra: Entendimiento de la palabra, habitualmente evaluada por medio de tests de articulación. Intensidad sonora (I): Es el valor medio de la energía que atraviesa la unidad de superficie perpendicular a la dirección de propagación del sonido en la unidad de tiempo. L Lateralización: Ley de Weber-Fechner Ley fisiológica que expresa que las sensaciones, experimentan una variación proporcional al logaritmo de los estímulos. Ley inversa al cuadrado En el campo alejado de una fuente, bajo condiciones de campo libre, la intensidad del sonido varía inversamente con el cuadrado de la distancia desde la fuente; esto da como resultado un descenso en el nivel de presión sonora de 6 dB por cada duplicación de la distancia desde la fuente. Localización: Logaritmo Función matemática que se utiliza para comprimir un rango de tal manera que todas las décadas (u octavas) se convierten en un mismo valor. Puede calcularse en distintas bases, siendo la más frecuente la base 10. Se

Page 110: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

110

abrevia log. Para cálculos teóricos es útil el logaritmo natural o neperiano, en base e = 2,7182818.Logaritmo: Longitud de onda: Para una onda periódica, es la distancia entre dos puntos homólogos consecutivos. M Martillo Huesecillo del oído medio que transmite la vibración del tímpano al yunque. Membrana basilar Membrana dentro del oído interno que vibra al recibir un sonido a través del oído medio en forma tal que diferentes puntos de la misma alcanzan su máxima amplitud de vibración a diferentes frecuencias. Es el órgano primario de la discriminación frecuencial. Membrana de Reissner Membrana dentro de la cóclea que sirve de separación entre la rampa vestibular y la rampa coclear. Mínimo ángulo audible (MAA): es la separación angular más pequeña percibida entre dos sonidos. Monoaural: Sonido enviado solo a un oído. Nervio auditivo Conjunto de neuronas que, provenientes del órgano de Corti, salen de la cóclea hacia el cerebro. Nivel En relación con una magnitud cualquiera, expresión logarítmica de su valor M referido a un valor de referencia Mref (NM = 20 log10(M/Mref)). Se expresa en decibeles, pudiendo agregarse a la abreviatura dB algún sufijo asociado a la referencia. O Objetivo: Juicios, acciones, etc., imparciales. Octava 1. Una relación de frecuencias igual a 2 (octava superior) o a 0,5 (octava inferior.2. Un intervalo musical cuyas frecuencias extremas están en relación de octava. Se verifica entre una nota y la obtenida contando 8 teclas blancas a partir de ella en un teclado (incluidas la primera y la última). Oído externo Parte visible del oído, constituida por la oreja, el canal auditivo y el tímpano. Oído interno Parte del oído en la cual se lleva cabo el procesamiento mecánico y neuroeléctrico del sonido. Está dentro de la cóclea. Oído medio Parte del oído entre el tímpano y la cóclea, cuya finalidad es conducir eficientemente el sonido desde el tímpano hasta el oído interno por medio de los huesecillos, que actúan como palanca. Omnidireccional Tipo de micrófono que es igualmente sensible en todas las direcciones. Tipo de fuente sonora que radia con la misma intensidad en todas las direcciones. Onda 1. Fenómeno físico por el cual una perturbación originalmente localizada en un punto del espacio se propaga hacia otro u otros puntos. Una característica de las ondas es que en ellas no se propaga materia, sino la perturbación o su energía. Existen ondas mecánicas, electromagnéticas, etc. 2. La traza de una onda en un punto determinado, es decir la forma en que

Page 111: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

111

varía en el tiempo una variable física asociada a la perturbación (por ejemplo, la presión sonora). Onda sonora: Una onda mecánica, principalmente en el aire, especialmente con energía en la banda de audiofrecuencias (20 a 20000 Hz). Onda sonora: pabellón auditivo: más comúnmente llamado oreja es la parte más externa del oído, cuya finalidad es conducir la onda sonora hacia el canal auditivo. Funciona como adaptador de impedancia acústica, y juega un importante papel en la percepción de la direccionalidad del sonido. P Periódico/ca: Un fenómeno que se repite en el tiempo exactamente igual después de transcurrido cierto tiempo. Periodo: En una onda periódica, el tiempo T transcurrido entre dos ciclos consecutivos. Perturbación: Cualquier alteración del estado de equilibrio de un sistema. En el caso del sonido, una alteración de la presión respecto a la presión atmosférica. Pitch: Sensación de mayor o menor gravedad o agudeza del sonido. Percepción: se define como el acto de reconocimiento de una o un juego de sensaciones. Potencia Energía transferida por unidad de tiempo. Se mide en watio. Potencia acústica Energía acústica total que emite una fuente sonora por unidad de tiempo. En el caso en que el sonido sea audible, se denomina potencia sonora. Presión atmosférica: Presión del aire en reposo, es decir en ausencia de sonido. El valor normalizado es de 101.325 Pa. Presión de referencia: Presión igual a 20 j Pa utilizada en la definición de nivel de presión sonora. Corresponde aproximadamente al umbral de audición a 1 kHz. Presión estática: En un punto de un medio, la presión que existiría en ausencia de ondas sonoras. Unidad: pascal. Símbolo de la unidad: Pa (1 Pa = 1 newton por metro cuadrado = 10 dinas por centímetro cuadrado).respuesta al impulso. Presión sonora: Diferencia entre el valor de presión instantáneo del aire y el valor de reposo, en ausencia de sonido. Propagación 1. Desplazamiento de una perturbación. 2. Transmisión de un punto a otro de una señal o de energía. Psicoacústica Rama de la Acústica que se ocupa de la forma en que se percibe el sonido. R Rampa coclear:Partición entre la membrana de Reissner y la membrana basilar. Contiene al órgano de Corti. Contiene endolinfa, líquido acuoso rico en iones de potasio.

Page 112: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

112

Rampa timpánica: La parte de la cóclea por debajo de la lámina espiral y la membrana basilar, que se encuentra comunicada con la ventana redonda. Contiene perilinfa, rica en iones de sodio. Rampa vestibular: Partición de la cóclea por encima de la membrana de Reissner. Contiene perilinfa, rica en iones de sodio. Rango dinámico: Diferencia en dB entre los niveles máximo y mínimo de una señal. Reflexión: Fenómeno por el cual una onda sonora cambia de sentido al llegar a una pared rígida, retornando al ambiente acústico del cual provenía. Obedece a la ley especular, es decir el ángulo respecto a la perpendicular a la superficie se invierte. Reflexiones tardías: Reflexiones del sonido que se suceden con gran proximidad entre sí, dando origen al fenómeno nuevo de reverberación. Reflexiones tempranas: Primeras reflexiones del sonido en las superficies de un local, antes de que las reflexiones sucesivas se vuelvan demasiado próximas en el tiempo. Refracción: Fenómeno por el cual una onda es desviada al pasar de un medio a otro, por ejemplo del aire a una pared. Relación señal/ruido: Cociente entre el valor eficaz de la señal y el valor eficaz del ruido, frecuentemente expresado logarítmicamente en dB. En este caso puede calcularse como el nivel de señal menos el nivel de ruido. Resonador Un dispositivo que absorbe energía sonora al entrar en resonancia. Resonador de Helmholtz Un resonador formado por un volumen de aire comunicado con el exterior a través de un conducto angosto. Un ejemplo es cualquier botella. Resonancia Fenómeno que tiene lugar cuando, para cierta frecuencia de excitación, la respuesta de un sistema es mayor que para las frecuencias vecinas. En general se produce en las cercanías de un modo normal del sistema. Respuesta impulsiva: En un medidor de nivel sonoro (sonómetro), la respuesta temporal que se obtiene cuando la constante de tiempo de la promediación es de 35 ms para señales crecientes y 1,5 s para señales decrecientes. Se abrevia IR. Respuesta al impulso relacionada con la cabeza (HRIR): Reverberación Persistencia del sonido en un ambiente acústico cerrado o semicerrado aún después de interrumpida la fuente, debida a la acumulación de energía sonora debido a las reflexiones. RMS: Valor eficaz (siglas en inglés). RT60: Abreviatura de tiempo de reverberación. Ruido:1. Cualquier señal indeseada que interfiere la transmisión, percepción o interpretación de una señal útil. 2. Cualquier sonido de espectro continuo o muy complejo. 3. Cualquier sonido molesto. Ruido blanco: Ruido con gran numero de frecuencias componentes y cuyo espectro es una recta de pendiente 3 dB/octava. Aparece naturalmente asociado a diversos fenómenos físicos. Su denominación proviene de una analogía con la luz blanca, que contiene todos los colores con igual intensidad.

Page 113: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

113

Ruido de fondo: Ruido debido a las fuentes sonoras cercanas y lejanas excepto aquella que se está evaluando. Ruido impulsivo: Ruido de muy corta duración (menor de 50 ms) cuyo crecimiento y decrecimiento son muy rápidos. Ruido rosa: Un tipo particular de ruido cuya densidad espectral de potencia disminuye con la frecuencia con la frecuencia. El espectro de bandas de octava (o de tercio de octava) es, para este tipo de ruido, constante. Por esa razón se utiliza como señal de prueba en varios ensayos acústicos. S Sonido: Onda acústica que se propaga en el aire, agua y otros medios, cuya frecuencia está comprendida entre 20 Hz y 20 kHz, capaz de provocar sensación auditiva. Sonido directo: El sonido que llega a una localización determinada en línea directa desde la fuente, sin ninguna reflexión. Sonido reflejado: El sonido que persiste en un espacio cerrado como resultado de reflexiones repetidas o dispersión; no incluye el sonido que se transmite directamente de la fuente sin reflexiones. Sensación: es definida como el evento mental, que ocurre como resultado de energía física o química que estimula el sistema sensitivo humano. Somático: Relativo al cuerpo. Subjetivo: Que varía con el juicio, los sentimientos, las costumbres, etc., de cada uno. T Tiempo de reverberación: Es el tiempo, expresado en segundos, que transcurre desde que deja de emitir la fuente de energía sonora, hasta que la presión se reduce a la milésima parte, o bien, el nivel de presión sonora se reduce en 60 dB. Tímpano Membrana semitransparente de forma ligeramente cónica que se encuentra en el fondo del canal auditivo. El tímpano vibra a causa de las diferencias de presión entre el exterior y el interior, y comunica esas vibraciones al martillo. Tono 1. Sonido periódico que evoca sensación de altura determinada. 2. A veces, por abuso de terminología, tono puro. 3. Un intervalo musical de alturas equivalente a multiplicar la frecuencia del sonido más grave por 1,12246. Tono complejo Ondas sonoras que contienen componentes sinusoidales de distintas frecuencias. Tono puro: Sonido senoidal puro. Transmisión: Propagación del sonido de un lugar a otro por vía aérea, fluida o sólida. U

Page 114: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

114

Ultrasonido: Variación de presión que, se produce y propaga en un medio elástico,de frecuencia superior a 20 KHz, lo que quiere decir, que no puede ser percibida por el órgano auditivo. Umbral de audición: Mínimo nivel de presión sonora a una frecuencia dada y en condiciones dadas (campo libre, campo reverberante, auriculares, etc.) necesario para evocar sensación sonora. Para 1 kHz normalmente está cerca de los 0 dB. Umbral de dolor: El nivel de presión sonora que comienza a producir dolor de oído. Normalmente está cerca de los 120 dB. V Velocidad del sonido: Velocidad de propagación de la onda sonora. Para el aire es de aproximadamente 345 m/s. Se abrevia c. Ventana oval: Orificio en la cóclea cubierto por una membrana en contacto con el estribo, por el cual ingresan al oído interno las vibraciones correspondientes al sonido. Ventana redonda: Orificio en la cóclea cubierto con una membrana que permite compensar el líquido impulsado hacia adentro de la cóclea por la ventana oval. También se denomina tímpano secundario. Vestíbulo: Parte inicial del oído interno. Vibración: Movimiento, en general oscilatorio (regular o irregular), que experimenta un objeto, parte de él o un medio. Y Yunque: Uno de los tres huesecillos que hay en la parte media del oído de los mamíferos, situado entre el martillo y el estribo.

Page 115: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

115

BIBLIOGRAFIA

ALBERTI, Peter W. The Anatomy ans Physiology of the Ear and Hearing. Toronto: University of Toronto. 11 p. ARAUJO, Leonardo C. y otros. A Brief History of Auditory Models. Center for Research on Speech, Acoustics, Language and Music. Universidade Federal de Minas Gerais. BEGAULT, Durand R. 3-D sound for virtual reality and multimedia. Academic Press Inc, 1994. BURGESS, David A. Real-Time Audio Spatialization with Inexpensive Hardware. Georgia Institute of Technology. BROWN, Phillip C. y DUDA, Richard O. A Structural Model for Binaural Sound Synthesis. En IEEE Transactions on Speech and Audio Processing, Vol. 6, No. 5, pp. 476-487. September 1998. CHENG, Corey I. Visualization, measurement, and interpolation of head-related transfer functions (hrtf’s) with applications in electro-acoustic music. University of Michigan, 2001. DUDA, Richard O. Modeling Head Related Transfer Functions. En: Preprint for the Twenty-Sevent Asilomar Conference on Signals, Systems & Computers. San Jose: Department of Electrical Engineering. San Jose State University, 1993. 5 p. DUDA, Richard O. 3-D Audio for HCI. Department of Electrical Engineering San Jose State University. http://interface.cipic.ucdavis.edu/ FALLER II, Kenneth John y BARRETO, Armando. Simulation and Real-Time Implementation for Teaching 3D Sound. Florida: International University. GRUBE, Manon y otros. Auditory Cortex Role in Human Directional Hearing. En: Plasticity of the central auditory system and processing of complex acoustic signals. New York: Springer Science and Business Media Inc. pp. 289-295. GUNTHER, Ryan T. C. The Use of 3 D Sound as a Navigational Aid in Virtual Environments. Canada: University of Waterloo, 1997.

Page 116: SISTEMA ESPACIALIZADOR DE SONIDO EN TRES DIMENSIONES ...

116

HAWLEY, Monica L. y otros. The benefits of binaural hearing in a cocktail party: Effect of location and type of interferer. Acoustical Society of America, 2004. 11p. ILLENYI, András y WERESENY, György. Evaluation of HRTF Data using the Head-Related Transfer Function Differences. Budapest: Forum Acusticum, 2005. 5 p. MACPHERSON, Ewan y otros. Listener weighting of cues for lateral angle: The duplex theory of sound localization revisited. Kresge Hearing Research Institute. University of Michigan, 2002. MORIMOTO, Masayuki y otros. 3-D Sound Image Localization by Interaural Differences and the Median Plane HRTF. International Conference on Auditory Display. Kyoto, Japan, 2002. NEWMAN, Duncan J. P. Head-Related Transfer Functions. And their application in: Real-Time Generation of Binaural Spatial Audio. St. Lucia: The University of Queensland, October 2003. 74 p. OXENHAM, Andrew J. Binaural Hearing. HST. 723 Neural Coding and Perception of Sound. Harvard-MIT Division of Health Sciences and Technology, 2005. 20 p. PLACK, Christopher J. Auditory Perception. Psychology Press Ltd. Figures, 2004. 20 p. SHILLING, R. y SHINN-CUNNIGHAM, B. G. Virtual Auditory Displays. Aparece en el Handbook of Virtual Environment Technology. K. Stanney (ed), Lawrence Erlbaum, Associates Inc., 2000. SHINN-CUNNIGHAM, B. G. Spatial hearing advantages in everyday environments. Boston: University Hearing Research Center.