Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen...

33
Tecnologías de la Voz – Generación de la señal de voz: Producción III. Percepción Percepción 1. El oido: órganos y su función 2. Percepción auditiva a. Localización de sonidos b. Sonoridad y nivel de sonoridad c. Bandas críticas d. Enmascaramiento e. Percepción de frecuencia

Transcript of Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen...

Page 1: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

III. PercepciónPercepción

1. El oido: órganos y su función2. Percepción auditiva

a. Localización de sonidosb. Sonoridad y nivel de

sonoridadc. Bandas críticasd. Enmascaramiento e. Percepción de frecuencia

Page 2: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Modelo de Comunicación Humana

Page 3: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Anatomy and Physiology of the Ear

Outter EarEardrum protectionSound localizationresonance near 3 kHz

Page 4: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Middle Ear• Protects the inner ear against excessively intense sounds• Impedance adaptation• Lowpass filtering

Anatomy and Physiology of the Ear

Page 5: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

• Inner Ear– transform mechanical

vibrations into electrical excitation of its neural fibers

– Organ of Corti: 30000 sensorial hair cells

– Basilar membrane:length: 35 mmstiff and thin at the beginningcompliant and massive at the apex

Anatomy and Physiology of the Ear

Page 6: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

• Basilar Membrane Behavior– traversal waves coming from outer ear – vibration coming through the bones – maximal vibration of the basilar membrane

at a point depending of the input frequency– the apex responds maximally to low-

frequency tones– the basal responds maximally to high-

frequency tones

Anatomy and Physiology of the Ear

4 0.722.510 zf z en cm−=

Page 7: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Anatomy and Physiology of the Ear

Page 8: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Sound Perception• Sound Localization

– Interaural Time Difference (ITD)– Interaural Intensity Difference (IID)– Head-Related Transfer Functions (HRTF)

a a

φ

φ

2a sen φ

Frequency Attenuation

3000 Hz 10 dB

6000 Hz 20 dB

10000 Hz 35 dB

Page 9: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Percepción auditiva• Propiedades temporales

• Resolución Temporal ....... separación temporal entre sonidos aproximadamente 50 ms

• Efecto de precedencia o Haas .... separación inferior a 50 ms

Ley del primer frente de ondas

mecanismo de inhibición del sistema auditivo que permite localizar sonidos en presencia de reverberación

0 ms 0.6 ms 1.5 ms 10 ms 50 ms

Diferentes retardos sobre el canal izquierdo

Aumento del tamaño de la fuente de sonidoDesplazamiento del centro de gravedad

Page 10: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Percepción espacial: Rayleigh1907 Lord Rayleigh: Teoría duplex

• La localización de los sonidos se lleva a cabo mediante

1. Diferencia de tiempos de llegada a los oidos (ITD Interaural Time Difference)

2. Diferencia de intensidad entre los oidos (IID Interaural Intensity Difference)

a a

φ

φ

2a sen φ

Page 11: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Percepción espacial: ITDRetardo entre los sonidos captados por los dos oidos

τ φ φ= +ac

( sen )

donde c es la velocidad del sonido (340 m/s), a es el radio se la cabeza en el plano azimutal y f es el ángulo de incidencia

azimutal del frente de ondas

Algunos números:Máximo retardo para un ángulo de 90 º, suponiendo a = 10 cm

≈ 0756. msCon este retardo ¿ Cúal es la frecuencia máxima que podemos diferenciar ?

Page 12: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Percepción espacial: ITDFrecuencia máxima

Retardo < Periodo de una sinusoideFrecuencia máxima < 1/Retardo máximo 1500 Hz ≈

0 0.5 1 1.50

102030405060708090

ITD ms

azim

ut

Percepción de diferencias temporales

Page 13: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Percepción espacial: IIDEfecto de difracción en la cabeza

Diferencia entre los niveles de intensidad recibidos por los oidos

IID es dependiente de la frecuencia

Altas frecuencias: efecto de sombra

Diferencias de 20 a 30 dBfrecuencias > 1500 Hz

Bajas frecuenciasNo hay diferencias notables

Page 14: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

OnsetsLos “Onsets” están directamente relacionados con el efecto de precedencia:

Ejemplos:

1. Sistemas de refuerzo sonoro de auditoriosRetardos de 30 a 40 ms en el sistema de refuerzo

vs. cambio de localización

2. Sistemas de sonido en grandes almacenesEspaciosidad del sonido

vs. eco

3. Efecto de Franssen

Sonidos de banda estrecha en cámara reverberante

Page 15: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Localización Vertical y delante/atrás

• La teoría duplex solo explica la localización en azimut, pero no en elevación ni en distancia

Cono de confusión : ángulo azimutal constante

d

a b

c

Page 16: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Sensación de sonido externo: Distancia• Grabaciones estero con auriculares: el sonido está dentro de lacabeza

• Factores que afectan a la sensación de sonido externo:

1. Movimiento de la cabezaPequeños movimientos de la cabeza generan cambiosdel ITD e IID.

Si el sonido no cambia como esperamos, se destruye la imagen del sonido externo y se localiza dentro de la cabeza.

2. Ecos y reverberación

Relación entre la intensidad de sonido directo al reverberante es una indicación de distancia. Sonidos próximos dan ratios grandes

Page 17: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

HRTFWhite noise, free field Pinae folds occluded

Page 18: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Head-Related Transfer Functions

Filtrado espectral del sonido antes de llegar al tímpano debido a las multiples reflexiones existentes en el pabellón del oido externo y partes próximas del cuerpo

Las HRTF varían con la frecuencia, azimut, elevación y distancia

fuente receptor

| ( ) | co s( )H ω ωτ

=2

h t t t( ) ( ) ( )= + −δ δ τ

Page 19: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

HRTF| ( ) | c o s ( )H ω ω

τ=

2

0 5 10 15 200

0.5

1retardo de 0.1 ms (diferencia de caminos de 3,4 cm)

0 5 10 15 200

0.5

1retardo de 0.05 ms (diferencia de caminos de 1,7 cm)

0 5 10 15 200

0.5

1retardo de 0.03 ms (diferencia de caminos de 1 cm)

kHz

kHz

kHz

Page 20: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

HRTFComponentes direccionales y no direccionales de las HRTF

0.1 - 2 kHz

Cuerpo

0.8 - 1.2 kHzreflexión hombros

0.5 - 1.6 kHzreflexión y difracción cabeza

2 - 14 kHzreflexionespabellón

+

Direccionales

No direccionales

> 3 kHzCanal externoimpedancia tímpano

Page 21: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

HRTF

0 20 40 60 80 100 120 140

hrtf (der superior, izq inferior) elev=0, azimut=-45

0 5 10 15 20-80

-70

-60

-50

-40

-30

-20

-10

0

10respuesta frecuencial hrtf.

izquierdo

derecho

frecuencia kHztiempo (muestras)

Page 22: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

HRTF

0 20 40 60 80 100 120 140

hrtf (der superior, izq inferior) elev=40, azimut=-45

0 5 10 15 20-70

-60

-50

-40

-30

-20

-10

0

10respuesta frecuencial

izquierdo

derecho

tiempo (muestras) frecuencia kHz

Page 23: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Sound Perception• Nivel de Sonoridad

– relación entre el nivel de presión sonora y la sensación subjetiva que produce.

kHzenff10e5.6f64.3)f(T 43)3.3f(6.08.0q

2 −−−− +−=

Page 24: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Sound PerceptionSonoridad

Unidad ..... Son: sonoridad de un tono a 1 kHz cuyo nivel de sonoridad es de 40 Phon.

1040F

2S−

=Un incremento de 10 Phon en el nivel de sonoridad, es decir 10 dBSPL a 1 kHz, supone doblar la sonoridad asociada al sonido correspondiente.

Page 25: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Sound Perception• Masking

– Frequency masking: Simultaneous sounds• the perception of one sound is obscured by the

presence of another• the presence of one sound raises the threshold

of hearing for another• lower frequency sounds generally masks a

higher-frequency one• a 1 kHz tone in a narrow band of noise

becomes inaudible when it is 2-6 dB below the noise level

• a 1 kHz tone must be 24 dB higher than the noise to mask the noise

– Temporal masking

Page 26: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

back

Page 27: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Frequency masking

Temporalmasking

Page 28: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

• Critical Bands– A band of noise kept at constant sound pressure

while its bandwidth is increased is heard with constant loudness until the critical bandwidth is attained.

– When two competing sounds signals pass energy through a critical-band, the sound with the higher energy within the critical band dominates the perception and masks the other sound.

– Critical bands correspond approximately to 1.5 mm spacing along the basilar membrane: Approximately there are 24 non overlapping critical bands.

– The loudness of a complex sound depends on the number of activated critical bands.

Sound Perception

2( ) 13arctan(0.00076 ) 3.5*arctan(( / 7500) )B f f f Bark= +

Page 29: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

• Pitch perception– Pitch ..... Perception of sound frequencies

depends on the frequency, loudness and waveformFrequency perception in based on the position of the

maximum excitation of the basilar membrane. Pitch unit: “mel”

1000 mel is the frequency sensation of a tone of 1 kHz

loudness dependencef < 300 increase of the loudness level -> pitch decrease f > 4000 increase of the loudness level -> pitch increase

m f= +⎛

⎝⎜⎞⎠⎟2595 1

70010log

Sound Perception

Page 30: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Hearing AidsSordera, tipos:1. De transmisión, trastornos en la conducción aérea

(otitis, obstrucciones) suelen ser temporales2. De percepción, trastornos en la conducción ósea y

aérea, afección en la cóclea. Puede ser irreversible.

Soluciones: 1. los implantes Cocleares

Estimular directamente las neuronas auditivasque permanezcan sanas

2. Amplificadores (Sonotone), no útil para sorderas profundas

Page 31: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Hearing AidsEsquema de dos alternativas de implante

Page 32: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción

Hearing Aids

Page 33: Presentación de PowerPointphysionet.cps.unizar.es/~eduardo/docencia/tvoz/tema3/tema3.pdf · imagen del sonido externo y se localiza dentro de la cabeza. 2. Ecos y reverberación

Tecnologías de la Voz – Generación de la señal de voz: Producción