Realización y Análisis de Procesos de Arquitectura Sonora...

PROCESOS DE MEZCLA, MASTERIZACIÓN Y CODIFICACIÓN, PARA POSTERIOR ANÁLISIS DE CORRELACIÓN Y/O CONVOLUCIÓN, EN UN

ENTORNO VIRTUAL PARA SONIDO ENVOLVENTE 8.1.

PROYECTO DE GRADO

DIANA CAROLINA MARTINEZ MUÑOZJOSE DANIEL DELGADILLO GAVIRIA

DANIEL CARVAJALINO MURCIA

UNIVERSIDAD DE SAN BUENAVENTURAFACULTAD DE INGENIERÍA

INGENIERÍA DE SONIDOBOGOTÁ, 2008

1

TABLA DE CONTENIDO

Introducción 5

1. PLANTEAMIENTO DEL PROBLEMA 6

1.1. Antecedentes 6

1.2. Descripción y Formulación del Problema 6

1.3. Justificación 7

1.4. Objetivos de la Investigación 8

1.4.1 Objetivo General 81.4.2 Objetivos Específicos 8

1.5. Limitaciones y Alcances del Proyecto 8

1.5.1 Limitaciones 81.5.2 Alcances 9

2. MARCO DE REFERENCIA 10

2.1 MARCO TEÓRICO CONCEPTUAL 10

2.1.1 Sistemas de Sonido Envolvente 10

2.1.2 Proceso de Mezcla 14

2.1.2.1 Procesos Basados en Tiempo 152.1.2.1.1 Reverberación 152.1.2.1.2 Delay 16

2.1.2.2 Procesos Basados en Dinámica 172.1.2.2.1 Ecualizadores 172.1.2.2.2 Compresores y limitadores 192.1.2.1.3 Gate 19

2.1.2.3 Procesos Mixtos 192.1.2.4 Procesos Basados en Ruteo 20

2.1.2.4.1 Surround Panner 202.1.2.4.2 Surround Bridge 21

2.1.2.5 Configuraciones Básicas 212.1.2.5.1 Dinámica y Tiempo 212.1.2.5.2 Tiempo y Dinámica 212.1.2.5.3 Tiempo y Procesos Mixtos 222.1.2.5.4 Procesos Mixtos y Tiempo 22

2

2.1.2.5.5 Procesos Mixtos y Dinámica 222.1.2.5.6 Procesos de Dinámica y Mixtos 222.1.2.5.7 Ruteo y Otros Procesos 23

2.1.3 Proceso de Masterización 23

2.1.3.1 Ecualización 232.1.3.2 Dinámica 24

2.1.4 Procesos de Codificación 25

2.1.4.1 Formatos de Codificación 252.1.4.2 Metadata 292.1.4.3 Opciones de Downmix 302.1.4.4 Medios Específicos 31

2.1.5 Procesos de Convolución y Correlación 32

2.1.5.1 Convolución 332.1.5.2 Deconvolución 342.1.5.3 Convolución por FFT 352.1.5.4 Correlación 352.1.5.5 Autocorrelación 372.1.5.6 Coeficiente de correlación de Pearson 37

3. METODOLOGÍA 39

3.1 Enfoque de la Investigación 39

3.2 Línea de Investigación de USB / Sublínea de Facultad / Campo Temático del Programa 39

3.3 Técnicas de Recolección de Información 39

3.4 Población y Muestra 40

3.5 Hipótesis 41

3.6 Variables 41

3.6.1 Variables Independientes 413.6.2 Variables Dependientes 41

4. DESARROLLO INGENIERIL 42

4.1 Introducción al Sistema de Sonido Envolvente en 8.1 42

4.2 Proceso Anterior a la Mezcla 43

3

4.3 Proceso de Mezcla en 8.1 44

4.4 Proceso de Masterización 49

4.5 Proceso de Codificación 53 4.5.1 Dolby Digital AC-3 54

4.5.1.1 Normalización de diálogos 594.5.1.2 Compresión de rango dinámico 59

4.5.2 DTS 594.5.3 Windows Media 9 60

4.6 Análisis de los Procesos por Convolución y Correlación 62

4.6.1 Desarrollo de algoritmos de deconvolución y convolución 624.6.2 Desarrollo de algoritmos y razonamiento de correlación 71

5. PRESENTACIÓN Y ANÁLISIS DE RESULTADOS 79

5.1 Resultados y análisis de los procesos matemáticos 825.2 Resultados y análisis de la encuesta 82

6. CONCLUSIONES 84

7. RECOMENDACIONES 86

BIBLIOGRAFÍA 87

GLOSARIO 91

ANEXOS

ANEXO A: Definición audio digitalANEXO B: Modelo de encuestaANEXO C: M-Files programas de convoluciónANEXO D: Contenido de DVD’S adjuntos

4

INTRODUCCIÓN

Los sistemas envolventes multicanal han cobrado protagonismo en producción musical y cinematográfica gracias a la creación y masificación de formatos como el DVD, BluRay Disc y HDDVD; los cuales se aplicaron en un principio para la difusión de material cinematográfico. Con esto se creó una herramienta que permite el almacenamiento de señales de audio multicanal junto con archivos de video, lo cual impulsó la rápida implementación de los sistemas de teatro en casa y brindó nuevas alternativas creativas a los diseñadores de banda sonora e ingenieros de sonido alrededor del mundo, incentivando la investigación de nuevas técnicas de grabación y nuevos dispositivos que pudieran adaptarse a estos sistemas y a estos nuevos y versátiles formatos.

Gracias al desarrollo de sistemas y formatos de codificación como el AC-3, wmv, Dolby y Dts, ha sido posible que esta técnica de producción de audio sea aplicada por creadores, diseñadores e ingenieros de sonido, dejándolo al alcance de todo aquel interesado.

En Colombia los sistemas envolventes multicanal han cobrado gran importancia en los últimos años, introduciéndose en todos los campos de la producción, no solo audiovisual sino en el campo puramente sonoro. Es posible también encontrar en el mercado procesadores de señales multicanal y software especializado. A pesar de este desarrollo, existe un gran vacío teórico sobre los procesos que se llevan a cabo para la correcta utilización de las herramientas de los sistemas en 8.1.

En este documento se encontrará la información necesaria para comprender el funcionamiento de tres grandes temas (mezcla, masterización y codificación en el sistema), los cuales son analizados por medio de procesos matemáticos como lo son la correlación y convolución; sus principales características, configuraciones básicas y aplicaciones.

Este es un proyecto que expone claramente cada uno de éstos procesos en forma analítica y audiovisual explícita y especializada.

5

1. PLANTEAMIENTO DEL PROBLEMA

1.1 ANTECEDENTES

En la Universidad de San Buenaventura existen documentos que tratan el tema de arquitecturas virtuales en sonido envolvente pero están limitados a sistemas de 5.1 canales y no tratan como tal los tres procesos a los cuales está dedicado este proyecto de grado (mezcla, masterización y codificación) y tampoco cuentan con un análisis matemático por convolución y correlación para verificar los cambios que suceden en cada uno de estos procesos.

En Colombia, no se ha tratado el tema con profundidad y no existen documentos específicos en el área de ingeniería y además no se han realizado este tipo de análisis por convolución y correlación en sistemas envolventes. Lo más aproximado a estos temas es la certificación Dolby para dos estudios y un teatro1. No existen certificaciones THX en ningún lugar de Colombia.2

En el resto del mundo existen documentos de fabricantes específicos que brindan información sobre los parámetros de sus productos. Además, éstos tratan el tema de forma aislada, y ninguno reúne toda la información necesaria para comprender los procesos que se llevan a cabo en sistemas 8.1. Ninguno de éstos hace referencia a análisis por correlación y/o convolución.

Desde 1984 con el estreno de la película “Star Wars” del director George Lucas, y con la implementación por primera vez masiva de sistemas de sonido envolvente, la industria cinematográfica comenzó a interesarse en el diseño de sistemas de sonido realmente eficientes que emularan todo evento sonoro que ocurriese dentro y fuera del espacio diegético, y en el desarrollo de la tecnología para su correcta difusión.

Desde la década de los 90, con la creación del teatro en casa y el DVD, el sonido envolvente ha cobrado protagonismo y nuevas exigencias y desarrollos tecnológicos han llevado a que el procesamiento de señal en estéreo sufra modificaciones en pro de los sistemas de sonido envolventes multicanal, como lo son nuevos sistemas de software, codificadores y estaciones de trabajo y nuevos medios como el HDDVD y el BluRay Disc.

1.2 DESCRIPCIÓN Y FORMULACIÓN DEL PROBLEMA

Para los procesos de mezcla, masterización y codificación en audiovisuales, especialmente en cine, se requiere un análisis de los cambios que suceden entre procesos con el fin de estudiar el comportamiento de las arquitecturas

1 http://www.dolby.com/uploadedFiles/zz-_Shared_Assets/English_PDFs/Professional/mp_lt_0512_Latin_American_Studio_List.pdf2 http://www.thx.com/cinema/search/index.html

6

http://www.thx.com/cinema/search/index.html

http://www.dolby.com/uploadedFiles/zz-_Shared_Assets/English_PDFs/Professional/mp_lt_0512_Latin_American_Studio_List.pdf

http://www.dolby.com/uploadedFiles/zz-_Shared_Assets/English_PDFs/Professional/mp_lt_0512_Latin_American_Studio_List.pdf

sonoras virtuales. Así mismo, evaluar qué tan significativos son los cambios desde la mezcla hasta la codificación.

Si los procesos de mezcla, masterización y codificación no son tratados con el debido cuidado, las arquitecturas virtuales cambian, tergiversando las intensiones propuestas por los directores del audiovisual. Como herramienta de análisis se utilizan los procesos de convolución y correlación con el fin de observar los cambios de la señal en cuanto a frecuencia, amplitud y espacialización.

Los procesos se realizan en 8.1 canales debido a la proliferación de sistemas de reproducción y codificaciones cuyo objetivo es el de emular cada vez mas específicamente los espacios en los que suceden los audiovisuales.

La información existente acerca de cómo desarrollar los procesos de mezcla, masterización y codificación, es superflua, imprecisa y no es de fácil acceso; por lo cual, para personas interesadas en el tema, es importante documentar cada uno de los pasos en los diferentes procesos.

¿Por qué desarrollar procesos de mezcla, masterización y codificación, para posterior análisis de correlación y/o convolución, en un entorno virtual para sonido envolvente 8.1?

1.3 JUSTIFICACIÓN

La importancia de esta investigación radica en la implementación y análisis de la información concreta, específica y concerniente a los procesos de mezcla, masterización y codificación de sistemas de sonido envolvente 8.1.

El documento servirá como sustento teórico para productores musicales y de banda sonora, además de estudiantes y docentes que tienen especial interés en el campo de sistemas de sonido envolvente y procesos matemáticos para el análisis de los mismos.

La investigación igualmente, satisface las necesidades teóricas de ingenieros que se especialicen en procesamiento de señal, diseñadores y productores de banda sonora, productores musicales y técnicos que desempeñan cargos relacionados con el procesamiento de señal envolvente desde 2.1 hasta 8.1.

Por consiguiente, se hace necesario este análisis para obtener criterios científicos que permitan asegurar que las arquitecturas sonoras se mantengan a lo largo de los procesos de mezcla, masterización y codificación para sonido envolvente.

Es preciso realizar esta investigación debido a la falta de información concreta y explícita de carácter ingenieril para el uso universitario, siendo una propuesta original debido a que se utilizan medios matemáticos y audiovisuales que

7

complementan el documento escrito de forma eficiente, ayudando al mayor rendimiento de las curvas de aprendizaje porque implementan completamente la teoría.

La factibilidad del proyecto se debe a que se requiere de una exhaustiva búsqueda, análisis y procesamiento de información relevante (información superflua en los medios de consulta más comunes), se tiene la disponibilidad de recursos y la ayuda de una de las empresas nacientes en la industria cinematográfica colombiana como lo es el Grupo Enmente, productora de la película Flashback, de la cual es tomado un corte para el desarrollo del proyecto.

1.4 OBJETIVOS DE LA INVESTIGACIÓN

1.4.1 Objetivo General

Desarrollar procesos de mezcla, masterización y codificación aplicado en un audiovisual, para posterior análisis de correlación y/o convolución, en un entorno virtual para sonido envolvente 8.1.

1.4.2 Objetivos Específicos

Implementar los procesos de mezcla, masterización y codificación para un audiovisual.

Realizar un algoritmo en un programa de simulación matemática, que analice por medio de convolución y/o correlación estos tres procesos.

Comprobar mediante un análisis estadístico la evaluación subjetiva de la percepción de los distintos procesos y arquitecturas sonoras virtuales para correlacionar y validar los resultados arrojados por los programas de análisis.

1.5 LIMITACIONES Y ALCANCES DEL PROYECTO

1.5.1 LIMITACIONES

Debido a que la tecnología de codificación y almacenamiento de datos no ha llegado a crear un formato en el que se pueda codificar sistemas de sonido en 8.1, la codificación del sistema se hará en 7.1 y su reproducción en 8.1 canales se hará en sesión abierta.

Para la realización efectiva de los algoritmos, se tomaron fragmentos de los audios de cada uno de los canales y los procesos del audiovisual debido a que

8

los computadores ni el software actuales, pueden procesar volúmenes tan grandes de muestras de datos como los planteados en el audiovisual.

El propósito del proyecto es el de exponer y analizar los aspectos fundamentales en el tema de arquitectura sonora virtual para sistemas de sonido envolvente 8.1 y por esta razón, se debe discernir claramente entre la información relevante y suficiente.

Pueden existir limitaciones técnicas en cuanto a equipos al momento de reproducir el medio audiovisual en ambientes universitarios.

1.5.2 ALCANCES

Con este proyecto, se pretende generar una fuente de información que pueda ser implementada en Colombia en donde se realiza un aporte de carácter científico y tecnológico que va a impulsar la profundización en estos temas enfocados a comunidades ingenieriles, científicas, productores musicales y audiovisuales, cinematográficas y de banda sonora.

Para productores de cine, audiovisuales, banda sonora y estudios que se especializan en el campo de producción con sonido envolvente, se puede garantizar una herramienta que analice la consistencia de sus producciones a lo largo de los tres procesos tratados.

En ambientes universitarios, el proyecto impulsará el estudio y apreciación de nuevas tecnologías y herramientas de análisis y producción en distintos campos del audio y la comunicación.

Se pretende generar una herramienta de análisis de señales digitales en procesos de mezcla, masterización y codificación; no necesariamente para procesos de sistemas envolventes en 8.1. Esta herramienta puede ser utilizada para analizar cualquier tipo de procesamiento de señales digitales.

En Ingeniería de Sonido va a generar un impacto positivo en el área de investigación y estimulación de nuevos procesos y tecnologías que involucran el tema de sistemas de sonido envolventes 8.1.

El medio audiovisual se codificará en 7.1 y también se reproducirá en una sesión abierta en 8.1, en donde se muestran de forma explícita los procesos a tratar.

Los algoritmos utilizados para realizar las pruebas podrían ser utilizados en otras aplicaciones del audio, no solo enfocado a sistemas envolventes y también en sistemas digitales que no necesariamente tienen que ver con el campo del audio.

9

2. MARCO DE REFERENCIA

2.1 MARCO TEÓRICO – CONCEPTUAL

2.1.1 SISTEMAS DE SONIDO ENVOLVENTE

Es necesario conocer el funcionamiento de los sistemas de sonido envolvente para poder ejecutar e implementar correctamente los procesos de mezcla, masterización y codificación para los nueve canales. Una vez expuesto el funcionamiento, se podrá analizar el comportamiento de las señales antes y después de estos procesos.

El sonido envolvente o surround, es el nombre que se le asigna a diferentes técnicas para situar el audio en referencia al oyente y así emular todo evento sonoro en un audiovisual de una forma muy similar a la real. Este sistema de audio deja abiertas todas las posibilidades para situar diferentes fuentes de audio en cualquier punto alrededor del espectador, dándole la sensación de envolvimiento e involucrándolo de una manera placentera en el audiovisual.

Este sistema consiste en diferentes señales de audio que van direccionadas y codificadas para ser reproducidas en cierta cantidad de canales o parlantes dispuestos en posiciones específicas, que finalmente brindarán la sensación envolvente al oyente.

El sonido envolvente se presenta en diferentes formatos y la diferencia entre cada uno depende de dos aspectos, el primero, el número de parlantes que pueden ser desde 3 hasta 24; el segundo es el formato de codificación que depende del dispositivo de almacenamiento.

Estos sistemas de sonido están compuestos por canales con rango de frecuencia completa y canales LFE (Low Frequency Effects) reproductor de bajas frecuencias con un rango aproximado de 25 Hz hasta 120 Hz; cada uno de los parlantes se encuentran ubicados en puntos específicos: al frente del espectador va uno central y un par estéreo y los demás parlantes que se encuentran alrededor del espectador con los cuales se brinda el efecto envolvente.

Esta nueva reproducción sonora no solo se limita a la parte cinematográfica y audiovisual sino que también se encuentra en el ámbito puramente musical, en el cual la distribución se hace con el fin de situar al oyente frente a la banda en una situación real. En este caso en los parlantes frontales se simula una mezcla en estéreo y en los parlantes posteriores se recrea el ambiente con la reverberación o sonidos del público en caso de conciertos en vivo. Existe la posibilidad de realizar la mezcla de la música en la totalidad de los parlantes de modo que los instrumentos se sitúen alrededor del espectador como si éste

10

se encontrara en la tarima.

El más común de estos sistemas es el 5.1, que cuentan con un total de 6 parlantes: uno central frontal C, dos delanteros laterales L y R, dos laterales Ls y Rs y un subwoofer o reproductor de bajas frecuencias. Figura 1. Diagrama de ubicación espacial en 5.13

Tomada de Sonar 7 TrialVersion

Figura 2. Distribución angular de los parlantes en 5.1


. Figura 3. Distribución angular de los parlantes en 6.1


3 Internacional Telecomunications Union, Radiocomunication Sector, Revision of Recommendation ITU-R BS.775-1 - Multichannel stereophonic sound system with and without accompanying picture

11

7.1 son dos parlantes laterales frontales L y R, uno central frontal C, dos laterales Sl y Sr, dos laterales traseros Ls y Rs y subwoofer.

Figura 4. Diagrama de ubicación espacial en 7.1




Finalmente 8.1 cuenta con dos parlantes laterales frontales L y R, uno central frontal C, dos laterales Sl y Rl, dos laterales traseros Ls y Rs, uno posterior Cs y un subwoofer (Figura 6).

Estos arreglos de sistemas de sonido envolvente se hacen con el fin de mejorar las arquitecturas sonoras y por lo tanto ampliar la parte creativa en el momento de realizar el diseño para rodear aún más al espectador.

Los sistemas de sonido envolvente usados en cine consisten en arreglos de paquetes de parlantes distribuidos en todo el teatro de tal forma que cada uno de los canales cubran la totalidad de los espectadores, para esto se necesitarán dos o mas parlantes por canal.

12

Figura 6. Diagrama de ubicación espacial en 8.1




También existe la posibilidad de una configuración para el entretenimiento en lugares pequeños para los cuales se diseñó el ¨teatro en casa¨ que consiste en la configuración estándar de los parlantes según la el sistema deseado (5.1, 6.1 ó 7.1).

En estudios de mezcla y masterización la configuración del sistema tiene que ser específica, se requiere de una calibración y de una distribución exacta de los parlantes de forma que en el punto donde se sienta el ingeniero (sweet spot) se escuche lo que realmente se está reproduciendo.

Para la reproducción de estos sistemas de sonido envolvente, los dispositivos más comunes son el DVD en el cual la máxima codificación es de 7.1 debido a que la tasa de transferencia de información necesaria para mayores codificaciones es mayor a la soportada; por norma, un DVD tiene una tasa de transferencia de 9.8 Mbps la cual es utilizada principalmente por video y debe ser repartida además por los subtítulos, menú, audio y todas las configuraciones simultáneas del DVD por lo cual la tasa de transferencia del audio no alcanza para información mayor a los 8 canales.

13

Figura 8. Diagrama de ubicación espacial en salas de cine

Tomada de Dolby4

En dispositivos como el BluRay y HD DVD también existe la misma restricción aunque el problema se reduce a la carencia de codificaciones debido a que no se ha implementado de forma comercial, ya que resulta inoficioso contar con grandes configuraciones para la reproducción en casa.

2.1.2 PROCESO DE MEZCLA

La mezcla es la parte del proceso de producción en el cual se edita y se busca el balance de los contenidos de frecuencia, amplitud y dinámica de cada una de las pistas que conforman un diseño sonoro ya sea en cuanto a producción musical o producción audiovisual. La señal de audio puede ser transformada mediante diversos procesos para conseguir resultados que difieren según el diseño que se haya construido o los requerimientos de las personas involucradas en su producción. Al aplicar estos procesos en una mezcla envolvente, se puede conseguir toda una nueva gama de resultados que pueden enriquecer la producción realizada.

Lo más importante en este proceso es determinar la estructura o arquitectura sonora virtual (contenido frecuencial, dinámico y espacialización de cada uno de las pistas) de la producción para seguir con el siguiente proceso que debe respetar estas estructuras planteadas desde la mezcla. Para esto, se debe 4 Dolby Laboratories Inc.; 5.1-Channel Music Production Guidelines, 2005.

14

tener un conocimiento específico del proceso de mezcla y sus diferentes herramientas de procesamiento.

Entre las diferentes formas de procesamiento de la señal de audio se encuentran los procesos basados en tiempo, en dinámica, mixtos y basados en ruteo (en donde se asigna la espacialización de las diferentes fuentes sonoras); las configuraciones de los mismos varían según el efecto deseado por el ingeniero.

Dichos procesos se han clasificado en cuatro grandes grupos según el parámetro que afectan:

2.1.2.1 Procesos basados en tiempo

En este grupo se encuentran procesos como reverberaciones y delays; estos procesos tienen gran importancia debido a que tienen la capacidad de generar una percepción de espacialidad en el oyente, el cual es uno de los principales factores en los sistemas envolventes. Dependiendo de su aplicación, estos procesos pueden aportar de manera creativa a la mezcla de 8.1 para una producción musical o un audiovisual, ayudando a obtener una abstracción espacial de la ubicación de las fuentes sonoras y las señales que emiten.

2.1.2.1.1 Reverberación

Es un proceso en el cual se simulan reflexiones de un sonido en un tiempo determinado. La reverberación emula la manera en la cual el sonido es reflejado por las superficies de un recinto. Es por esto que tiene bastantes parámetros ajustables, ya que la naturaleza del sonido reflejado cambia enormemente dependiendo del lugar en el que se encuentra y sus condiciones.

Se necesitan entre 1000 y 3000 ecos separados cada segundo para crear una sensación realista de la reverberación natural, y la distancia entre estas reflexiones debe ser lo mas aleatorio posible o el resultado final podría ser una reverberación con sonoridad no natural. Toda esta serie de procesos engañan al oído haciéndolo creer que el sonido reproducido está ocurriendo en algún tipo de medio real, cuando en realidad el espacio creado es totalmente virtual.

En un dispositivo de reverberación existen ciertos parámetros de control, en los que se da un tipo específico de habitación que hace referencia al tamaño de un espacio virtual en el cual se encuentran las fuentes sonoras; el tiempo de reverberación o sea la duración de las reflexiones según el cuarto en el que se quiera ubicar la fuente; el tiempo de predelay que es el tiempo que se demora el proceso en ser ejecutado después de un lapso dejando que parte de la señal original llegue al oyente sin ser procesada; la difusión es el parámetro en el

15

cual se ajusta la densidad de reflexiones que construyen la reverberación; y por último las frecuencias de absorción con el cual se busca reducir en amplitud ciertas frecuencias simulando espacios más específicos.

La importancia de la reverberación radica en que se puede generar un espacio virtual en el cual se ubican las fuentes sonoras y en el caso de la producción musical en 8.1 es deseable obtener una idea específica de donde se encuentran las fuentes sonoras.

En el caso de audiovisuales es mas notorio el uso de las reverberaciones ya que éstas deben coincidir con lo que es observado en el espacio diegético. Generalmente, la reverberación es usada en todo evento sonoro que sucede en la pantalla, mas comúnmente en las secuencias de conversaciones en donde la reverberación esta ubicada en los canales traseros, dando la sensación del tamaño del cuarto.

2.1.2.1.2 Delay

El delay es la repetición de una señal desplazada en el tiempo con respecto a la señal original. Dependiendo del tiempo que se demore en repetir la señal se denominará el efecto de diferente manera y su percepción cambiará.

Si el tiempo de repetición es lo suficientemente pequeño como para que no haya transcurrido toda una longitud de onda, este efecto recibirá el nombre de phaser, que hace referencia a la superposición de la fase.

Si el tiempo de repetición es mayor al que se demora una longitud de onda, este efecto recibirá el nombre de chorus, en el cual el oyente percibirá un pequeño cambio en la altura del sonido.

En tiempos mayores es posible obtener efectos como el flanger, en el cual se escucha un barrido de frecuencias, pero no se percibe aún una repetición.

En tiempos mayores a tres milisegundos, El oído humano ya puede distinguir 2 repeticiones seguidas. En este caso el efecto es llamado delay.

En un proceso de delay existen ciertos parámetros modificables:

El tiempo de delay hace referencia al tiempo que transcurre en generar la repetición y sumarla a la señal original.

El feedback es el número de veces que se quiere que se repita la señal, lo cual puede variar desde uno hasta infinito, este parámetro es importante en los sistemas de 8.1 porque muestra las características del recinto. Hacen creer que los sonidos se generan en un recinto con varias superficies reflectivas o formas que generan muchas reflexiones. Por ejemplo, para simular la espacialidad de

16

un túnel, se utiliza un feedback en el cual haya 18 repeticiones y un tiempo de delay muy corto.

La ganancia, que es la variación de la amplitud de las repeticiones de la señal original. Este parámetro es de mucha importancia en procesos de 8.1, ya que gracias a este se puede complementar la espacialización que se diseñó de la siguiente manera: Si la repetición tiene menor amplitud que la señal original, dará a entender que la fuente sonora se encuentra en un recinto muy amplio y que debe recorrer una mayor distancia.

El paneo de las voces que indicará en donde se va a generar la repetición, por ejemplo, en el canal frontal derecho, o en el trasero izquierdo. Es útil para 8.1 porque con esta función se pueden crear repeticiones y ubicarlas en el canal más conveniente de acuerdo con el diseño sonoro realizado.

El número de voces, que permite determinar el número de señales que se pueden repetir, cada una con un tiempo, ganancia y paneo determinado. Por ejemplo una señal puede ser asignada por el canal izquierdo con menor ganancia y con un tiempo de cinco milisegundos y otra por el canal frontal derecho con mayor ganancia y con cuatro milisegundos.

Para realizar el paneo, la forma más sencilla es utilizar dos dispositivos idénticos de delay y configurarlos y asignarlos a los canales que se desee, por ejemplo uno para los dos canales frontales y otro para los canales traseros. Es posible utilizar un delay para generar frecuencias bajas que pueden ser asignadas al canal LFE de tal forma que una señal nos pueda generar efectos como explosiones, fuego, entre otros.

2.1.2.2 Procesos basados en dinámica

En este grupo se encuentran los procesadores como compresores, limitadores, ecualizadores y gates; estos tienen la característica de enaltecer u opacar eventos sonoros determinados, ya que modifican y regulan los niveles de amplitud de la señal. En una mezcla en 8.1 este grupo de procesos es de mucha importancia ya que estos dispositivos colaboran para que cada evento sonoro tenga su debida relevancia dentro de la mezcla. Por ejemplo en una producción musical se desea que en determinada parte de la pieza tengan más relevancia que la percusión y las guitarras, pero debe haber claridad en el resto de los instrumentos de la mezcla. Para esto entran en acción los procesadores que se describen a continuación.

2.1.2.2.1 Ecualizadores

La ecualización es el proceso en el cual se modifican las amplitudes de determinadas frecuencias, ayudando a clarificar la mezcla de diferentes maneras, por ejemplo instrumentos o sonidos que no tienen componentes

17

armónicos en determinado rango de frecuencia pueden restringirse por medio de un ecualizador con el fin de darle espacio a otros instrumentos o sonidos que puedan aportarle inteligibilidad a la mezcla; igualmente con sonidos que compartan el mismo rango armónico, se puede por medio de este proceso, restringir cada sonido a una parte de ese rango de tal forma que no se traslapen las frecuencias.

Dentro de los ecualizadores, se encuentran dos grandes grupos: los gráficos que están divididos por bandas en los que se aumenta o disminuye la amplitud de esa banda, reciben este nombre porque el dibujo de la respuesta en frecuencia es similar a los controles con los que se modifican la amplitud de las frecuencias; por otro lado, están los paramétricos en los que se modifica la amplitud de determinadas frecuencias en determinados anchos de banda, dentro de las figuras utilizadas en este tipo de ecualización se encuentran las shelf que atenúan determinado rango de frecuencia y el resto lo reproducen sin realizar cambio alguno, y las tipo peak (campana) en las que a partir de una frecuencia central, las adyacentes a lado y lado se van atenuando.

El ancho de banda es el parámetro que especifica el rango de frecuencias adyacentes que van a ser modificadas alrededor de una frecuencia central, la frecuencia central es en la que hay un mayor cambio de amplitud y determina el centro del ancho de banda, la amplitud es el factor de amplificación que se le va a asignar a las frecuencias que puede ser menor o mayor a uno.

Los enhancers, son un tipo de ecualización que es utilizada para modificar la amplitud de los armónicos de una señal, esto puede ser útil por ejemplo en el caso que se estén reproduciendo sonidos que contengan el mismo rango de frecuencias, para esto, por medio de un enhancer se producirá un efecto en el cual se escuchará el sonido solicitado con solo reproducir sus armónicos o subarmónicos.

En cuanto a la mezcla en sistemas envolventes 8.1, la ecualización puede ser aprovechada de diferentes formas, por ejemplo, si se aumenta la amplitud de frecuencias altas de un determinado sonido, parecerá que éste proviene de un lugar más lejano en el caso en el que éste se encuentre paneado.

Los ecualizadores en los casos de sonido envolvente, son imprescindibles debido a que se pueden utilizar específicamente para simular los HRTF´s (Head Related Transfer Functions) o para tratar de que estos efectos no sean notorios y un sonido gire alrededor del oyente sin ningún cambio aparente.

También son utilizados para determinar un rango de frecuencias específico para cada sonido, lo cual dejará espacio para otros instrumentos en otros rangos, proporcionando más claridad a la mezcla definiendo mejor cada sonido porque no hay un traslape de frecuencias.

18

2.1.2.2.2 Compresores y limitadores

Este efecto se encarga de reducir el nivel de la señal cuando ésta se pasa de un umbral. El umbral es el nivel desde el cual se comienza a atenuar la señal, el ataque es el tiempo que se demora el compresor en ejercer la atenuación sobre la señal que se ha pasado del umbral, el release es el tiempo que se demora el compresor en desactivarse, el ratio es una relación que determina la atenuación de la señal con respecto a la original y el gain es la ganancia que se le va a dar a la señal una vez haya sido sometida al proceso de compresión.

Cuando el ratio es de 1:∞ y el ataque es de cero, entonces el efecto recibe el nombre de limitador, que tiene como función impedir el paso de señales que superen el nivel de umbral activándose inmediatamente.

En sistemas envolventes 8.1, sirve para poder distinguir más cantidad de sonidos dentro de una mezcla, se puede usar también para ayudar a las dinámicas resaltando volúmenes que se necesitan, se escuchen mas fuerte o más suave; igualmente ayudan a darle sustain a instrumentos o sonidos que no poseen, como por ejemplo el contrabajo; finalmente ayudan también a que una mezcla se escuche con más fuerza.

2.1.2.2.3 Gate

Es un proceso que hace que una señal sea reproducida en un lapso determinado de tiempo cuando excede un nivel llamado umbral con tiempo de ataque y un tiempo de release. Este proceso no cumple funciones compresoras. Sus parámetros son attack (ataque), threshold (umbral) y release (liberación). Es un proceso muy utilizado en audiovisuales para evitar sonidos de bajo nivel que no son deseados por ejemplo en los canales de sonido directo de diálogos.

Su aplicación en 8.1 se da cuando hay cambios rápidos de escena o paneos en la pantalla en un audiovisual. En el caso de una escena en la cual un avión atraviesa el espacio diegético rápidamente, se necesita que el sonido desaparezca sincronizadamente. Se aplica un gate, para el cambio rápido de amplitud de un sonido específico sin que la señal sea cortada radicalmente.

2.1.2.3 Procesos mixtos

Son aquellos procesos que tienen parámetros de procesos en el tiempo y también de dinámica o que adoptan parámetros de síntesis. Entre estos existen algunos que utilizan envolventes, ondas moduladoras y ondas moduladas. Un claro ejemplo de esto es el morphoder, o el enigma que toman una onda de entrada y con la cual modulan una onda llamada carrier (transportadora). Funciona como un vocoder en caso de que la onda transportadora sea una

19

voz, y en otros casos funciona como una modulación que puede servir para llevar a cabo efectos sonoros especiales.

Son muy comunes los efectos de tiempo como reverberaciones o delays que a su vez tienen efectos de ecualización dinámica para generar otro tipo de efectos combinados y simular comportamientos acústicos específicos.

Los parámetros mas comunes de estos efectos son los mismos que para los de tiempo aunque también hay los de dinámica, aunque están directamente relacionados evitando ruteos innecesarios y su comportamiento es similar a utilizar un efecto de tiempo y después uno de dinámica (Este es el orden con el cual funcionan los procesos mixtos).

Para 8.1 existen infinidad de casos en los cuales se pueden utilizar estos procesos, en audiovisuales si se emula un lugar como una bodega en la que las frecuencias altas son reflejadas en menor intensidad que las bajas, es decir, hay un corte en las frecuencias bajas.

2.1.2.4 Procesos basados en ruteo

Este tipo de procesos se encargan de distribuir espacialmente la señal de la fuente sonora entre los diferentes canales de la mezcla. Estos procesos son la base fundamental para la mezcla en 8.1 ya que gracias a esta podemos realizar movimientos en el espacio acústico virtual que se crea con los 8 parlantes del sistema. Por ejemplo, en una de las escenas del señor de los anillos en la cual los enviados de Sauron rodean con sus caballos a la princesa Arwen, la distribución sonora permite que el oyente perciba que es rodeado por dichos personajes. En el caso de una producción musical en la cual el cantante se desplaza en el escenario desde la parte de atrás de la batería hasta el frente del escenario, puede ser logrado utilizando el surround panner que va a ser descrito a continuación.

2.1.2.4.1 Surround panner

Es un dispositivo con el cual se puede controlar la ubicación de una señal sonora en un espacio envolvente, direccionándola a cada uno de los canales o mezcla de canales.

Esto determinará la ubicación y el movimiento de la señal que esta siendo emitida. Generalmente se utiliza un Joystick que controla la ubicación de los sonidos que esta distribuida alrededor de una circunferencia que simula el espacio acústico virtual generado por los parlantes, así que el cambio de un parlante a otro puede ser suave o agresivo, dependiendo del manejo que se le de al instrumento y de cual resultado se quiera obtener.

20

2.1.2.4.2 Surround bridge

Es un dispositivo que sirve para utilizar efectos que no están diseñados para procesar señales en 8.1, adaptando los que son monofónicos y estéreo para ser utilizados en este sistema.

Este asigna un canal auxiliar surround en el cual se puede distribuir los efectos para cualquier ubicación de las fuentes sonoras y la cantidad de cada efecto que requiera cada uno de los canales, lo cual dependerá directamente del diseño sonoro.

2.1.2.5 Configuraciones básicas

Cada uno de los procesos explicados anteriormente, pueden ser utilizados de forma individual. También, se deja abierta la posibilidad dentro del proceso de mezcla de combinar estos procesos para obtener un resultado diferente; las diferentes configuraciones entre procesos, son explicadas a continuación.

2.1.2.5.1 Dinámica y tiempo

Al procesar primero la amplitud y después el tiempo de una señal, se obtiene finalmente un sonido que contiene un determinado rango de frecuencias y la variación en el tiempo se realiza sólo en estas frecuencias que son propias de la señal que se pretende reproducir.

Por ejemplo en el cine, en el caso de una explosión, se puede aplicar primero un ecualizador que resalte las frecuencias bajas y luego a estas una reverberación que de espacialidad al golpe; realizar este proceso, evita una saturación ya que las frecuencias altas serán atenuadas y dará espacio a otros sonidos que puedan enriquecer la situación.

En el caso de la producción musical, esta configuración puede ser utilizada en la grabación de una batería, específicamente en el redoblante, al que se le aplica un compresor y posteriormente una reverberación, esto con el fin de dar un rango de frecuencias específicas de este instrumento y dar cabida a otros que contengan un rango de frecuencias distinto al del redoblante.

2.1.2.5.2 Tiempo y dinámica

Esta configuración es muy utilizada en el cine por ejemplo en disparos, ya que al hacer primero una reverberación y luego aplicar un compresor, se escucha un golpe fuerte pero como la reverberación está controlada según el release del compresor, entonces el sonido se desactivará con todo y efectos.

21

En la música, también puede ser utilizado en un redoblante de la misma forma en que se aplica en el disparo en el caso del cine, entonces, el redoblante se escuchará con mucho sustain y tanto la reverberación, como el golpe y la compresión, se silenciarán en el mismo momento.

2.1.2.5.3 Tiempo y procesos mixtos

En el caso en el que se utilice primero un delay y después un vocoder, las señales que se reproducen debido al delay, serán afectadas por la función envolvente del vocoder.

2.1.2.5.4 Procesos mixtos y tiempo

Al utilizar un flanger en el que se van cambiando la ecualización de las repeticiones dándole mas brillo a las repeticiones y quitándole frecuencias bajas; después se realiza un proceso de reverberación. Esta configuración es muy común en el caso de guitarras que tienen el efecto de trémulo creado con el flanger mixto y después se aplica una reverberación para darle más cuerpo y carácter a las guitarras.

2.1.2.5.5 Procesos mixtos y dinámica

Es generalmente utilizada esta configuración cuando se quiere generar distorsiones que no son típicas, por ejemplo en las voces de closer de Nine Inch Nails en las que se utiliza un pequeño chorus de varias voces en el que se varía el paneo de las repeticiones generando una imagen más amplia de las voces, pero después de este proceso se incluye un proceso de compresión exagerada en el que se genera una distorsión tanto de las voces como de las repeticiones.

En el caso de audiovisuales se utiliza para hacer efectos especiales en las voces, por ejemplo de robots o extraterrestres, específicamente en el caso de la guerra de las galaxias cuando Darth Vader le dice a su mayor enemigo que es su padre “luke, i´m your father” utiliza esta cadena de procesos.

2.1.2.5.6 Procesos de dinámica y mixtos

Son comúnmente utilizados por ejemplo en los estilos Dub Jamaiquinos en los que la batería está comprimida y limitada y después de estos procesos se utiliza un delay donde las repeticiones tienen una ecualización que cambia en el tiempo (ecualización dinámica).

22

2.1.2.5.7 Ruteo y otros procesos

Se utilizan para los audiovisuales en sonido envolvente y para el DVD audio. Se utilizan todos los procesos y configuraciones vistas anteriormente, pero son repartidas de manera creativa dependiendo de lo que pasa en la pantalla. En el caso de producción musical, van de acuerdo con los movimientos de las fuentes sonoras en el escenario o en la imagen virtual que se tiene de la mezcla.

Es muy importante este tipo de configuración porque sin ella es bastante difícil realizar suavemente los cambios y movimientos que acompañan el sonido en 8.1 y que son el propósito y finalidad del sistema envolvente.

Este tipo de configuración no funciona en sentido contrario puesto que los efectos de ruteo van desde los procesos que son monofónicos o estéreo hacia la distribución envolvente en 8.1.

Todos los audiovisuales, películas y producciones realizadas con sonido envolvente, utilizan este tipo de configuraciones para llegar a los resultados que se analizaron previamente.

2.1.3 PROCESO DE MASTERIZACIÓN

La masterización es el proceso siguiente a la mezcla y en este, básicamente se hacen los arreglos finales de la producción, se arreglan los últimos detalles tanto técnicos como artísticos que hayan quedado pendientes teniendo presente que no se debe deformar la mezcla hecha previamente y que se debe mantener todo el diseño y la estructura sonora planteada desde la mezcla. Se debe aferrar a un estándar Dolby sugerido para los niveles generales. Estos arreglos finales se hacen a todo el track de audio, en este proceso no existe la posibilidad de hacer mejoras en cada uno de los sonidos, pues para eso se hizo un proceso de mezcla. Sin embargo en el proceso de masterización quedarán totalmente definidas las arquitecturas sonoras virtuales.

El proceso de masterización está dado por diferentes etapas, las cuales no son obligatorias y no se deben realizar siempre, pues el primer y principal paso es escuchar la mezcla realizada previamente y luego, a partir de esto, hacer las correcciones que sean necesarias.

2.1.3.1 Ecualización

Éste proceso dentro de la masterización es muy importante puesto que se debe llegar a un balance armónico, para esto, se eliminan los rangos de frecuencia que estén siendo excedidos o resonancias de algunos sonidos, siempre es mejor bajar de nivel las frecuencias que están altas, que subir de nivel las

23

frecuencias que se encuentren en menor nivel, ya que esto puede tornar confuso el audiovisual o la canción y puede llegar a la saturación.

Igualmente, se debe tener en cuenta que hay elementos que se encuentran en el mismo rango de frecuencia, por lo cual, hacer arreglos a un instrumento o sonido en específico, resultará modificando otro sonido que se encuentre en el mismo rango.

También es importante saber con qué intensión fue hecha la mezcla para no cambiar el balance que se hizo previamente.

Existe también la ecualización dinámica que consiste en procesos de ecualización que varían en el tiempo, esto puede ser bastante útil en el momento de un audiovisual con rangos de frecuencia que estén siendo excedidos en ciertas partes.

La idea de hacer correcciones de ecualización es que los sonidos se escuchen de la misma manera a lo largo del audiovisual o pieza musical para mantener un equilibrio frecuencial.

2.1.3.2 Dinámica

El rango dinámico es otro de los aspectos que se deben tratar en la masterización; éste hace referencia a la diferencia en amplitud entre los sonidos que son muy suaves y los que son muy fuertes, esta diferencia en el cine está aproximadamente en los 30dB.

Se debe tener en cuenta que el rango dinámico se amplía en sistemas de sonido envolvente ya que se cuenta con muchas fuentes sonoras.

El rango dinámico utilizado en el cine, puede ser usado creativamente ya que éste, al tener un amplio rango dinámico, los sonidos de menor amplitud pueden ser realmente bajos como por ejemplo un susurro, el viento y las respiraciones, y los sonidos fuertes pueden ser realmente fuertes como por ejemplo una explosión, un golpe o un grito; por tal razón se debe tener especial cuidado al tratar los rango dinámicos en la masterización, pues el mal uso de los procesos puede cambiar la mezcla completamente y deteriorarla.

Otra de los objetivos de la masterización es dejar todo el audiovisual o pieza musical en un nivel correcto, para esto se realiza un proceso de compresión, para tener mas control sobre los sonidos de forma que los niveles bajos siempre se encuentren en el mismo nivel bajo y los niveles fuertes se mantengan en el mismo nivel fuerte, también se deberá aprovechar que se cuenta con nueve distintos parlantes para aprovechar los 40dB o más de rango dinámico.

24

2.1.4 PROCESOS DE CODIFICACIÓN

Es el último proceso de la cadena de producción, en el cual deben quedar plasmadas las estructuras sonoras virtuales que se plantearon desde la mezcla en la forma más sencilla para el usuario del producto. Este usuario debe entender la intensión que el audiovisual plantea desde la preproducción, haciendo de vital importancia la permanencia de las arquitecturas sonoras virtuales a lo largo de todos los procesos.

Para esto es necesario hacer una explicación detallada de todas las codificaciones existentes en los diferentes sistemas de sonido envolvente y de las características y parámetros que ofrecen cada uno de estos.

2.1.4.1. Formatos de codificación

Los diferentes medios de consumo de audio en sistemas multicanal actualmente son: DVD-V, BluRay, HD DVD, y distintos sistemas de difusión satelital, fibra óptica, e Internet.

Existen varios formatos físicos y de codificación de sistemas de audio multicanal, tales como:

Formato físico: Formato de codificación

- DTS CD: DTS Surround Digital.

- Laser Disc: Dolby Digital, DTS.

- Digital Versatil Disc Video (DVD-V): LinearPCM, Dolby Digital, DTS, MPEG-2 musicam surround.

- SACD: DSD.

- HD DVD: LPCM, Dolby Digital, Dolby Digital Plus, Dolby TrueHD, DTS Digital Surround, DTS-HD high Resolution Audio, DTS HD Master Audio.

- BluRay: LPCM, Dolby Digital, Dolby Digital Plus, Dolby TrueHD, DTS Digital Surround, DTS-HD high Resolution Audio, DTS HD Master Audio.

- Digital Cinema: LPCM.

- Internet Downloadable Video And Audio: Varios Codecs.

25

El formato de codificación más antiguo y más investigado de conversión digital, es el LinearPCM, y así mismo, es preferido para uso profesional hasta el punto de codificación. Aunque no es el más eficiente, es el más simple matemáticamente para procesos como ecualización, comparándolo con otros esquemas de codificación de audio digital.

Por otro lado, es perceptualmente ineficiente, porque sus límites en rangos dinámicos y de frecuencia no se dan por teorías psicoacústicas y así, no discriminan información eficientemente para percepción humana. Además cuenta con limitaciones en cuanto al headroom y la acumulación de ruido cuando se suman los canales.

Una codificación más eficiente, sería una con mayor ancho de banda, mayor rango dinámico, y un mayor número de canales según la resolución en bits. Se podría decir entonces que lo mejor sería no codificar un canal en LPCM, aunque de la misma forma, LPCM es un acercamiento conservativo a la grabación original y la mezcla realizada. Para esto, se necesitaría un sistema de codificación más avanzado que alcance el máximo en calidad.

Las ondas de audio no son totalmente aleatorias, en ellas existe redundancia. Por esto, al ser predecibles, hace que al codificar se pueda reducir la resolución en bits de la señal; hay relaciones de reducción llamadas ganancia de codificación, que pueden ir desde 2:1 hasta un 15:1, todo esto dependiendo de la necesidad del canal y el sistema.

Para pequeñas cantidades de ganancia de codificación hay procesos totalmente reversibles, mejor conocidos como codificaciones Lossless o sin pérdida, que utilizan sistemas de compresión binaria como archivos .zip o .rar para reducir el tamaño del archivo. Un método de compresión sin pérdidas es el MLP (Meridian Lossless Parking).

Además de comprimir información sin pérdidas, incluye capas de error de codificación que protegen la señal de errores de transmisión, soportando hasta 64 canales, indicadores para alimentación de monitores y mucho más.

Para poder manejar una mayor cantidad de canales a una mayor profundidad de palabra, la pérdida de redundancia se debe alcanzar con una mayor ganancia de codificación que la de los codificadores sin pérdidas, usando un método tal como la división de la señal en bandas de frecuencias, y usando la predicción en cada muestra entre las bandas.

Debido a que de muestra a muestra en audio digital estas tienden a ser altamente correlacionadas, se obtiene una ganancia de codificación, codificando la diferencia entre muestras adyacentes con cierto conocimiento de su “historia” en vez del valor absoluto, (las señales de diferencia son más pequeñas que la muestra original y por lo tanto necesitan menor rango en el cuantizador, es decir, menos bits).

26

Un sistema 5.1 de 16 bits a 48KHz grabado en LPCM, necesita un medio de almacenamiento de 3.84Mbps, y la misma relación de transmisión hacia y desde el medio. La capacidad de una estación de televisión digital es de 19Mbps, según el estándar ASTC. Esto hace que el sistema LPCM utilice un 20% de la capacidad del canal, muy alto para ser práctico.

Además, los métodos de reducción de resolución en bits con alta ganancia de codificación, son necesarios en sistemas de audio multicanal que acompañan video. Uno de los esquemas básicos es: en vez de enviar LPCM, enviar información con el valor de nivel para cada muestra en el tiempo, con una serie sucesiva de análisis espectral que serán convertidos después en nivel vs. tiempo por el decodificador.

Estos métodos están basados en el hecho de que el dominio en frecuencia y el dominio en tiempo son representaciones de lo mismo, y que las transformadas entre ellos pueden ser usadas como bases para la codificación; es decir, se puede reducir información en ambos dominios.

Así, nace la necesidad de incrementar la ganancia de codificación con una menor cantidad de bits, y para esto, se aprovecharan las características de enmascaramiento humano.

El efecto Hass, dice que si varios sonidos independientes llegan a nuestro cerebro en un intervalo de tiempo menor a 50 milisegundos, el cerebro los interpreta como uno solo, perdiendo la interpretación de la dirección e interpretándolos como una reverberación o como un eco del primero.

Otro ejemplo de percepción psicoacústica, es que el cerebro parece que usara un proceso de correlación para interpretar patrones. Cuando el umbral de percepción para un acierto correlativo es muy pequeño, el oyente puede percibir que escucha un susurro o fantasma dentro de ruido rosa o en una serie de sonidos indicativos, mientras que estos fantasmas no son reales, el cerebro es el que está llenando el patrón.

El cerebro no solo convence de sonidos que no existen, también esconde los que si existen debido a ciertos parámetros, y esto se llama enmascaramiento.

El enmascaramiento de un sonido se debe a la presencia de un sonido de mayor nivel. El fenómeno de enmascaramiento se da por la presencia de un sonido de nivel muy alto que altera el umbral absoluto de audición, que hace que el sonido enmascarado se escuche con menor nivel, o no se escuche.

Si dos sonidos suceden al mismo tiempo y uno es enmascarado por el otro, esto es enmascaramiento simultáneo, también llamado enmascaramiento frecuencial, en donde la tonalidad de un sonido parcialmente determina su habilidad para enmascarar otros sonidos.

27

Además del enmascaramiento frecuencial, también existe un enmascaramiento temporal. Un sonido de alto nivel cubrirá a uno de menor nivel que ocurre justo después, y además, que ocurre justo antes de él. Éste se conoce como enmascaramiento al revés, y ocurre porque el cerebro registra de forma más rápida el sonido de alto nivel, enmascarando al de nivel mas bajo.

El cuadro temporal de enmascaramiento al revés es corto, pero suficiente para ser arreglado por codificadores de transformada, escondiendo el transiente del ruido de cuantización debajo del enmascaramiento al revés.

Codificadores de transformada como Dolby Digital, utilizan estas características de enmascaramiento para producir una reducción en bits de hasta 15:1 con muy bajo impacto. Sin embargo, es posible que ciertos codificadores se alejen de la transparencia y presenten problemas, tales como los utilizados para transmisión o el almacenamiento en sistemas limitados; Internet, o dispositivos con retrocompatibilidad (DVD-A reproducido en DVD-V).

La estación de trabajo debe ser capaz de trabajar con igual tasa de muestreo y profundidad de palabra que la del formato de entrega final, es decir, el formato de entrega al usuario, porque resultaría inútil hacer transformaciones después, y perder rango dinámico y llenar espacios vacíos con ceros, o en otros casos si se presenta ganancia en el dominio digital, haciendo que el ruido de cuantización predomine.

Se espera también que en procesos de postproducción, los canales se sumen; esto hace que se sume todo el ruido individual de todos los canales, y se reduzca la resolución.

Además, los niveles pico simultáneos, suman más de la capacidad de un canal de salida, haciendo necesaria la limitación para que la suma se ajuste, pero que desorienta absolutamente la dinámica esperada en la producción.

Entonces, cuando se asume que la suma unitaria de ganancia multicanal, la resolución pierde medio bit de resolución cada que se suma el número de canales que contribuyen a un canal de salida final. El ruido debería ser aleatorio y sin correlacionar entre los canales, y entre dos fuentes de igual nivel, va a ser de +3dBFS, 4 fuentes +6dBFS, 8 fuentes +9dBFS y 16 fuentes +12dBFS.

Con una fuente a 16-bits, su rango dinámico será de 93dB, mientras que para la mezcla final será de 81DB SPL. Si se tiene una producción de hasta 105 Db SPL (típico de una producción cinematográfica), el ruido será de 22 dB SPL, y por lo tanto, audible.

Es por esto, que las estaciones de trabajo de audio digital (Digital Audio Workstations, DAWs) utilizan mayores longitudes de palabra, y las estaciones de grabación tengan cada vez mayor profundidad de palabra, para así, al

28

momento de la suma, suavizar estos problemas y permitir menor impacto del ruido.

Con 8 fuentes de 20-bits, dando un rango dinámico de 114dB, menos el ruido sumado, de 9dBFS, se tendría un rango de 105 dB, haciendo el ruido de fondo imperceptible para la mayoría de personas incluso en espacios silenciosos. Esto quiere decir, que si se logra tener el ruido por debajo de los 0dB SPL, el problema de la suma queda prácticamente inaudible (prácticamente debido a que hay oídos entrenados que alcanzan a percibir hasta 5 dB por debajo de 0 dB SPL).

Con convertidores a 24-bits que implican un rango dinámico de 141 dB, las soluciones serían absolutas. Estos niveles son teóricos. Ahora, en el mercado lo mejor y más desarrollado en el momento son los convertidores de 20-bits, con un rango dinámico real de 120dB, ya que existen convertidores a 24-bits con rango dinámico real de 95 dB SPL.

2.1.4.2 Metadata

Para finalizar una codificación, es necesaria información distinta a valores de amplitud y frecuencia de la señal. A esta se le llamaría Metadata, es decir, información acerca de la información de audio, para que el último sistema de reproducción en la cadena logre reproducir lo deseado desde la producción.

Esto se debe a que, información de producción y postproducción debe ser enviada a las etapas de masterización y codificación.

Hoy en día, ésta información se debe entregar de forma escrita, pero se espera poder realizarlo de forma digital acompañando la información básica y principal de amplitud y frecuencia de la onda.

La Metadata para transmisión ha sido estandarizada gracias al desarrollo de tecnologías para televisión, permitiendo que la información contenida encriptada pueda tener mas adelante ejercicios de control para su transmisión o codificación.

La Metadata usada en transmisión de televisión digital ATSC, contiene:

Audio service configuration: Identifica las capas de audio que vienen con el video.

Bit Stream Mode: Identifica el canal entre las capas de audio, por ejemplo: Del Complete Main, la mezcla de diálogos, música y efectos.

Audio Coding Mode: Identifica el número de canales con su designación (frontales, traseros, LFE).

29

Bit Stream Information: Identifica los niveles de la mezcla y los modos de normalización, switch de Dolby Surround, el Control de Rango Dinámico.

En DVD-V, la metadata difiere un poco en cuanto a características, ya que por ejemplo, en ésta se contienen más servicios asociados posibles, tales como comentarios; y en algunos mercados como el asiático, modo de karaoke.

2.1.4.3 Opciones de Downmix

Para equipos de algunos años atrás antes de la comercialización de sistemas de audio multicanal 5.1, es necesario ahora que exista una compatibilidad para sistemas estéreo. Decodificadores tales como Dolby Pro Logic o Pro Logic II permiten esta compatibilidad, realizando una suma de los canales en un canal izquierdo total, y un canal derecho total.

El canal central se distribuye igualmente en ambos canales con 3 opciones de nivel, que dependen de cuánto del canal central es mezclado en los canales izquierdo y derecho. Las alternativas son -3, -4.5 y -6dBFS. Para -3dB es la cantidad correcta de distribución en dos fuentes para que alcancen el mismo nivel.

Para -6dB permite que en el receptor predomine el sonido directo, además que las sumas de las fuentes se dan en 6dBFS debido a que se suman como vectores, como el voltaje. Debido a que -3 y -6dBFS representan los límites, un nivel intermedio podría ser -4.5dB +/- 1.5dBFS.

Al ser una suma de canales discretos, es posible que existan problemas de inteligibilidad del canal central en los canales izquierdo y derecho totales. Por tal razón, el canal central al momento de la mezcla en 5.1, usualmente tiene un nivel de 1 o 2dB más.

Para los canales surround, existen dos opciones: -3dB y -6dB. Para -3dB, es la cantidad necesaria para mantener el nivel original. Para -6dB, es la cantidad necesaria para no hacer tan prominente el contenido del surround contra el sonido de canales frontales, para así evadir problemas de inteligibilidad.

Los métodos de calibración para salas de cine y para teatros en casa son diferentes. En una sala de cine, los canales traseros están 3dB por debajo de los canales frontales, para que la suma equivalga a un solo nivel. En teatros en casa, todos los canales son de igual nivel.

Por esta razón, la mezcla para cine debe ser ajustada al realizar el traspaso a medios caseros. El decodificador Dolby Digital puede realizar esto con tan solo seleccionando la opción correcta.

30

2.1.4.4 Medios Específicos

Los tres formatos que predominan el mercado del sonido para cine hoy en día son Dolby Digital, DTS y SDDS (Sony Dynamic Digital Sound). Para medios caseros, actualmente, predomina el medio magneto-óptico del DVD.

Aunque se estén desarrollando nuevas y mejores tecnologías, el disco versátil digital (DVD) contiene distintos formatos de codificación estandarizados, además que fue uno de los grandes saltos en medios de almacenamiento, ya que puede almacenar 7 veces más que un disco compacto (en discos DVD doble capa, puede ser hasta el doble, es decir, 14 veces un disco compacto, y hasta 24 veces con un doble capa por cada lado).

Un DVD-V, es capaz de almacenar hasta 8 servicios de audio. Servicios tales como Idiomas (Ingles, Español, Portugués), comentario del director, etc.

El orden de los servicios afecta el orden de reproducción de algunos reproductores, ya que algunos por defecto, reproducen automáticamente el primer servicio, que bien puede ser Dolby Surround de dos canales, mas no la mezcla en 5.1.

Estos servicios se limitan a las cualidades del video y su calidad. La tasa de transferencia para una buena calidad de imagen es de 4.5Mbps.

La máxima tasa de transferencia que puede alcanzar el audio es de hasta 6.144Mbps, por lo tanto no se puede utilizar toda la tasa de transferencia disponible.

Por esta razón, codificaciones como Dolby Digital contienen tasas de transferencia de 32 - 448kbps por servicio; o DTS con 192k - 1.536Mbps. Es por esta razón que son los más utilizados.

La demanda por mejorar la calidad de video, debido a los desarrollos en sistemas de televisión. Se abren dos campos: HDDVD y BluRay. Con mejores tasas de transferencia, entran a competir contra las transmisiones satelitales e Internet.

Las diferencias con su precesor el DVD se muestran en la Figura 9.

Los estándares de audio para salas de cine digital se encuentran bajo pocas restricciones en cuanto a tasas de transferencia y compresión, debido a que el audio está en un servidor, en LPCM sin compresión y aun así, es una pequeña fracción de los requerimientos de la película.

Por otro lado, los discos duros son mucho más económicos, disminuyendo la necesidad de absoluta eficiencia y efectividad en el costo.

31

Figura 9. Diferencias entre DVD, HD DVD, Blu-ray Disc.

Modulos de Zona DVD5

2.1.5 PROCESOS DE CONVOLUCIÓN Y CORRELACIÓN

Para realizar el análisis entre procesos ya explicados anteriormente, se hace necesaria la utilización de procesos matemáticos como lo son convolución y correlación. Por medio de éstos se podrán comparar y estudiar cada uno de los procesos, para que, finalmente se observen los cambios de las arquitecturas sonoras virtuales.2.1.5.1 Convolución5 http://www.zonadvd.com/modules.php?name=Sections&op=viewarticle&artid=608

32

La convolución es un procedimiento en el cual se puede determinar la respuesta de un sistema a una señal de entrada a partir de la respuesta del sistema a un impulso. Este se aplica a sistemas LTI (Linealmente Invariantes en el Tiempo)

Una señal se puede descomponer en componentes llamados impulsos. Una señal de impulso está compuesta toda por ceros, excepto un único punto, haciendo posible que esta descomposición en impulsos permita analizar señales una muestra a la vez. En el procesamiento digital de señales, la señal de entrada es descompuesta en componentes aditivos; cada componente pasa por un sistema lineal y los componentes resultantes se sintetizan nuevamente. Este procedimiento puede ser descrito por la operación matemática llamada convolución.

La función delta es un impulso normalizado, con valor 1 en la muestra 0, y con el resto de muestras con valor 0, siendo también llamado impulso unitario. La respuesta al impulso entonces sería la señal que sale de un sistema cuando la señal de entrada es un impulso unitario. Si dos sitemas son distintos de alguna forma, tendran respuesta al impulso diferentes.

Figura 10. Función delta y respuesta al impulso

Tomado de DSP Guide6

En el caso discreto, se sabe que las señales discretas pueden ser representadas por la suma de impulsos discretos que están desplazados y escalados. Ya que se asume que el sistema es lineal e invariante en el tiempo, es decir, la entrada de la señal esta formada por impulsos que también están escalados y desplazados, esto daría como resultado del sistema una suma de respuesta de impulsos que también están escalados y desplazados. La convolución toma 2 señales y produce 1 resultante. En otras palabras, es posible calcular la señal de salida para cualquier señal de entrada si se conoce la respuesta al impulso del sistema.

€

yn[]= (xk[]hn−k[ ])k=−∞

∞

∑

6 http://www.dspguide.com/CH6.PDF

33

La señales en muchos de los casos tendrán miles o millones de muestras, donde usualmente la respuesta al impulso del sistema será unos cientos de muestras más pequeñas. Matemáticamente no hay restricciones de longitud para estas señales, aunque en algunos casos sí se especifica la longitud de la señal de salida.

La convolución es una operación fundamental en el procesado digital de sonido, aunque a menudo se oculten sus efectos bajo otros nombres más populares. Por ejemplo, la salida de cualquier filtro es en realidad una convolución de la señal de entrada con la respuesta al impulso del filtro. Cuando se aplica una reverberación o una ecualización, realmente se está aplicando convolución.

La convolución de dos señales temporales cualquiera equivale a la multiplicación de sus espectros, y de forma inversa, la multiplicación de dos sonidos es igual a la convolución de sus espectros. Convolucionar dos señales de audio es equivalente a filtrar el espectro de un sonido por el espectro del otro; esto se puede entender como filtrar un sonido a través de un ecualizador, cuyos niveles de bandas han sido obtenidos a partir del análisis espectral de otro sonido.

Es posible analizar la convolución desde dos puntos del proceso: Desde el punto de vista de la señal de entrada, en donde es posible analizar cómo cada muestra de la señal de entrada contribuye a distintos puntos en la señal de salida. El segundo punto de vista, es desde la señal de salida del sistema, en donde se examina cómo cada muestra ha recibido información de distintos puntos de la señal de entrada.

2.1.5.2 Deconvolución

La deconvolución es la operación matemática inversa a la convolución. El objetivo de la deconvolución, es de recrear la señal antes del proceso de convolución, necesitando para esto la respuesta al impulso. Para hallar la respuesta al impulso es necesario conocer la señal de entrada y la señal de salida cumpliendo así la propiedad conmutativa de la convolución. . La deconvolución solo es posible en el dominio de la frecuencia. Cada componente de la señal original puede ser modificado en amplitud o fase en el proceso de convolución, en donde la deconvolución debe deshacer estos cambios y recrear la señal original con exactitud y presición, ya que distintos factores, tales como el ruido, resultarían amplificandose en la señal deconvolucionada, obteniendo cualquier señal menos la señal de entrada.

2.1.5.3 Convolución por FFT

34

Para trabajar en el dominio de la frecuencia con señales en el dominio del tiempo, se realiza una convolución por FFT (Transformada rápida de Fourier), esto debido a que la multiplicación en el dominio de la frecuencia corresponde a la convolución en el dominio del tiempo7.

La señal de entrada es transformada al dominio de la frecuencia mediante la Transformada Discreta de Fourier, multiplicada por la respuesta en frecuencia y después transformada al dominio del tiempo por la Transformada Discreta Inversa de Fourier.

A continuación se muestra como una señal de entrada es convertida en una salida por la FFT. Para empezar, la respuesta en frecuencia del filtro se tomó de la transformada discreta de fourier del filtro kernel usando la FFT.

Se muestra una parte el filtro de kernel en la figura 11(a). La FFT convierte la señal de entrada que se encuentra en el dominio del tiempo, en partes real e imaginaria en el dominio de la frecuencia indicadas en las figuras 11(b) y 11(c).

Estas señales, en el dominio de la frecuencia se ven escalonadas debido a que la forma polar es la mejor para entenderlo, y escalonada, facilita la realización de cálculos matemáticos.

La figura 11(d) muestra una señal de entrada que será procesada, la FFT es usada para obtener el espectro de la frecuencia mostrado en las figuras 11(e) y 11(f), el espectro en frecuencia de la salida se haya por medio de la multiplicación entre la respuesta en frecuencia de los filtros 11(b) y 11(c) por 11(e) y 11(f) como lo indica la figura.

La FFT inversa es usada para encontrar la señal 11(g) a partir de los espectros en frecuencia 11(h) e 11(i). Es importante reconocer que la señal 11(g) es la misma que se obtuvo por la convolución directa de la señal 11(d) y el filtro kernel 11(a).

2.1.5.4 Correlación

La correlación es una operación matemática que permite cuantificar el grado de similitud entre dos señales, aunque aparentemente no haya evidencias de coincidencia temporal entre ellas. Esta operación es muy similar a la convolución, la diferencia entre ambas operaciones está en el signo (reflexión temporal) de uno de los operandos. Sin embargo, las propiedades y aplicaciones de las operaciones de convolución y correlación son distintas. Al igual que la convolución, produce a partir de 2 señales una tercera señal, llamada la correlación cruzada de las dos señales de entrada.

Figura 11. FFT

7 http://www.dspguide.com/ch18/2.htm

35

Tomado de DPS Guide

Para el caso continuo se define como:

€

Rxy(t)=x(t)**y(t)= x(λ)y(λ−t)dλ=x(t)*y(−t)−∞

∞

∫

Para el caso discreto se define como:

36

€

Rxy n[]= xk[]yk−n[ ]k=−∞

∞

∑ Para n=0,+-1,+-2,+-3,…

Las propiedades de la correlación son:

Número sin dimensiones de -1 a 1.

Si las variables son independientes r=0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí.

Si las variables estuvieran relacionadas linealmente r=1

2.1.5.5 Autocorrelación

Se define como la correlación cruzada de la señal consigo misma, ésta resulta útil para encontrar patrones repetitivos dentro de una señal.

Simetría: R(i)=R(-i)

La función de autocorrelación alcanza un valor máximo en el origen, donde alcanza un valor real. Como la autocorrelación es un tipo específico de correlación, mantiene todas las propiedades de la correlación.

La autocorrelación de una señal tendrá un fuerte pico en τ = 0 y valores cercanos a cero y sin ninguna estructura para cualquier otro τ. Esto muestra que la señal carece de periodicidad.

2.1.5.6 Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson (r) es un índice estadístico que mide la relación lineal entre dos variables.

El valor del índice de correlación varía en el intervalo [-1, +1]:

Si r = 0, no existe ninguna correlación. El índice indica, por tanto, una independencia total entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el valor que pueda tomar la otra.

Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en idéntica proporción.

Si 0 < r < 1, existe una correlación positiva.

37

Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en idéntica proporción.

Si -1 < r < 0, existe una correlación negativa.

38

3. METODOLOGÍA

3.1 ENFOQUE DE LA INVESTIGACIÓN

El enfoque de la investigación es Empírico-Analítico porque su interés es el técnico orientado a demostrar por medio del análisis matemático y estadístico, la permanencia de las arquitecturas sonoras a lo largo de los procesos de mezcla, masterización y codificación en sistemas envolventes 8.1 mediante la utilización de algoritmos que realizan procesos de convolución y correlación; se analizará cada uno de los procesos arrojando aseveraciones teóricas que serán enfrentadas por medio de la correlación estadística a un análisis subjetivo, por medio de entrevistas. Realizando de esta manera los análisis se puede llegar a conclusiones más objetivas y descriptivas del funcionamiento real de los tres procesos tratados en sistemas envolventes 8.1.

Las pruebas matemáticas, por medio de algoritmos de convolución y correlación serán usadas entre procesos y en forma secuencial (entre mezcla y masterización, y entre masterización y codificación), para obtener información relevante que pueda compararse a lo largo de toda la cadena.

3.2 LÍNEA DE INVESTIGACIÓN DE USB / SUBLÍNEA DE FACULTAD / CAMPO TEMÁTICO DEL PROGRAMA

En Ingeniería de sonido este proyecto hace parte del campo de investigación de Producción y Grabación debido a que trata tres grandes temas que se llevan a cabo dentro del proceso de producción (mezcla, masterización y codificación), además de las herramientas matemáticas relevantes para el análisis de los distintos procesos.

El proyecto se encuentra en la sublínea de Instrumentación y Control de Procesos debido a que se crearán unas herramientas matemáticas para el control de los tres procesos tratados en sistemas envolventes 8.1 lo que conlleva a la línea institucional de Tecnologías Actuales y Sociedad.

3.3 TÉCNICAS DE RECOLECCIÓN DE INFORMACIÓN

Debido a que uno de los objetivos del proyecto es confrontar resultados subjetivos y objetivos, la recolección de la información se hace mediante dos diferentes formas, una para la parte subjetiva y otra para la parte objetiva:

Para tomar los datos de la parte subjetiva, se realiza una encuesta para evaluar la percepción de cada uno de los diferentes procesos en el espectador, se propuso un modelo de encuesta que consiste en tres partes:

39

En la primera, se evalúa el proceso de mezcla en el cual se pretende saber la forma en la que el audiovisual fue percibido por el espectador para posteriormente evaluar los cambios entre procesos.

En la segunda y tercera parte de la encuesta que correponden a los procesos de masterización y codificación, las preguntas son similares a las de la mezcla, con la diferencia que en las respuestas lo que se busca, son los cambios percibidos por la persona con respecto a la mezcla.

En cada una de las encuestas, las preguntas van direccionadas a diferentes aspectos que se propusieron en la mezcla del audiovisual (reverberación, espacialidad, dinámica, entre otros).

En cuanto a la información de la parte objetiva, se realiza la programación de un algoritmo en un software de programación matemática con el fin de analizar los archivos de audio (los bounces de cada uno de los procesos de mezcla, masterización y codificación), compararlos entre ellos y sacar conclusiones matemáticas al respecto.

3.4 POBLACIÓN Y MUESTRA

La población que se requiere para contestar la encuesta debe cumplir con un único requisito: ser ingeniero de sonido o ser estudiante de ingeniería de sonido; esto debido a que los procesos realizados en el audiovisual (en cuanto al procesamiento de señales de audio) y las preguntas hechas en la encuesta, requieren de un conocimiento medio-alto en ingeniería de sonido, más específicamente en la línea de producción.

Para determinar el tamaño de muestra necesario de forma que los datos sean válidos, primero se fijó una población N=500 debido a que es el número aproximado de estudiantes de la Universidad de San Buenaventura de ingeniería de sonido.

De una población de 500 estudiantes de ingeniería de sonido de la Universidad de San Buenaventura, se necesita conocer el número de personas a encuestar para tener información adecuada con error estandar menor a 0.05 al 95% de confiabilidad.

Se tiene que n (muestra de la población) es igual a

n= n’/[1+(n’/N)]En donde n’= (s^2)/(σ^2)

Se tiene que (SE) es el error estandar que al elevarse al cuadrado permite determinar σ^2, ya que (SE^2)=(σ^2) es la varianza poblacional, y (s^2) es la varianza de la muestra, la cual podrá determinarse en términos de probabilidad como (s^2)=p(1-p).

40

Se resuelve, (σ^2) = (SE^2) = (0.05^2) = 0.0025

(s^2) = p(1 - p) = 0.95 ( 1 - 0.95 ) = 0.0475Entonces,

n’= (s^2)/(σ^2) = (0.0475) / (0.0025) = 19n= n’/[1+(n’/N)] = 19 / [ 1 + ( 19 / 500 ) ] = 18.3

3.5 HIPOTESIS

Las arquitecturas sonoras virtuales generadas en la mezcla deben permanecer a lo largo de la cadena de procesos al tratar, teniendo en cuenta variables como amplitud y frecuencia.

3.6 VARIABLES

3.6.1 Variables independientes

Al tratar los procesos de mezcla, masterización y codificación como eje del proyecto, variables como el tiempo, la frecuencia y la amplitud serán consideradas independientes justo antes de cada proceso ya que se pretende analizar por medio de algoritmos matemáticos, las modificaciones que producen cada uno de estos procesos en las señales de audio tratadas.

3.6.2 Variables dependientes

Al analizar cada uno de los procesos por medios matemáticos, las varibales dependientes seran el tiempo, la frecuencia y la amplitud justo despues de realizar cada uno de estos, de esta manera, las variables serán el resultado de las mismas antes de procesar la señal junto con el procesamiento, de modo que diferentes entradas a los procesos, producirán diferentes salidas.

41

4. DESARROLLO INGENIERIL

4.1 Introducción al sistema de sonido envolvente en 8.1

El montaje del sistema envolvente es de gran importancia ya que se requiere de un monitoreo que reproduzca fielmente el sonido. Lo ideal, es tener el sistema calibrado de la misma forma en el desarrollo de cada uno de los procesos, y también en el momento de ser presentados a los espectadores. Se debe tener clara la disposición de los parlantes y los niveles de calibración, para posteriormente ejecutar los procesos de mezcla y masterización. El montaje del sistema debe cumplir a cabalidad las normas sobre ruteo, calibración y disposición de parlantes para poder representar de manera óptima las arquitecturas sonoras virtuales planteadas desde la preproducción del audiovisual.

Para el monitoreo del sonido envolvente, se recurrió a un sistema convencional de teatro en casa de 5.1 canales certificado por THX, y se le adicionaron tres parlantes que cuentan con una respuesta muy aproximada a los del sistema, una tarjeta de sonido FireWire M-Audio 410, un computador PC que contaba con un DAW (Sonar 7 TrialVersion) shareware de 60 días con pequeñas restricciones que no afectaron los procesos.

Cada uno de los parlantes se encontraba situados en el lugar específico y con el nivel preciso para contar con un total de 83dB en el momento de monitorear.

Los parlantes, son parlantes satélite que no reproducen todos los rangos de frecuencia por lo cual, se hizo necesario el uso del “Bass Management” con el fin de direccionar las bajas frecuencias que no son capaces de reproducir los parlantes satélites, al subwoofer y poder tener un control sobre todo el rango; sin embargo también es posible aún con bass management direccionar ciertos sonidos sólo al canal LFE.

Se debe tener especial cuidado con el manejo del bass management ya que se debe ser consiente que los parlantes en un montaje óptimo, son de rango completo y por lo tanto los sonidos de bajas frecuencias se reproducirán en todo el teatro.

Aparte del sistema montado con el teatro en casa, se hicieron monitoreos en el estudio de sonido del Grupo Enmente (productora de cine colombiana) que cuenta con mejores condiciones como parlantes iguales y de rango completo (4 pares de parlantes M-Audio BX8), una sala con las características acústicas necesarias y una correcta calibración del sistema envolvente; todo esto, con el fin de asegurar que la mezcla y la masterización estén correctas.

En cuanto al montaje que se realizó para las encuestas, se utilizaron 4 diferentes pares de parlantes, y un subwoofer.

42

Para lograr una buena reproducción del audiovisual, fue necesario hacer una calibración debido a las grandes diferencias entre parlantes, para esto, debido a que la presentación de la mezcla y la masterización fueron presentadas en sesión abierta, se tuvo la posibilidad de poder ecualizar cada uno de los canales que estaban direccionados a cada uno de los 9 parlantes, logrando así una buena respuesta en frecuencia; igualmente se realizó una calibración de niveles con el fin de obtener en total los 83dB necesarios para la reproducción y percibir correctamente el efecto envolvente.

4.2 Proceso anterior a la mezcla

Para realizar el proceso de mezcla, previamente se hizo un proceso de doblaje, un proceso de foley, uno de sonidos ambiente y finalmente uno de musicalización. Todos estos procedimientos anteriores a la mezcla, fueron necesarios hacerlos, con el fin de tener cada uno de los sonidos del audiovisual de la mejor forma, entendiéndose por esto, una correcta grabación en estudio, edición, sincronización y montaje. Igualmente al recrear cada uno de estos sonidos, se tiene el control sobre absolutamente todos los parámetros que podrían afectar o limitar la mezcla, como por ejemplo tener sonidos directos, grabados con la reverberación del lugar, reverberación que puede no ser eficiente o que puede no ser acorde a la intensión del espacio que se pretende recrear.

Estos procesos se realizaron como un procedimiento extra al presente proyecto, por tal razón no se ahonda en el tema y simplemente se establece la relación con el proceso de mezcla y la importancia de realizarlos para obtener la arquitectura sonora deseada para el audiovisual.

Para la grabación de foleys, se recreó un set con diferentes objetos de distintos materiales con el fin de reproducir los mismos sonidos que se observan en el audiovisual.

En la captura fue necesario tener especial cuidado con la ganancia del micrófono, siendo necesario realizar pruebas para saber el límite en el cual el nivel de ruido es perceptible o lo suficientemente alto para confundirlo con los sonidos grabados, ya que se encuentran unos muy suaves como por ejemplo caricias y sábanas.

En cuanto al doblaje, éste se realizó en el estudio de grabación recreando un ambiente similar al de la película con el fin de inducir a los actores a las mismas situaciones en las que se encontraron al filmar la escena; éste se realizó con dos micrófonos, uno de condensador y uno dinámico ya que el rango dinámico en las voces era amplio debido a que se encuentran desde susurros y respiraciones, hasta sonidos de un alto nivel como lo son los gritos.

43

El audiovisual aunque sucede en un solo escenario, fue necesario grabar diferentes ambientes ya que en determinados momentos un ambiente cobra protagonismo de acuerdo a la curva dramática del audiovisual y con el fin de brindar espectativa y suspenso en el espectador. Para estos ambientes, la grabación se realizó en exteriores ya que la única forma de recrearlos fue grabándolos directamente. Dentro de estos ambientes se encuentran los pájaros típicos de madrugada en Bogotá, el ambiente de ciudad con un movimiento normal de tráfico y de personas en sus actividades diarias y finalmente sonido de árboles con mucho viento golpeando contra las fachadas de las casas en las calles de la ciudad. Para la grabación de éstos, se utilizaron micrófonos de condensador y un equipo portatil.

La idea de grabar cada uno de los sonidos, voces y ambientes; es poder obtener un control total sobre cada sonido por lo cual se necesita que cada captura esté limpia y no cuente con ningún tipo de reverberación. También se tiene en cuenta que en el doblaje está abierta la posibilidad de grabar diferentes intensiones y además da al director la opción de cambiar diferentes diálogos.

Al terminar con el proceso de grabación, edición, sincronización y montaje de los sonidos, se prosiguió con la musicalización del audiovisual; la película Flashback cuenta con un tema principal que tiene gran protagonismo dentro de la historia que se narra, éste tema es Aire en G del compositor Johann Sebastian Bach. Para la película, se grabó un arreglo del grupo de música barroca Extempore, que cuenta con: un violín barroco, una viola barroca, un violonchelo barroco y un clavecín. La grabación se realizó en una de las locaciones de la película que cuenta con una alta reverberación; la grabación fue en bloque, se contó con un micrófono para cada instrumento y un micrófono para capturar el ambiente propio del lugar (técnica estéreo XY).

Aparte de la obra clásica, el audiovisual también cuenta con música original que fue realizada con síntesis samples de instrumentos sinfónicos y con grabaciones de instrumentos.

Una vez terminada, pre-mezclada y montada la música, se prosiguió con el proceso de mezcla, que es efectivamente uno de los objetivos del proyecto.

4.3 Proceso de mezcla en 8.1 canales

Una vez montado el sistema, y finalizados los sonidos, se continúa con el proceso de la mezcla, en el cual se determinará la arquitectura sonora virtual por medio de los diferentes procesamientos a la señal de audio. Esta arquitectura sonora es la que se analizará de acuerdo a los cambios hechos por la masterización y codificación.

Se inició con todo el procesamiento de las voces, teniendo en cuenta que en el audiovisual solo hay dos actores, un hombre (Darío) y una mujer (Camila). Se

44

realizaron primero correcciones y arreglos para que todo el canal fuera consecuente con lo presentado en la parte visual, luego se realizó una ecualización para cada actor; a Darío se aplicó un incremento en bajas frecuencias y a Camila se aplicó un incremento en altas frecuencias para resaltar ciertos armónicos en las respiraciones, también a los dos canales de voces se les aplicó un corte en frecuencias muy bajas con el fin de asegurar que ningún sonido de grabación como golpes de micrófono entre otros quedaran.

En momentos en que las voces se encuentran detrás de una puerta, muro u obstáculo, se realizaron ecualizaciones aprovechando el conocimiento del filtro de peine y efecto de proximidad, por lo cual para hacer que la voz pareciera provenir de allí, se hizo un incremento en bajas frecuencias (efecto de proximidad) y una ecualización especial para el filtro de peine.

Figura 12. Ecualización Filtro de peine.


Se utilizó un gate en los dos compresores: en -65.1dB para Camila y en -63.7 dB para Darío; el compresor utilizado está en autogain, el cual queda siempre en cero. Así mismo el ratio y treshold que en este caso son uno solo, es decir, muestran exactamente cuánto se quiere de gain reduction, el cual para el audiovisual se tiene en -10dB. Ésta configuración funciona para ambos y no es una compresión pesada para los niveles manejados de grabación, igualmente, la compresión en el peor de los casos, es de 10dB y se aplicará sólo en sonidos de alto nivel como los gritos. También se tiene encuenta que el compresor también aporta inteligibilidad a diálogos y respiraciones.

Terminadas las voces, se continuó con los ambientes, se contó en total con 4 canales estéreo de ambientes:

45

El primero de ellos, fueron los pájaros a los cuales se les aplicó una ecualización para restringirlos en un pequeño rango desde 2kHz hasta 8KHz, esta radical ecualización se aplicó porque la grabación quedó con muchísimos sonidos de baja y alta frecuencia que no aportaban nada y si molestaban o se confundían como errores de grabación.

En el segundo canal de ambientes, se encuentra la ciudad a la cual, también solo se le aplicó ecualización, para cortar altas frecuencias y lograr el efecto de ciudad que se escucha normalmente a la madrugada.

En el tercer canal de ambientes, está el acuario que contiene un corte en bajas y altas frecuencias para ignorar sonidos que no son propios del acuario y también para no darle tanta relevancia a este sonido cuando no se encuentre en primer plano, igualmente, se incrementó en frecuencias medias con el fin de resaltar sonidos de burbujas típicas de un acuario.

El último canal de ambientes está dado por sonidos de hojas golpeando contra un muro para lograr el efecto deseado, se aplicó un efecto de flanger y una ecualización para ignorar sonidos que no son propios del efecto deseado.

A los canales de ambientes, se les aplicaron pocos procesamientos de señal debido a que con solo la grabación el sonido obtenido era muy próximo al deseado. Todos se dejaron en general en un muy bajo nivel en un rango desde -45dBFS hasta -37dBFS, pues la idea es que el espectador no perciba cada ambiente por separado, sino que sienta todos los sonidos como parte de toda la atmósfera. En cuanto al protagonismo que gana algún ambiente de acuerdo a la curva dramática del audiovisual, los niveles se manejan con automatizaciones de volumen.

Al tener ya una estructura sonora del audiovisual (voces, música y ambientes), se continuó con una revisión rápida a los demás sonidos como golpes, puertas, sábanas, entre otros; ésta revisión consistía simplemente en correcciones de nivel ya que luego de ser grabados éstos pasaron por el proceso de edición en donde los arreglos eran mínimos debido a que se tratan de sonidos muy específicos y simples.

Como el audiovisual sucede en una habitación y posteriormente en un baño, se crearon 4 canales auxiliares envolventes los cuales eran dedicados, dos para recrear el espacio de la habitación y otros dos para recrear el espacio del baño.

Cada uno de estos canales auxiliares contaban con una tipo de reverberación distinta; la idea de utilizar dos reverberaciones distintas en cada lugar, es tener una reverberación para los canales frontales y otra distinta para los canales de atrás teniendo en cuenta que en lo canales traseros, solo se envía la reverberación sin los sonidos es decir el efecto sin la señal de entrada (wet). Esto proporcionará con más claridad al espectador, el tamaño y el tipo de

46

cuarto en el que están sucediendo las cosas dando como resultado, una sensación más envolvente.

Cada uno de los canales, por medio de un envío (send), y con una automatización de ruteo, se direccionaron a los canales auxiliares dependiendo de la ubicación del sonido de acuerdo con lo que pasa visualmente en el material, así se recrearon los espacios y lugares de la escena e igualmente se hizo la espacialización de acuerdo a los planos mostrados en el audiovisual.

El canal de las voces fue direccionado al canal central frontal manteniendo un rango dinámico que va desde -38dBFS para respiraciones hasta -9dBFS para gritos.

Las voces en el canal central frontal no cuentan con ningún tipo de reverberación, ya que éstas deben ser lo más claras y limpias posibles con el fin de que sean totalmente inteligibles. Los únicos paneos realizados en este canal fueron hechos cuando los actores se encontraban en lugares totalmente opuestos y por lo tanto la espacialización de voces fuera obvia y obligatoria.

En cuanto a la reverberación de las voces, éstas fueron ruteadas a los canales auxiliares que contienen los respectivos efectos de reverberación, o sea que las voces en los canales frontales izquierdo (L) y derecho (R) contienen parte de las voces junto con el efecto de la reverberación; en los canales laterales izquierdo (Sl) y derecho (Sr) hay un poco más de efecto de reverberación y menos voces, y por último en los canales laterales traseros izquierdo (Ls), derecho (Lr) y trasero central (Cs), solo es enviado el efecto de la reverberación sobre las voces sin la señal original. (Figuras 11 y 12).

El canal de los pájaros y el canal de las hojas, no fue direccionado a ninguno de los canales auxiliares ya que este sonido se encuentra fuera de los dos espacios propuestos; por esta razón y al ser canales estéreo, fueron direccionados en la mayoría de tiempo a los canales izquierdo frontal (L) y lateral izquierdo (Sl); el único momento en el que éstos canales fueron direccionados a los tres canales frontales, fue en la escena en la cual la toma se realiza desde afuera de la casa y la actriz se ve por una ventana.

Al observarse la fachada del lugar, es necesario que todo el ambiente sonoro sea correspondiente en ese momento al del ambiente de la madrugada de la ciudad, para esto, se automatizaron parámetros de la ecualización con el fin de abrir los cortes y ampliar el rango frecuencial de los sonidos, igualmente, el nivel fue incrementado, así estos canales obtuvieron protagonismo siendo consecuentes con la escena observada. Al terminar esta escena, estos canales regresaron a la normalidad por medio de otra automatización. En el momento en que el audiovisual sucede en el baño, los pájaros y las hojas van desapareciendo por medio de un fade out.

47

Figura 13. Reverberación canales L y R.


Figura 14. Reverberación canales Sl-Sr, Ls-Rs, Cs.


El canal de la ciudad al igual que los anteriores, no cuenta con un envío a ninguno de los canales auxiliares, sino que, se encuentra direccionado todo el tiempo a los tres canales posteriores, es decir, a los laterales izquierdo y derecho (Ls y Rs) y al central trasero (Cs). Al igual que los anteriores, en el momento en que el audiovisual sucede en el baño, éste canal va desapareciendo con un fade out.

El canal en el que se encuentra el sonido del acuario, va en un principio en un muy bajo nivel y direccionado a los canales frontal derecho (R) y al lateral derecho (Sr), en el momento en el que el acuario se muestra en primer plano, éste es direccionar a los canales central frontal (C), izquierdo frontal (L) y al

48

derecho frontal (R) con automatizaciones de nivel y de los parámetros de ecualización con el fin de darle protagonismo y mostrar el rango frecuencial completo del sonido. Luego de este primer plano, el sonido vuelve a la ecualización y al nivel anterior. Debido a que las acciones se realizan en el baño, el acuario, según las escenas, va cambiando de ubicación por lo cual se realiza una automatización de espacialización.

En cuanto a los canales que contienen los sonidos de las acciones que ocurren en la habitación, como los pasos, sábanas, sonidos de colchón y demás objetos, se rutean por medio de envíos a los canales auxiliares que contienen la reverberación de la habitación de la misma forma en que se trataron los canales de las voces, con la diferencia que los sonidos si se espacializan de acuerdo al lugar de la habitación en donde sucedan, por ejemplo los pasos todo el tiempo se están alejando y acercando de la escena, para esto es necesario realizar automatizaciones tanto de nivel como de espacialización.

Los canales que contienen los sonidos que suceden en el baño, como los son, pasos, luces, puertas, lavamanos y demás objetos, son ruteados a los canales auxiliares que contienen la reverberación del baño y se sigue el mismo proceso que se realizó con el canal de los sonidos de la habitación con las respectivas automatizaciones de nivel y de espacialización.

Para terminar con la mezcla del audiovisual, se realiza la mezcla de la música. El concepto musical consiste en un principio en la introducción de instrumentos sinfónicos como violines, timbales y contrabajo. Mientras se va desarrollando la trama del audiovisual, se van introduciendo sonidos electrónicos sintetizados que no son propiamente música pero que aportan al suspenso requerido de las escenas presentadas, también estos sonidos se hacen con el fin de apoyar acciones importantes como cortadas, golpes, etc. Esto usualmente se le llama “Underscore”. A lo largo de todo el corto se juega con los sonidos sinfónicos y electrónicos para que finalmente, en los créditos se termine formando la canción junto con una guitarra eléctrica.

En cuanto a la mezcla de la música, teniendo en cuenta que se tienen nueve parlantes para la espacialización y ya que ésta es libre, se aprovechó para que los diferentes sonidos fueran rotando en el espacio. Cada instrumento se espacializa con diferentes paneos teniendo en cuenta que instrumentos que contengan el mismo rango de frecuencias, no se encuentran en el mismo lugar espacializado. En cuanto al nivel de la música, éste varía de acuerdo al concepto musical dependiendo de los momentos en los cuales la música aporta o en los cuales solo apoya.

4.4 Proceso de Masterización

En el proceso de masterización lo que se busca es obtener los niveles éstandar y un equilibrio frecuencial de lo que se realizó en la mezcla. En la masterización

49

las arquitecturas sonoras adquieren mayor inteligibilidad, no se buscan mayores cambios ya que se debe mantener la intensión de la mezcla.

En este proceso, el material que se tiene para procesar son los archivos exportados en formato .WAV de cada uno de los nueve canales de la mezcla. Al tratarse de la masterización, los arreglos o cambios deben ser muy básicos y sutiles; al ser un audiovisual, el rango dinámico es amplio y se debe tener cuidado en conservar éste ya que hace parte de la curva dramática de la historia.

La ecualización para el audiovisual completo debe ser rigurosa y sutil, debido a que se cuenta con gran variedad de sonidos que tienen iguales componentes frecuenciales; el más mínimo cambio puede llegar a afectarlos. Una ventaja de tener 9 canales distintos, es que la direccionalidad agrupa elementos que pueden ser corregidos sin afectar su sonoridad aplicando una ecualización multicanal.

Esta ecualización básicamente fue una reducción en bajas frecuencias en todos los canales mejorando la definición de ellas. Asimismo se aplicó una leve ganancia en frecuencias altas, con frecuencia de corte en 10KHz. asentuando el efecto psicoacústico del espacio, dar naturalidad y seguir una ecualización similar a las que dictan las HRTF (Head Related Transfer Functions). El cambio más significativo se realizó en los canales Central, L y R, con un incremento en 1KHz, con Q de 1,9 y ganancia de 3.7dBFS; esto permitió darlemas inteligibilidad a Foleys y a la reverberación aplicada en estos canales.

Figura 15. Ecualización de la masterización de los canales C, L y R.


En cuanto a la dinámica, el rango manejado en la mezcla es de aproximadamente 36dB, en donde en -45dBFS se encuentran sonidos casi imperceptibles como las respiraciones y ambientes; en -9dBFS, se encuentran los sonidos muy fuertes como gritos, golpes, entre otros. Para realizar una compresión que no afectara el rango dinámico, se escogió la parte del

50

audiovisual en dónde suceden más eventos sonoros, ésta parte es la posterior a la cortada de Camila, pues en ese momento se escuchan gritos, susurros, luces de baño, pasos, música y golpes. Si se logra una total inteligibilidad de todos los sonidos en ese momento, se puede asegurar que el restante del audiovisual contará con completo entendimiento.

La compresión se realizó por medio de un compresor multicanal, en donde cuidadosamente se asignó un tipo de compresión a grupos específicos, tales como: Los canales envolventes (Sl-Sr, Cs, Ls-Rs), Frontales Ly R, Canal Central y Canal LFE.

Para los canales envolventes se tiene un ratio de 6:1 con una ganancia de 5dB, esto quiere decir que por cada decibel comprimido, tendrá máximo una reducción de ganancia de 6dB, y a ese resultado se le da una ganancia de 5dB. El ataque es de 63ms y el release es de 200ms. Este ataque para dejar pasar sonidos de “s” o reverberaciones de sonidos percutivos, y el release aprovecha mejor los tiempos de reverberación.

Figura 16. Compresión de los canales envolventes.


Para los canales L y R el ratio es de 9:1 y una ganancia de 9.7dB, sumandole 1dB para darle relevancia dentro de la espacialización, mejorando la inteligibilidad y el control sobre la dinámica. El treshold es de -11dB ya que no se pretende afectar los niveles de sonidos muy específicos que se encuentran direccionados a estos canales. El ataque es de 0ms debido a los sonidos percutivos que se encuentran por estos canales.

Para el canal central, el ratio es de 6:1 y la ganancia es de 10.7dB, comprimiendo el gran rango dinámico en las voces direccionadas por este canal, y subiéndole el nivel a esta compresión. El treshold esta en -20dB; esto quiere decir que las respiraciones y sonidos que esten por debajo de este nivel

51

no se verán afectados por el compresor y se está respetando el rango dinámico; mientras que desde -20dB hasta el pico, esta actuando el compresor, en donde el rango dinámico no esta en 40dB sino que se redujo en 10 dB, respetando la normalización de diálogos indicada por Dolby.

Figura 17. Compresión de los canales L y R.


Figura 18. Compresión en el canal central.


Para el canal LFE, la compresión fue de 16:1 y la ganancia de 13dB, esto permite controlar las frecuencias bajas que en la mezcla se encontraban

52

dispersas, reduciendo su nivel en 3dB ya que muchos sonidos tenían subarmónicos en bajas frecuencias que se sumanban de forma descontrolada.

Figura 19. Compresión del canal LFE.


En general, con la masterización se pasó de tener una mezcla algo dispersa y con un rango dinámico muy amplio, a una versión del sonido del audiovisual más inteligible, controlada y con un rango dinámico reducido que no perdió su intensión de arquitectura sonora inical. En escenas en donde se encuentran ambientes, foleys, diálogos y música, se logró una total comprensión de cada uno de ellos. Aprovechando efectos psicoacústicos, se mejoró la espacialización de los ambientes recreados.

4.5 Proceso de Codificación

Con la masterización finalizada, se prosigue con la codificación que es la que finalmente será escuchada por el espectador, es necesario explicar uno a uno los parámetros y las ventajas entre codificadores con el fin de obtener una codificación que intervenga lo menos posible en las señales que resultaron de la masterización; éste será último proceso a analizar y comparar.

Para la etapa de codificación, se analizaron a fondo codificadores en software para encontrar el más conveniente, teniendo como desventaja que algunos de estos softwares (Dolby AC-3 y DTS) fueron versiones de evaluación que no permitieron realizar una codificación real, ya que para esto se deben tener licencias de costos muy altos y al momento de intentar, los shareware no lo permitieron.

El software de codificación usualmente acepta los 8 canales que abarca la mezcla. Para esto, es necesario exportar cada canal como un solo archivo. El

53

codificador mostrará el archivo de exportación deseado, que usualmente puede ser .WAV o .AIFF con la tasa de muestreo y profundidad de palabra (48000Hz o 44100 Hz a 16 bits o 24 bits). Además es necesario conocer el momento de aplicar el filtro pasa bajas y la frecuencia de corte para el canal LFE (Low Frequency Effect).

El flujo de señal usual es de exportar los buses individuales de la mezcla en surround, exportándolos en el formato adecuado y nombrándolos apropiadamente, aunque usualmente el software puede realizar esta función. Luego, se escoge la codificación a DVD, DVD-A o SACD que más se acomode.

Exportar una mezcla a un formato DM &E (Dialogue, Music and Effects; Diálogos, Música y Efectos) 5.1 quiere decir que se exportan múltiples archivos individuales a 3 categorías específicas. Es decir, para exportar los diálogos, los canales de música y efectos se cancelan y se exportan los 6 canales con el contenido de sólo los diálogos.

Así también se hace para la música y los efectos. Al terminar habrá 18 archivos individuales. Esto permite tener la mezcla original de música y efectos para propósitos internacionales.

4.5.1 Dolby Digital AC-3

La metadata que puede ser incluida en el archivo de codificación de AC-3 de Dolby, es la que asegura que la codificación reproducida sea la mejor de acuerdo al sistema del reproductor que esté siendo utilizado.

El formato AC-3 soporta una mezcla estéreo y una 5.1 a la vez. Cuando se escoge la opción de sólo estéreo, se reducen las opciones ya que la mayoría de información de metadata es específica para 5.1. Es recomendable hacer la mezcla estéreo directamente desde la mezcla en surround, para tener más control sobre la mezcla y no dejarla a disposición del codificador, y no encontrar dificultades.

Hay diferentes parámetros que afectan la calidad y la intensidad de la codificación final:

Audio Service- “Bitstream Mode”: Indica la función primaria del codificador y el servicio

específico.

- “Audio Coding Mode”: Selecciona el formato de codificación.

- “LFE”: El canal de bajas frecuencias puede ser activado o desactivado.

54

- “Simple Rate”: Selecciona la tasa de muestreo de la codificación (32Khz, 44.1KHz, 48KHz). El tamaño del archivo es proporcional al tamaño de la tasa de muestreo.

- “Data Rate”: indica el promedio de información del archivo codificado. Bajas tasas podrían afectar la calidad del audio, pero ahorrarán espacio. Cuando son muy altas es posible que algunos reproductores no puedan transferir toda la información a la vez y exista glitching.

- “Dialog Normalization”: Indica el nivel promedio para el diálogo.

Figura 20. Ventana de Audio Service

Codificador Dolby Digital AC-3 (Shareware)

Información del bitstream.

- “Center Mix Level”: Selecciona el nivel de reducción del canal central de diálogos que el codificador debe reducir cuando la mezcla pasa de surround a estéreo. El estándar es de -3dB. Durante el downmix, el canal central se suma a los canales Left y Right y con la reducción de nivel se compensa el balance original.

- “Surround Mix Level”: Selecciona el nivel de reducción de los canales surround que el codificador debe reducir cuando la mezcla pasa de surround a estéreo. Este estándar es de -3dB. Durante el downmix, los canales surround se suman a los canales Left y Right y con la reducción de nivel se compensa el balance original. Aunque es posible dejarlo sin reducción o con una suma de nivel dependiendo de las intensiones de la producción.

- “Set Copyright Bit”: Selecciona si la codificación tiene protección contra copia.

55

- “Mark as original bitstream”: Selecciona si es la codificación original.- “Include Audio Production Information”: Campos opcionales que

permiten incluir información acerca del tipo de cuarto usado para realizar la mezcla, altoparlantes y nivel de mezcla. Los niveles de mezcla utilizan el nivel de monitoreo según SPL (nivel de presión sonora) y el nivel de referencia utilizado. Por ejemplo, si la calibración de los monitores fue de ruido rosa a -20dBfs a 85dB, el nivel es de 85dB + 50 = 105dB SPL.

Figura 21. Ventana de Bitstream

Codificador Dolby Digital AC-3 (shareware).

Extended Bitstream.

Metadata opcional que permite una mejor adaptación del sistema al reproducir.

- “Dolby Surround EX mode”: Indica si la mezcla es EX o no. EX quiere decir que se le suma un canal trasero no-discreto realizado por una matriz resultante entre el surround derecho y el surround izquierdo.

- “A/D Convertesr Type”: Indica el tipo de convertidor de análogo a digital utilizado. Usualmente se coloca en estándar.

- “Stereo Donwmix preference”: Indica la forma en la que el codificador maneja el downmix.

- Lo/Ro: Suma el canal central y los canales surround correspondientes a L y R.

56

- Lt/Rt: Suma el canal central a L y R. Suma los canales surround a mono, se suma a L y R, en el R con un corrimiento de fase de 90º.

- Niveles de mezcla de Lo/Ro y Lt/Rt central/surround: Ajusta el nivel de los respectivos componentes de acuerdo al dowmix escogido.

Figura 22. Ventana de Extended Bitstream


Preprocessing

- “Digital De-Emphasis”: Aplica un filtro inverso a cuando un filtro de énfasis fue utilizado antes de la codificación.

- “DC high pass filter”: Remueve cualquier tipo de compensación DC que se pueda presentar en algún archivo, debido a que el proceso de digitalización algunas veces suma corriente directa a las grabaciones.

- “Bandwitdh low-pass filter”: Previene que frecuencias por encima de el ancho de banda escogido lleguen al codificador. Es esencialmente un filtro anti-alias.

- “LFE low-pass filter”: Habilita el filtro LFE para mantener frecuencias por debajo de la frecuencia de corte del canal de bajas frecuencias.

57

- “90º phase-shift”: Aplica el cambio de fase de 90º al canal derecho cuanod se realiza el downmix de 5.1 a Lt/Rt.

- “3dB attenuation”: Reduce el nivel de los canales surround antes de codificar. Esta opción compensa surrounds de producciones cinematográficas al ser reproducidas en un televisor, ya que usualmente estas tienen mayor nivel y los espectadores se sientan más cerca al surround de lo que deberían.

- “Dynamic Range Compression”: Controla la diferencia entre las partes más fuertes y mas suaves de la mezcla. Funciona en conjunto con la opcion de normalización de diálogos.

- “Line Mode Profile”: Selecciona el tipo de compresión usado por el codificador para niveles de línea.

- “RF Mode Profile”: Selecciona el tipo de compresor utilizado para transmisiones por antena tipo RF. Sobremodulación en RF también puede ser aplicada.

Figura 23. Ventana de preprocessing


58

4.5.1.1 Normalización de diálogos

Indica el nivel de diálogo en la codificación basado en el nivel promedio sobre el tiempo. El codificador AC-3 lo aplica para la normalización o ajuste de la salida de audio a un nivel específico. El propósito de esta normalización es mantener niveles constantes entre diferentes sistemas como televisión o DVD. Configuraciones apropiadas evitan que el televidente tenga que ajustar el nivel de su televisor cada vez que cambia de televisión a DVD, manteniendo el nivel constante. Mezclas que no contienen diálogos también necesitan un buen ajuste de normalización.

El rango de normalización van de -1dB a -31dB con incrementos de a 1dB. La opción de -31 le indica al codificador que no se requieren cambios de nivel original, dejando los niveles iguales al momento antes de la codificación. Aunque esté en -31, estos niveles pueden ser afectados por compresión de rango dinámico. Cuando la opción es de -1dB, se le está indicando al codificador en aplicar el máximo cambio de nivel de 30dB. La fórmula entonces sería 31+(nivel de normalización) igual a el cambio. Si la normalización es de -27, el cambio sería de 4dB; si es de -5, sería de 26dB. Aunque se pretenda subir el nivel de la mezcla completa colocando un nivel bajo de normalización, algunos circuitos cuentan con una protección contra distorsión y saturación que, podría afectar la mezcla ya que funcionaría como una compresión muy fuerte.

4.5.1.2 Compresión de rango dinámico

El codificador de Dolby AC-3 permite opciones específicas de compresión de rango dinámico, permitiendo el mayor rango dinámico disponible y así mismo un reducido para ocasiones donde sea necesario, tal como reproducciones en la noche. La metadata apropiada permite al decodificador aplicar la compresión necesaria de acuerdo a la configuración especificada al codificar, aunque no todos los decodificadores permiten seleccionarla. Los DVDs con salidas discretas usualmente dan la opción de aplicar la compresión, que usualmente es llamado “midnight mode” (modo de media noche).

4.5.2 DTS

Lo más importante al momento de utilizar un codificador DTS es la sincronización apropiada entre el video y el audio. DTS encaja los tiempos para mantener la sincronización, sin embargo algunos codificadores por defecto toman el primer sample de audio y video como el mismo. Esta codificación prefiere los tracks con tasa de muestreo de 48Khz y no soporta ningún tipo de metadata. Las opciones disponibles para un codificador incluyen:

- Selección de Bitrate: desde 754.5 kbps hasta 1509.25 kbps, siendo el mayor recomendado a menos que el tamaño sea excesivo en el disco.

59

- LFE: Se selecciona para incluir o excluirlo de la codificación final.

- Atenuación de los canales surround: Aplica un ajuste de -3dB a los canales surround.

- Resolución: selecciona la profundidad de palabra, ya sea 16, 20 ó 24 bits.

Figura 24. Ventanda de codificación DTS

Codificador DTS (shareware)

4.5.3 Windows Media 9

Windows media ofrece codificaciones en surround tipo lossless para entregas vía Internet y CD-ROMS. Se puede seleccionar un bitrate constante ó un bitrate variable de calidad. Al elegir este parámetro, se escoge la profundidad de palabra deseada, ya sea 16 o 24 bits. No hay más opciones en éste codificador.

El que más opciones de codificación entrega de estos tres, es el codificador Dolby AC-3, pero no se cuenta con una licencia que permita realizar esta codificación ni realizar pruebas pertinentes que permitan comparar cuáles serían las mejores codificaciones para que las arquitecturas sonoras no se pierdan en esta importante etapa de exportación del audio.

60

Figura 25. Ventana de codificación en Windows Media 9.

Codificador Windows Media 9

Asi mismo, el codificador DTS ofrece un mínimo de opciones de codificación, pero es popular y tiene el reconocimiento favorable de sus codificaciones, aunque no fue posible realizarla debido a que no se cuenta con una licencia para esto.

Una de las ventajas es que los codificadores de Windows Media son gratis y por esta razón fueron utilizados en la codificación para posterior análisis de las arquitecturas sonoras.

Ésta codificación fue realizada a 768 kbps, 48Khz, 24 Bits. Con bitrate constante. La obtención de las señales codificadas se realizó un proceso largo en donde por medio de el decodificador típico de Windows Media, se reprodujeron todos los canales, grabando uno a uno la salida hasta completar los 9 canales.

Esto enrutando físicamente con un cable cada salida de la tarjeta a la entrada de la tarjeta donde se estaba grabando. En algunas tarjetas de sonido es posible realizar éste ruteo de forma interna y se le conoce como el parametro REC WHAT YOU HEAR (Grabar lo que se escucha).

61

4.6 ANÁLISIS DE LOS PROCESOS POR CONVOLUCIÓN Y CORRELACIÓN

4.6.1 Desarrollo de algoritmos de deconvolución y convolución

Para métodos de análisis y comparación entre procesos de mezcla, masterización y codificación, se propone la implementación de los procesos matemáticos de convolución y correlación. Con estos procesos, a partir de una señal de entrada y una señal de salida, se podrá obtener la respuesta al impulso, que corresponderá al proceso resultante entre la señal de mezcla y la señal de masterización. De igual forma para la señal de masterización y la señal de codificación. Con una señal de prueba de entrada (ruido rosa debidamente documentado) y la respuesta al impulso, se obtendrá la señal de prueba de salida procesada con la cual es posible observar los cambios entre procesos a la arquitectura sonora virtual.

A continuación se explica la forma en que son implementados los diferentes métodos matemáticos para la comparación y análisis.

Primero, se cargan las señales en el programa con el cual se desarrollan los procesos matemáticos, en este caso el software utilizado es Matlab. La programación del algoritmo de convolución se encuentra en la sección de anexos del presente documento.

Figura 26. Señal sin procesar y procesada.

Gráfica Matlab.

62

En la figura 24 la gráfica superior corresponde a un fragmento de la señal original de la mezcla del canal frontal central, la gráfica inferior corresponde a la señal después del proceso de masterización. Este mismo caso aplica para el análisis entre las señales masterizadas y las codificadas. La frecuencia de muestreo de las señales es de 48000 Hz.

Se halla la FFT de la muestra de la masterización y de la muestra de la mezcla, con el fin de obtener las señales en el dominio de la frecuencia para así aplicar deconvolución y obtener la función de transferencia. Al tomar la parte real de la FFT inversa, se obtendrá la respuesta al impulso del sistema, que en otros términos será los cambios que sufre la arquitectura sonora virtual entre la mezcla y la masterización, y entre la masterización y la codificación.

Para hallar la función de transferencia estando en el dominio de la frecuencia, se realiza la operación de división entre filas de vectores de las FFT de las señales de mezcla y de masterización. El operador es el que indica la división derecha de arreglos el cual divide cada entrada de la FFT de la señal masterizada por las entradas correspondientes de la FFT de la señal de mezcla. Estas señales deben ser arreglos del mismo tamaño. Un valor escalar para cualquiera de las FFT de las señales es expandido para igualar el tamaño de los arreglos. Se halla la respuesta al impulso tomando la parte real de la transformada inversa de Fourier (IFFT) y se normalizan los valores de amplitud de la respuesta al impulso para que queden en el intervalo de [-1,1].

Figura 27. Respuesta al impulso

Gráfica Matlab.

63

Figura 28. . Respuesta al impuslo normalizada

Gráfica Matlab.

Realizando un acercamiento, es posible observar mejor la respuesta al impulso.

Figura 29. Respuesta al impulso normalizada

Gráfica Matlab

64

Para comprobar que la operación realizada con el fin de obtener la respuesta al impulso es correcta, se realiza la convolución de la respuesta al impulso con la señal de entrada (correspondiente a la señal de mezcla) y se debe obtener la señal de salida (correspondiente a la señal masterizada).

Figura 30. Señal original de masterización y señal obtenida por convolución respectivamente.

Gráfica Matlab

En la figura 28 se comprueba que la respuesta al impulso sí corresponde al proceso de cambio entre mezcla y masterización, ya que la señal original de masterización es igual a la obtenida por el metodo de convolución.

Una vez comprobado el comportamiento de las funciones de deconvolución y convolución, se utiliza la respuesta al impulso con una onda de prueba: ruido rosa, del cual conocemos su análisis frecuencial.

Al convolucionar este ruido con la respuesta al impulso se obtiene una versión procesada del ruido rosa, el cual se compara con la versión original del mismo y se concluye acerca de los procesos de masterización y codificación.

65

Figura 32. Ruido Rosa

Gráfica Matlab.

En la figura 29 se muestra la señal de prueba. El comportamiento frecuencial y dinámico del ruido rosa, se obtiene por medio de un software de audio llamado Cool Edit Pro. Éste analiza el archivo de audio y brinda información detallada acerca de los componentes frecuenciales (se aclara que cualquier software en el cual se pueda masterizar, la información concerniente al contenido de frecuencia y de nivel es suministrada por el mismo):

Figura 33. Ruido rosa en Amplitud Vs Frecuencia.

Gráfica Cool Edit.

66

y la información de niveles:

Figura 34. Información de niveles de Ruido rosa.

Gráfica Cool Edit.

Es posible observar el valor de la muestra mínima, máxima, la amplitud pico, el número de muestras que están por encima del valor 0 dBFS, el porcentaje de corrimiento de corriente contínua, la potencia mínima en RMS en dBFS, la potencia máxima RMS, la potencia RMS promedio y los bits de profundidad o longitud de palabra.

Los valores RMS están calculados teniendo en cuenta las variaciones de corriente continua con una onda cuadrada para una ventana de 50 milisegundos.

En el histograma se puede ver un comportamiento de campana de Gauss, el cual indica que el ruido rosa generado cumple con un comportamiento estadístico normal.

A continuación, en la figura 35, se observa el comportamiento del histograma

67

Figura 35. Histograma.

Gráfica Cool Edit.

Ahora, con la respuesta al impulso, se realiza el proceso de convolución en la onda de prueba.

Figura 36. . Ruido Rosa procesado y Ruido Rosa original (respectivamente)

Gráfica Matlab

Una vez se tiene el la onda de prueba procesada, es posible comparar el comportamiento frecuencial y dinámico con los valores originales.

68

Figura 37. Ruido Rosa procesado. Amplitud Vs Frecuencia.

Gráfica Cool Edit.

Comparando las dos gráficas se obtiene:

Figura 38. Ruido Rosa original (inferior) y Ruido Rosa procesado (superior). Amplitud Vs. Frecuencia.

Gráfica Cool Edit.

69

Se puede inferir que el comportamiento frecuencial es muy similar al original excepto por un claro aumento en frecuencias agudas por encima de 20 kHz.

Ahora comparando el comportamiento dinámico se obtiene:

Figura 39. Niveles Ruido Rosa Procesado (izq) y Ruido Rosa Original (der).

Gráfica Cool Edit

Se puede verificar efectivamente que los valores de amplitud de pico han aumentado en casi 13 dBFS. No existen muestras por encima del valor de referencia de 0dBFS. El porcentaje de corrimiento de corriente contínua ha disminuido en un 0.04%. La potencia mínima en RMS ha aumentado en 8dBFS. La potencia máxima RMS ha aumentado en 12 dBFS. La potencia RMS promedio ha aumentado en 11 dBFS.

Estos valores fueron calculados para cada una de las señales de los 9 canales y su comportamiento y cálculo se encuentran en los discos adjuntos al presente documento; éstos contienen los M-Files (Programación descrita) y todos los archivos de audio utilizados en cada uno de los algoritmos.

70

4.6.2 Desarrollo de algoritmos y razonamiento de correlación

Por medio de la correlación cruzada entre las señales de los 9 canales es posible hallar los índices de correlación entre canales y por proceso (mezcla, masterización y codificación) para obtener información del mantenimiento y permanencia de las arquitecturas sonoras a lo largo de los procesos de masterización y codificación.

Se desarrolla un algoritmo de correlación cruzada que se encuentra en la sección de anexos del presente documento.

Figura 40. Canales masterizados.

Gráfica Matlab.

Para comprobar que el algoritmo de correlación cruzada es correcto, se aplica el proceso de autocorrelación en cada uno de los canales masterizados, demostrando que efectivamente el coeficiente de correlación de todas las señales autocorrelacionadas es 1 y las propiedades de autocorrelación se cumplen.

71

Figura 41. Coeficiente y función de correlación FRONT LEFT

Gráfica Matlab.

Figura 42. Coeficiente de correlación y función de correlación. FRONT RIGHT

Gráfica Matlab.

72

Figura 43. Coeficiente y función de correlación. CENTER

Gráfica Matlab.

Figura 44. Coeficiente y función de correlación LFE

Gráfica Matlab.

73

Figura 45. Coeficiente y función de correlación. REAR LEFT

Gráfica Matlab.

Figura 46. Coeficiente y función de correlación REAR RIGHT

Matlab.

74

Figura 47. Coeficiente y función de correlación CENTER REAR

Gráfica Matlab.

Figura 48. Coeficiente y función de correlación SIDE LEFT

Gráfica Matlab.

75

Figura 49. Coeficiente y función de correlación. SIDE RIGHT

Gráfica Matlab.

De las figuras 41 a 49, se observa que el coeficiente de correlación en todas es 1, confirmando que la señal es la misma y el algoritmo funciona. En cuanto a la función de correlación, todas las figuras cumplen las propiedades de simetría y de valor máximo en origen, demostrando así que carecen de periodicidad y que efectivamente se trata de la misma señal que no sufre ningun cambio durante el algoritmo.

A continuación se realiza el coeficiente de correlación entre las señales de cada canal, comparándolas todas contra todas. Además se calcula la función de correlación entre las señales y se expresa en pantalla los valores de coeficiente de correlación, coeficiente de correlación de Pearson y valor pico máximo de la función correlación.

Al hallar la matriz de coeficientes de correlación, esta debe ser una matriz con diagonal igual a 1. Los elementos distintos son el valor del coeficiente de correlación. En seguida, el valor del elemento (1,2) de la matriz, que es un valor que no está en la diagonal y es distinto de 1, es el valor del coeficiente de correlación.

A continuación, se halla el coeficiente de Pearson, el cual mide la relación lineal entre dos variables. Para este caso es el coeficiente de correlación elevado al cuadrado. También se halla la matriz de Correlación cruzada entre las dos señales a comparar.

La gráfica de la matriz de coeficientes de correlación muestra el valor de los coeficientes en los cortes de las líneas con los ejes x en donde marca

76

exactamente el valor del coeficiente. Entre menos abierta esté la gráfica cruzada de la línea verde con la azul, mayor correlación existirá y el coeficiente será muy cercano al valor de 1 como en la autocorrelación.

Figura 50. Coeficiente y función de correlación de FRONT LEFT y FRONT RIGHT.

Gráfica Matlab.

Realizando un acercamiento en el eje x de la gráfica del coeficiente de correlación se observa claramente el valor del coeficiente.

Figura 51. Coeficiente y función de correlación.

Gráfica Matlab.

77

En la figura 50 se observa que el coeficiente de correlación tendrá un valor de -0.0192. El algoritmo indica un coeficiente de Pearson de 3.6773e-004, y una correlación máxima de 0.0440.

La función de correlación carece de simetría, debido a que se esta tratando con señales diferentes que varían en el tiempo, con coeficiente de correlación diferente por debajo de 1. No es posible un pico en el punto cero de origen debido a que entre ellas si hay una variación en el tiempo, demostrando que el comportamiento de las señales es totalmente diferente, lo que asegura unas arquitecturas sonoras virtuales establecidas que no se verán afectadas por problemas de fase ni enmascaramiento entre las señales.

El coeficiente de correlación de Pearson tiende a cero, por lo tanto indica que existe una total independencia entre las señales correlacionadas, es decir, que los cambios realizados en alguna de ellas no influirá sobre el comportamiento de las otras.

El coeficiente de correlación máxima, indica cuándo los valores de una variable varían exactamente de la misma forma que los correspondientes de la otra variable correlacionada. Se tiene que, para este caso, la correlación máxima es de 0.044, nivel cercano a cero, indicando que los valores de una señal no estan afectando de ninguna manera los valores de la señal correlacionada.

Entre menor correlación exista entre las señales que se enrutan por los 9 canales, mayor independencia existirá entre ellos, menos problemas de fase y se podrá definir de mejor forma una arquitectura sonora virtual.

Lo mismo ocurre para la comparación con las demás señales. En los pares ordenados de la siguiente manera:

12 13 14 15 16 17 18 19 23 24 25 26 27 28 29 34 35 36 37 38 39 45 46 47 48 49 56 57 58 59 67 68 69 78 79 89

Para efectos de la presente tesis se obviará la escritura de los algoritmos en este punto y solamente se mostrarán los siguientes datos tanto para masterización como para codificación.

78

5. PRESENTACIÓN Y ANÁLISIS DE RESULTADOS

Tabla 1. Datos para mezcla, masterización y codificación 8

COMBINACIÓN COEF CORRCOEF CORRELACIÓN

COEF CORRELACIÓN

DE CANALES MASTERIZACIÓN MEZCLA CODIFICACIÓ

N

12 -0.0075 -0.0192 -3.06E-04

13 1.5228 0.0027 -0.0019

14 0.0427 0.0484 0.0326

15 0.0363 0.035 0.0304

16 0.0161 0.0267 0.0017

17 0.0164 0.0227

18 0.0635 0.0407 0.0748

19 0.022 0.0302 0.0108

23 0.972 0.9931 0.9746

24 -0.0178 -0.0222 -0.0177

25 0.0048 -5.72E-04 1.11E-02

26 0.0215 0.0146 0.0331

27 -0.0159 -0.0195

28 0.0041 0.0063 0.0012

29 -0.0115 -0.0158 -0.0104

34 -0.0091 -0.0092 -0.0144

35 0.0079 0.0074 0.0109

36 0.0184 0.0226 0.0251

37 -0.0094 -0.0095

38 0.0055 0.0025 0.0044

39 -0.007 -0.0107 -0.0077

45 0.9243 0.9523 0.8744

46 0.7527 0.8327 0.6149

47 0.9977 0.9984

48 0.0035 0.0018 0.0055

49 0.0132 0.0197 0.0029

56 0.6482 0.7628 0.4635

57 0.9255 0.9533

58 -0.0046 -0.0072 -0.007

59 0.0101 0.0137 0.0065

67 0.7555 0.8345

68 -0.0526 -0.05 -0.0686

69 -0.001 0.0091 -0.0134

78 0.0043 0.0026

79 0.0085 0.0146

89 -0.0149 -0.0201 -0.0101

8 Las celdas vacías se deben a que en la codificación se tienen solo 8 canales.

79

Tabla 2. Datos para mezcla, masterización y codificación

COMBINACIÓN COEF CORR DE COEF CORR DECOEF CORR

DE

DE CANALESPEARSON MASTERIZACIÓN

PEARSON MEZCLA

PEARSON COD

12 5.59E-01 3.68E-04 9.37E-08

13 2.32E-04 7.44E-06 3.56E-06

14 0.0018 0.0023 0.0011

15 0.0013 0.0012 9.23E-04

16 2.59E+00 7.11E-04 2.78E-06

17 2.69E+00 5.16E-04

18 0.004 0.0017 0.0056

19 4.84E+00 9.10E-04 1.17E-04

23 0.9447 0.9862 0.9498

24 3.15E+00 4.93E-04 3.14E-04

25 2.33E-01 3.27E-07 1.23E-04

26 4.61E+00 2.13E-04 1.10E-03

27 2.54E+00 3.81E-04

28 1.64E-01 4.00E-05 1.35E-06

29 1.33E+00 2.51E-04 1.08E-04

34 8.34E-01 8.39E-05 2.08E-04

35 6.26E-01 5.41E-05 1.19E-04

36 3.38E+00 5.09E-04 6.31E-04

37 8.76E-01 9.02E-05

38 3.01E-01 6.16E-06 1.96E-05

39 4.94E-01 1.14E-04 5.94E-05

45 0.8544 0.9068 0.7646

46 0.5665 0.6934 0.3781

47 0.9953 0.9969

48 1.24E-01 3.10E-06 3.07E-05

49 1.74E+00 3.90E-04 8.33E-06

56 0.4201 0.5818 0.2149

57 0.8566 0.9088

58 2.13E-01 5.20E-05 4.97E-05

59 1.03E+00 1.87E-04 4.21E-05

67 0.5707 0.6964

68 0.0028 0.0025 0.0047

69 1.03E-02 8.36E-05 1.80E-04

78 1.89E-01 6.54E-06

79 7.24E-01 2.14E-04

89 2.21E+00 4.04E-04 1.01E-04

Tabla 3. Datos para mezcla, masterización y codificación

80

COMBINACIÓN CORREL MAX CORREL

MAX CORREL MAX

DE CANALES MASTERIZACIÓN MEZCLA CODIFICACIÓN

12 0.3611 3.68E-04 0.2625

13 1.10E+04 0.1851 0.9725

14 0.9291 0.144 0.3384

15 1.30E+04 0.321 0.4404

16 0.6866 0.1639 0.2939

17 1.27E+04 0.353

18 0.4422 0.0465 0.4101

19 0.3519 0.0705 0.2167

23 1,643,572 26.639 133.9226

24 1.97E+04 0.2513 1.4899

25 6.83E+04 1.127 6.315

26 7.09E+04 1.2401 6.4305

27 2.73E+04 0.6068

28 9.25E+04 1.4984 8.1925

29 1.02E+05 1.7079 8.9686

34 5.37E+04 0.9892 4.8032

35 2.51E+05 7.9097 21.3252

36 2.43E+05 7.9947 21.9418

37 7.77E+04 2.5049

38 3.38E+05 10.0297 29.906

39 3.50E+05 11.2054 30.9216

45 1,137,751 28.572 48.9775

46 550,293 14.1533 22.2323

47 1,187,309 30.1345

48 1.44E+04 0.2559 1.1822

49 1.42E+04 0.2863 1.0279

56 701,102 33.272 27.0535

57 1,625,217 73.7056

58 4.05E+04 1.265 3.3904

59 3.46E+04 1.1223 3.0097

67 787,947 36.55

68 38,881 1.1146 3.5683

69 6.52E+04 1.882 5.9646

78 2.08E+04 0.6669

79 1.94E+04 0.6963

89 6.71E+04 2.0058 6.1287

5.1 Resultados y análisis de los procesos matemáticos

Para poder realizar el análisis, se tuvieron en cuenta los parámetros de: correlación entre canales en el proceso de mezcla, correlación entre canales en

81

el proceso de masterización y correlación entre canales en el proceso de codificación (los resultados de estos coeficientes se encuentran en el desarrollo de los algoritmos matemáticos). Con estos valores, se realizó posteriormente un proceso de correlación estadística con el fin de obtener el coeficiente que indicará qué tanto cambió la señal en los tres diferentes procesos.

Los resultados obtenidos son:

Correlación entre mezcla y masterización:

CORRELACIÓN ESTADÍSTICA

Coeficiente de correlación masterización 7.88E-01

Correlación entre masterización y codificación:

CORRELACIÓN ESTADÍSTICA

Coeficiente de correlación codificación 9.83E-01

5.2 Resultados y análisis de la encuesta

Para el desarrollo del proyecto se realizó un audiovisual con su correspondiente arquitectura sonora envolvente en sistema de 8.1 canales; una vez finalizado el audiovisual, se hizo una presentación a 19 personas del mismo material en cada uno de los tres procesos (mezcla, masterización y codificación) y posteriormente se les realizó una encuesta acerca de la percepción los efectos realizados en el material para analizar los cambios que sintieron en cada uno de los tres diferentes procesos.

Para tener unos resultados coherentes, las respuestas de las encuestas se agruparon en 3 grupos: Cambios en amplitud, cambios en frecuencia y cambios en la espacialización, divididos en 3 categorías las cuales son, para amplitud y espacialización: aumentó, disminuyó o se mantuvo igual; y para frecuencia: más brillante, se mantuvo igual y más opaco. Las respuestas antes de ser agrupadas pueden encontrarse en la sección de anexos del presente documento.

Una vez agrupados los resultados de la encuesta, se tiene que:

Para la masterización:

Tabla 4.

82

Respuestas Procentaje AMPLITUD Aumentó 49 0.429824561 43% Igual 48 0.421052632 42% Disminuyó 17 0.149122807 15%Total 114 FRECUENCIA Mas brillante 10 0.263157895 26% Igual 21 0.552631579 55% Mas opaco 7 0.184210526 19%Total 38 ESPACIALIZACIÓN Aumentó 45 0.473684211 47% Igual 41 0.431578947 43% Disminuyó 9 0.094736842 10%Total 95

Para la codificación:

Tabla 5.

Respuestas Porcentajes AMPLITUD 1 11 0.096491228 10% 0.5 79 0.692982456 69% 0 24 0.210526316 21%Total 114 FRECUENCIA 1 2 0.055555556 6% 0.5 25 0.694444444 69% 0 9 0.25 25%Total 36 ESPACIALIZACIÓN 1 7 0.073684211 7% 0.5 79 0.831578947 83%Total 0 9 0.094736842 10% 95

6. CONCLUSIONES

83

Se logró recrear virtualmente las arquitecturas sonoras desde la mezcla, aprovechando las ventajas de un software (shareware) capaz de realizar paneos, asignaciones, ruteos y procesos dedicados exclusivamente para 8.1. Estas arquitecturas sonoras virtuales describen y recrean los ambientes que se plantean desde la parte visual, generando así una correspondencia entre lo que se está viendo y lo que se oye.

Al hacer la correlación estadística de los coeficientes de correlación de la masterización y codificación, se observa, que los resultados son 0.788 y 0.983, valores muy cercanos a uno, con lo cual se infiere que las ondas son similares y por lo tanto, entre los tres procesos, las arquitecturas sonoras no cambian. Se afirma entonces que las arquitecturas sonoras se mantienen a lo largo de los procesos.

Se observa un porcentaje del 78.8% en el caso de la correlación entre la mezcla y la masterización, el cual indica que existe una relación de menor grado entre las arquitecturas sonoras virtuales de la mezcla y la masterización. Esto debido a que en el proceso de masterización se realizaron cambios más notorios en frecuencia y amplitud, sin embargo, el porcentaje es lo suficientemente alto para afirmar que se mantienen las arquitecturas sonoras virtuales.

En las encuestas, al tener resultados en donde el 43% y el 47% de los espectadores perciben que la amplitud y la espacialización aumentaron, y el 42% y 43% percibieron estos parámetros de la misma forma tanto en la mezcla como en la masterización, se infiere que la percepción subjetiva de los encuestados no es un buen indicador para afirmar que las arquitecturas sonoras virtuales se mantienen o cambian.

En cuanto al proceso de masterización, evidentemente hubo cambios en la señal en frecuencia y amplitud, esto es claro en los procesos matemáticos desarrollados que posteriormente fueron comprobados con la correlación estadística aplicada a los mismos. Sin embargo, se observa que con los valores obtenidos por la encuesta, el proceso de masterización, no fue lo suficientemente drástico para que la mayoría de los espectadores estuviera de acuerdo con los resultados obtenidos en el proceso matemático. En el campo cinematográfico, se siguen los parámetros del estándar según Dolby en donde los cambios entre la mezcla y la masterización no deben ser drásticos, mientras que existe el concepto erróneo donde se espera que una versión masterizada tenga cambios significativos en amplitud, espacialización y frecuencia con relación a la mezcla.

84

Se tiene que la amplitud, la frecuencia y la espacialización, para el 69%, 69% y 83% de los encuestados respectivamente permaneció igual en el proceso de codificación. Representando estos valores, a la mayoría de las personas encuestadas, se puede asegurar que en la codificación, las arquitecturas sonoras se mantuvieron.

En el proceso de codificación, los resultados matemáticos y de la encuesta comprueban que las arquitecturas sonoras virtuales se mantienen entre el proceso de masterización y el proceso de codificación.

7. RECOMENDACIONES

85

En cuanto a los sistemas de monitoreo o de reproducción de sonido envolvente, es necesario contar con una correcta calibración, teniendo en cuenta que todos los parlantes deben ser los mismos o por lo menos, lo más parecidos posibles.

Si el monitoreo al momento de mezclar o masterizar, se realiza en sistemas de teatro en casa, es completamente necesario hacer uso de la opción de Bass Management ya que estos parlantes no son de rango completo.

Para el montaje del sistema se recomienda utilizar equipos, cables y conectores en perfecto estado, aunque paresca muy simple, el mal estado de estos, puede afectar directamente en la reproducción del sonido.

Previo al proceso de mezcla, es necesario verificar que todos los sonidos estén bien grabados, en el caso de un audiovisual, si los diálogos fueron capturados con sonido directo, se propone como mejor opción: el doblaje.

En cuanto a la música de un audiovisual, se recomienda componerla de manera que sea un apoyo a la curva dramática y no que se convierta la música en canciones completas, pues se puede correr el riesgo de convertir el audiovisual en un videoclip y distraer al espectador de la trama del mismo.

En el momento de hacer la mezcla, se debe tener en cuenta que no todos los canales deben estar sonando al mismo tiempo (música, voces, ambientes, golpes, etc), ya que es muy facil perder inteligibilidad.

Al realizar mezclas de audiovisuales en sistemas envolventes, se debe ser consciente que no hay que realizar todo el tiempo espacializaciones radicales de sonidos, pues esto lo único que va a provocar en el espectador, es distracción; las espacializaciones abruptas se deben realizar con el propósito de que sean intensionales.

Los diálogos se deben mantener en el canal central frontal a menos que la espacialización sea obvia.

En el proceso de la masterización, se debe ser consciente que los cambios son mínimos, el rango dinámico debe ser respetado y éste debe mantenerse entre los 30dB.

Para hacer cualquier prueba con la programa realizado de convolución,es necesario que los archivos mantengan una misma frecuencia de muestreo y que el corte de los archivos de audio sea exacto, de lo contrario, los resultados cambiarán notoriamente, arrojando falsas conclusiones.

86

BIBLIOGRAFÍA

FISHER, Jeffrey; Instant Surround Sound. CMPBooks, primera edición, 2005.

GIBSON, David; The Art of Mixing, A Visual Guide to Recording Engineering and Production. Mix Pro Audio Series, 1997.

HOLMAN, Tomlinson; Surround Sound Up and Running. Focal Press, segunda edición, 2008.

OWSINSKI, Bobby; The Mixing Engineer’s Handbook. Mix Pro Audio Series, 1999.

WALPOLE, Ronald, MYERS, Raymond y MYERS, Sharon; Probabilidad y Estadística Para Ingenieros. Prentice Hall, Sexta edición, 1999.

Advanced Television Systems Committee Inc.; Digital Audio Compression Standard (AC-3, E-AC-3) Revision B, 2005.

ALLEN, Ioan; Are Movies Too Loud?. Dolby Laboratories Inc., 1997.

ALLEN, Ioan; Screen Size – The impact on Picture and Sound. Dolby Laboratories Inc., 2000.

ATSC Document A/52; Errata Sheet for Digital Audio Compression Standard (AC-3), 1999.

BOSI, Mariana y DAVIDSON, Grant; High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications. Dolby Laboratories Inc., 1993.

BOSI, Marina, SMYTH, Stephen y SMITH, Paul; DTS Surround Sound For Multiple Applications. DTS, 1991.

DAVIS, Mark F.; The AC-3 Multichannel Coder. Dolby Laboratories Inc, 1993.

Dolby Laboratories Inc.; 5.1-Channel Music Production Guidelines, 2005.

Dolby Laboratories Inc.; A Dolby Digital Encoding System for DVD, 2002.

Dolby Laboratories Inc.; Advertising and Promotional Guidelines for Cinemas, 2000.

Dolby Laboratories Inc.; Audio Source Tracks for DVD: Notes for Producers, 1999.

87

Dolby Laboratories Inc.; Catch the Next Innovation: Dolby E Multichannel Audio Coding for DTV Production and Distribution, 2003.

Dolby Laboratories Inc.; Digital Cinemas: Observations and Considerations, 2004.

Dolby Laboratories Inc.; Dolby Digital Professional Encoding Guidelines, 2000.

Dolby Laboratories Inc.; Dolby Digital The Sound of Future – Here Today, 1997.

Dolby Laboratories Inc.; Dolby Film Sound The Complete Service, 2001.

Dolby Laboratories Inc.; Dolby Surround Mixing Manual, 2005.

Dolby Laboratories Inc.; Dolby Surround Pro Logic II Decoder Principles of Operation, 1997.

Dolby Laboratories Inc.; Dolby Surround Trademark Placement, 2004.

Dolby Laboratories Inc.; Frequently Asked Questions About Dolby Digital, 2000.

Dolby Laboratories Inc.; Frequently Asked Questions - Dolby TrueHD, Digital Audio for Playback – Delivering Picture Perfect Sound, 2005.

Dolby Laboratories Inc.; Marking MLP Lossless Packing Soundtracks on DVD-A, 2005.

Dolby Laboratories Inc.; Making the Most of Audio Source Tracks for DVD: Some Guidelines from Dolby Laboratories, 1999.

Dolby Laboratories Inc.; Mixing Information for Dolby Prologic II, 2005.

Dolby Laboratories Inc.; MLP Meridian Lossless, 1998.

Dolby Laboratories Inc.; Standards and Practices for Authoring Dolby Digital and Dolby E Bitstreams, 2002.

Dolby Laboratories Inc.; Surround Sound Past, Present, and Future: A history of multichannel audio from mag stripe to Dolby Digital, 1999.

Dolby Laboratories Inc.; Surrounded! Dolby Sound For Your Next Game, 2004.

Dolby Laboratories Inc.; The Evolution of Dolby Film Sound, 2003.

DRESSLER, Roger; Dolby Surround Pro Logic Decoder Principles of Operation. Dolby Laboratories Inc., 1997.

DRESSLER, Roger y EGGERS, Craig; Dolby Audio Coding for Future Entertainment Formats. Dolby Laboratories Inc, 2005.

88

HILSON, Jim; Phase Correctors and Dolby Surround. Dolby Laboratories Inc., 2001.

Internacional Telecomunications Union, Radiocomunication Sector, Revision of Recommendation ITU-R BS.775-1 - Multichannel stereophonic sound system with and without accompanying picture

KELLOGG, John; DVD-Audio: A Producer’s Primer. Dolby Laboratories Inc., 2000.

LEONARD, John; Theater Sound, AES.

MAYO, Andrés; Bass Management en 5.1, Su Uso Apropiado en las Etapas de Mezcla y Mastering. Andrés Mayo Mastering y DVD, 2002.

Minnetonka SurCode; Dolby Digital Version 2.0 – 5.1 Dolby Digital AC-3 Encoder, 2003.

RIEDMILLER, Jeffrey C., LYMAN, Steve y ROBINSON, Charles; Intelligent Program Loudness Measurement and Control: What Satisfies Listeners?. Dolby Laboratories Inc, 2003.

TODD, Craig C., DAVIDSON, Grant A., DAVIS, Mark F., FIELDER, Louis D., LINK, Brian D. y VERNON, Steve; AC-3: Flexible Perceptual Coder for Audio Transmission and Storage. Dolby Laboratories Inc., 1994.

TOOLE, Floyd E.; The Acoustical Design of Home Theaters. Harman International Industries, 1999.

DPS Guide Online. http://www.dspguide.com/

THX: Certified Studio Specifications. http://www.thx.com/studio/specs.html Octubre 2008

THX: THX Cinema Certification. http://www.thx.com/cinema/builtTHX/index.html Octubre 2008

THX: Reverberation Control. http://www.thx.com/cinema/builtTHX/reverb.html Octubre 2008

THX: THX Certified pm3 Studios. http://www.thx.com/studio/pm3design.html Octubre 2008

Sound On Sound: The World’s Best Music Recording Magazine.

89

http://www.thx.com/studio/pm3design.html

http://www.thx.com/cinema/builtTHX/reverb.html

http://www.thx.com/cinema/builtTHX/index.html

http://www.thx.com/studio/specs.html

http://www.soundonsound.com/search?Keyword=surround&Year=+&Month=+&Words=All&Summary=Yes&Section=0&Subject=&ShowResults=yes Octubre 2008

Surround Associates: Experts in Surround Sound. http://www.surroundassociates.com/ Octubre 2008

Film Sound: Learning Space dedicated to the Art of Film Sound Design. www.filmsound.org Octubre 2008

90

http://www.filmsound.org/

http://www.surroundassociates.com/

http://www.soundonsound.com/search?Keyword=surround&Year=+&Month=+&Words=All&Summary=Yes&Section=0&Subject=&ShowResults=yes

http://www.soundonsound.com/search?Keyword=surround&Year=+&Month=+&Words=All&Summary=Yes&Section=0&Subject=&ShowResults=yes

GLOSARIO

Amplitud: Magnitud de una onda sonora o señal eléctrica.

Arquitectura Sonora: Contenido frecuencial, dinámico y espacializado de una producción musical, audiovisual o cinematográfica.

Banda Sonora: Hace alusión al resultado completo de diálogos, música y efectos que contiene una producción audiovisual o cinematográfica.

BluRay: Medio de almacenamiento óptico especializado para datos de alta densidad capaz de almacenar hasta 50Gb.

Calibración: Ajuste de componentes a estándares y normativas.

Codificación: Esquema que regula una serie de transformaciones sobre una señal digital, principalmente para comprimirla haciendo mas eficiente el procesamiento o transmisión posterior de la misma. Se realiza mediante un codificador, y se traduce mediante un decodificador.

Dinámica: Rango que existe entre el sonido más bajo y más alto en una señal sin que produzca distorsión.

DTS: Digital Theater System. Codificador digital que permite el almacenamiento de 6 canales independientes de audio en una sola señal comprimida.

Dolby: Compañía especializada en compresión y reproducción de audio.

Downmix: Se refiere al proceso por el cual un sistema multicanal se convierte a estéreo.

DVD: Digital Versátil Disc. Disco Versátil Digital. Medio de almacenamiento óptico con capacidad de hasta 9 Gb.

Frecuencia: El número de veces por segundo que una fuente sonora vibra. Expresada en Hertz (Hz).

Glitch: Interferencia en la transmisión de información que produce un salto digital de audio o video.

Headroom: La capacidad de incremento en la intensidad que una cinta, amplificador, u otros puede manejar sobre el nivel de trabajo de referencia sin generar distorsión.

HD DVD: High Density Digital Versatile Disc. Disco Versátil Digital de Alta Densidad. Medio de almacenamiento óptico con capacidad de hasta 30Gb.

91

Paneo: Proceso mediante un control de volumen que cambia la proporción de un sonido entre los parlantes en cualquier punto dentro del ambiente virtual.

Sesión Abierta: Sesión de trabajo en un DAW (Digital Audio Workstation, Estación de Trabajo de Audio Digital), donde es posible manipular los canales de la producción.

Shareware: Modalidad de distribución de software para que el usuario pueda evaluar de forma gratuita un producto, aunque éste cuenta con algunas limitaciones. También puede ser un software de licencia libre.

THX: Empresa especializada en sonido de alta fidelidad y salas de reproducción profesionales. Creada por Tomlinson Colman y George Lucas.

92

ANEXOS

ANEXO A

1. DEFINICIÓN DE AUDIO DIGITAL

1.1 Principios de la conversión análoga digital

Hace algunos años la única forma de almacenar y transmitir una señal de audio era usando cambios en voltaje o magnetismo que representaban una forma de onda que era análoga a la forma de onda de presión que era el sonido mismo. Esta señal análoga (análoga porque la onda de voltaje es análoga a la onda de presión) funciona muy bien, pero presenta algunos problemas relacionados con la introducción no deseada de ruidos. Estos problemas podrían ser solucionados si esta onda análogo pudiera ser convertida en otra forma de representación.

Figura 1: La representación en voltaje y tiempo de la señal continua

Para digitalizar una onda se hace lo mismo que en el cine. Cuando se ve una película en cine parecería que se está viendo imágenes en movimiento, pero en la realidad se está viendo 24 fotos en un segundo, pero como la respuesta de la visión humana es demasiado lenta parecería que se está viendo una imagen en movimiento. Lo que se hace es tomar un evento que ocurre en tiempo continuo y se corta en pequeños pedazos en tiempo discreto.

En audio se usa un dispositivo que toma muestras en intervalos regulares de tiempo como se ve en la figura 2.

Figura 2: La señal es cortada en el tiempo, se toma una muestra en cada línea punteada.

93

Cada muestra es guardada en el tiempo y la información que ocurrió entre los tiempos de muestreo es descartada y se pierde. El sistema que desempeña esta labor es lo que comúnmente se conoce como el circuito “sample and hold” (en español es muestrear y sostener) y lo que hace es tomar una muestra de la onda original en un momento de tiempo determinado y lo sostiene en ese nivel hasta la próxima vez en que se muestrea la señal.

El objetivo principal es representar la señal original con una serie de números que representan mediciones de cada muestra.

Figura 3: Representación de la salida del circuito “sample and hold”

Indiscutiblemente el siguiente paso es el de realizar la medición de cada muestra. El sistema de medición usado no es infinitamente preciso. Es como usar una regla en milímetros para medir algo que es de una longitud de 4.866 milímetros. Este mismo problema existe en el sistema de medición de audio digital y muy raramente ocurre que el nivel de la muestra tomada por el circuito “sample and hold” queda exactamente en el nivel de la onda original.

Figura 4: Salida del circuito “sample and hold” donde se muestra claramente los niveles de amplitud permitidos.

Volviendo al tema de la regla en milímetros vemos que para la medición se desprecian o se redondean las cifras decimales. Para el sistema de medición esta situación es la mejor posible y el error más grande que se puede hacer es de medio milímetro. Esto mismo es cierto para nuestro circuito de medición que redondea el nivel de la señal al valor permitido más cercano. Este procedimiento de redondeo es lo que llamamos cuantización lo que significa que toma un valor continuo y lo aproxima al valor discreto más cercano. Se debe notar claramente que al cuantizar estamos creando un error por el simple hecho de redondear los niveles de forma arbitraria. Este es el llamado error de cuantización (quantization error) y es perceptible en la salida de un sistema

94

como ruido en el que sus características dependen enteramente en la señal original. Éste llamado ruido de cuantización (quantization noise).

Para evitar tener errores grandes y notorios, lo mejor es perfeccionar nuestro sistema de medición para obtener más divisiones del nivel para tener que redondear lo menos posible y así minimizar los errores de cuantización y por lo tanto el ruido de cuantización. Para tener una idea general, el audio en calidad de CD tiene 65536 niveles posibles para realizar la medición del nivel de una señal.

Finalmente estos valores son almacenados o transmitidos por el sistema como una representación digital de la señal análoga original.

Este tipo de señales es el llamado PCM o Pulse Code Modulation lo que significa que para cada muestra que es escogida por algún algoritmo, se produce una representación discreta para realizar describir la onda análoga de manera digital. Los valores de voltaje se codifican como números binarios que pueden ser procesados o analizados posteriormente por un procesador digital de señal, esto se llama modulación.

1.2 Alias

El alias es un problema que ocurre gracias a la discretización del tiempo, para explicarlo se muestra la gráfica de la figura 5, la cual tiene menos de dos muestras por período. Consecuentemente la frecuencia de la señal análoga es mayor que la mitad de la frecuencia de muestreo.

Figura 5: Una señal que tiene una frecuencia mayor que la mitad de la frecuencia de muestreo.

En la figura 6 se muestra una segunda señal con la misma amplitud que la anterior que puede ser representada con las mismas muestras y como se puede observar la frecuencia de esta señal es menor que la de la señal que pasó por el conversor análogo digital.

95

Figura 6: La frecuencia ALIAS resultante causada por el muestreo de la señal de la figura 5.

El problema del alias genera dos posibles problemas, el primero es que se debe tener en cuenta que no existan frecuencias por encima de la mitad de la frecuencia de muestreo (Frecuencia de Nyquist) que lleguen al circuito de “sample and hold”. El segundo problema es uno muy sencillo de solucionar y es el de asegurar que la frecuencia de muestreo utilizada sea superior al doble del rango audible como mínimo. Para solucionar el primer problema se utiliza un filtro pasa bajos justo antes del conversor análogo digital, que suprime la energía generada por encima de la frecuencia de Nyquist. Este filtro se conoce como Filtro anti alias.

1.3 Error de Cuantización

La diferencia fundamental entre audio digital y análogo es la referente a la resolución. Las representaciones análogas de señales tienen teóricamente una resolución infinita tanto en tiempo como en amplitud. Las representaciones digitales de las señales análogas son discretizadas en niveles cuantificables en intervalos específicos de tiempo.

Un sistema PCM de audio digital tiene un finito número de niveles que pueden ser usados para especificar el nivel de la señal para una muestra en particular. Por ejemplo, un disco compacto usa una palabra binaria de 16 bits para representar la amplitud de cada muestra presentando así un total de 65536 (216) niveles de cuantización. Sin embargo, se debe tener en cuenta que solamente se usan estos niveles si la señal tiene una amplitud igual a la máxima amplitud posible del sistema. Si se reduce el nivel por un factor de 2 (una reducción de 6.02 dB) se estaría usando menor cantidad de bits de cuantización para realizar la medición de la señal. Entre más bajo sea el nivel de amplitud de la señal original menos niveles de cuantización se usarán.

96

Figura 7: Un período de una señal seno, que será considerada como la señal de entrada análoga al conversor análogo digital.

Esta señal es convertida a una representación digital PCM usando un conversor que tiene 3 bits de resolución, por lo tanto existe un total de 8 diferentes niveles de cuantización que pueden ser usados para describir la amplitud de la señal. Esto significa que en el sistema binario se tendrá una línea cero (000 ) con 4 niveles por debajo de ella (100 101 110 111) y 3 niveles por encima (001 010 011 ). Si la señal análoga de la Figura 7 fuera representada en este sistema de 3 bits para que el pico máximo de la señal concuerde con el nivel máximo permitido por el sistema PCM de representación digital se obtendría una representación como la de la Figura 8.

Figura 8: Un periodo de una señal seno después de una conversión digital usando 3 bits en un sistema complementario PCM en donde el nivel de la señal es redondeado al nivel de cuantización más cercano en cada muestra.

Como era de esperar, la representación no es exactamente la misma a la de la señal seno original. El costo de la cuantización es la introducción de errores de medición. Pero ¿qué tanto error se está generando gracias al sistema de medición digital? Este error es la diferencia entre la entrada y la salida que se grafica en la figura 9.

97

Figura 9: Error de cuantización generado por la conversión análoga digital en el sistema de 3 bits.

La primera característica de este error es la periodicidad, ya que una onda seno se repite de igual manera en el tiempo, por lo tanto el error también será periódico. El período de esta señal de error será idéntico al de la onda seno original, por lo tanto estará compuesta con armónicos de la señal original. Debe notarse también que el máximo error de cuantización generado por el sistema es de la mitad de 1 LSB (Less significant Bit o bit menos significativo). Lo que se debe notar al respecto es que el error de cuantización nunca será mayor que la mitad del bit menos significativo. Por lo tanto entre más niveles de cuantización se usen, más se incrementará la amplitud de la señal representada en relación al error.

Como se muestra en las figuras 10, 11 y 12 entre mayor es el numero de bits del sistema para describir el nivel de las muestras de la señal, menor será el nivel aparente del error de cuantización. No importa con cuantos bits cuente el sistema, el error de cuantización será una señal que tiene su máximo en la mitad del bit menos significativo; esto en el peor de los casos.

Si se piensa en términos del bit menos significativo, la amplitud del error de cuantización será la misma no importa en qué resolución se realice el muestreo.

Figura 10: Error de cuantización, representación análoga y digital en un sistema de 3 bits

98

Figura 11: Error de cuantización, representación digital y análoga en un sistema de 4 bits.

Figura 12: Error de cuantización, representación análoga y digital en un sistema de 9 bits.

Dado que un disco compacto tiene 65536 niveles de cuantización ¿se debe dar importancia al error de cuantización? La respuesta es “claro que si”. Por dos razones:

1. Se debe recordar que el único momento en que todos los bits en un sistema digital están siendo usados es cuando la señal está en el nivel máximo posible. Si está más abajo (característica usual ) pues se está usando un set distinto de niveles de cuantización. Como el error de cuatnización permanece constante en +/- 0.5 LSB y como la señal es menor, entonces el error relativo de cuantización/señal es mayor. Entre mas bajo sea el nivel de la señal, el error será mas audible. Esto es particularmente cierto al final del decaimiento de una nota en un instrumento o en la reverberación en un cuarto grande. A medida que el sonido decae de máximo a cero, utiliza cada vez menos niveles de cuantización y la calidad percibida baja gracias a que el error cada vez es mas evidente y menos enmascarado.

99

2. Como el error de cuantización es periódico, es en sí, una distorsión de la señal y está relacionado directamente con la señal misma. El cerebro humano es muy bueno en ignorar aspectos de poca importancia, por ejemplo cuando se entra en un recinto y se percibe un olor nuevo, después de transcurrido un tiempo se deja de percibir. El olor no ha cesado, pero el cerebro lo ignora porque es constante. Lo mismo ocurre con el ruido de la cinta de grabación análoga. El cerebro es capaz ignorar este ruido porque no está relacionado con el de la señal y es constante (no cambia a lo largo de la reproducción de la señal). La distorsión es un tema diferente, pues está compuesta enteramente por material no deseado. La distorsión modula la señal. Consecuentemente el cerebro da importancia a esta nueva señal. El cerebro es bueno ignorando ruidos constantes pero no distorsión. Infortunadamente el error de cuantización produce distorsión armónica y no ruido.

1.4 Dither

Existe un proceso en el cual podemos eliminar el error de cuantización por medio de la adición de ruido a la señal. Este tipo especial de ruido es conocido como Dither. Parecería contraproducente arreglar un problema de ruido por la adición de ruido. Hay que considerar que lo que estamos haciendo es un trato entre distorsión y ruido. Al añadir dither a la señal de audio con un nivel que es aproximadamente la mitad del LSB (bit menos significativo) podemos generar un ruido con nivel constante (que es audible) que efectivamente elimina la dependencia del error de cuantización con la información original de la señal. Al eliminar esta dependencia también se elimina la distorsión armónica que es apreciable en señales de bajo nivel.

Con el dither no se está eliminando el error de cuantización, sino que se está eliminando su periodicidad, es decir, que se aleatorializa. Con la aleatorialización obtenemos un ruido constante a un nivel muy bajo. La ventaja de realizar esta acción es la de hacer que una distorsión armónica (que es dependiente del tiempo y tiene período fijo y calculable) se convierta en un ruido aleatorio constante que no es apreciable por nuestro cerebro (se debe recordar la analogía del olor).

Hasta ahora en teoría todo parece aportar a la indeterminación del error de cuantización, pero de nuevo surge una pregunta que debe responderse: ¿Qué tipo de ruido se debe adicionar?

Para solucionar esta incógnita se debe hablar de las funciones de densidad de probabilidad (PDF ) del ruido. Cuando se añade dither a la señal antes de cuantizarla, se añade un número aleatorio que tiene un valor predecible dentro de un rango. Este rango debe ser controlado, puesto que si no se puede controlar, el nivel de ruido puede ser innecesariamente alto o muy bajo y por lo tanto inefectivo.

100

Hay tres funciones de densidad de probabilidad típicas asociadas al audio digital PCM, que son la función de densidad de probabilidad rectangular, la triangular y la Gaussiana.

La Figura 13 muestra una función de densidad de probabilidad rectangular propia del ruido blanco generado por una función binomial.

Figura 13: Función de densidad de probabilidad del ruido blanco usado como dither.

Figura 14: Función de densidad de probabilidad triangular

Si se realiza un análisis de frecuencia de la siguiente manera: Se genera una frecuencia de 1kHz a 64 bits que es cuantizada a 8 bits sin dither, después con un dither con función de densidad de probabilidad rectangular y finalmente con una función de densidad triangular.

101

Figura 15: De arriba hacia abajo,1. Onda seno de 1kHz en 64 bits sin dither, 2. Onda seno cuantizada a 8 bits sin dither, 3. Onda seno cuantizada con un dither rectangular y 4. Onda seno con dither triangular.

Como se puede observar en las gráficas así el dither aumente el nivel de ruido y disminuya la relación señal ruido, el resultado del mismo es un ruido que se distribuye de manera uniforme en todo el espectro y es un ruido de banda ancha que para el oído humano es mucho mejor que únicamente picos con un ancho de banda muy pequeño.

102

ANEXO B

MODELO DE ENCUESTA

Primera encuesta: proceso de mezcla

Para la reverberación:

1. En cuanto a los lugares en los que sucede el audiovisual, los espacios teniendo en cuenta el tamaño los percibió:

a. Grandes. b. Pequeños. c. Medianos.

2. En cuanto a los lugares en los que sucede el audiovisual, percibió los sonidos:

a. Lejos. b. Cerca. c. Normal.

Para la inteligibilidad:

3. ¿Entendió cada uno de los diálogos que suceden en el audiovisual?

a. Si. b. No. c. Se le dificultó algunos.

Para la espacialización:

4. ¿Percibió que los sonidos provenían de donde deberían provenir?

a. Si. b. No. c. Algunos no.

5. ¿Percibió la sensación envolvente del sonido?

a. Si. b. No.

6. ¿Percibió sonidos que provenían específicamente de uno de los 9 parlantes?

a. Si. b. No.

Para la dinámica:

7. Cree que el audiovisual en cuanto al nivel general está:

a. A un alto nivel. b. A un bajo nivel. c. A un nivel normal.

8. Percibió que la diferencia entre los sonidos de alto y de bajo nivel:

103

a. Era amplia. b. No fue notoria la diferencia. c. Era normal.

9. Sintió que los sonidos fuertes:

a. Eran muy fuertes. b. Eran muy suaves. c. Tenían un nivel normal.

10. Sintió que los sonidos suaves:

a. Eran muy fuertes. b. Eran muy suaves. c. Tenían un nivel normal.

Para el contenido frecuencial:

11. Percibió el audiovisual en general:

a. Muy brillante. b. Muy opaco. c. Equilibrado.

12. ¿Percibió que algún rango de frecuencias predominaba? (si su respuesta es si, indique un rango aproximado de frecuencias)

a. Menores a 300 Hz. b. 300 – 1 KHz. c. 1KHz – 8KHz.

d. Mayores a 8KHz.e. No.

13. ¿Cree que la parte sonora fue coherente con la parte visual?

a. Si. b. No. c. Algunas veces.

Segunda encuesta: proceso de masterización



a. Más grandes. b. Más pequeños. c. Igual que en el anterior.


a. Más lejos. b. Más cerca. c. Igual que en el anterior.


3. Los diálogos que suceden en el audiovisual:

104

a. Se entendieron más. b. Se entendieron menos. c. Se escucharon igual.


4. Sintió que los sonidos en cuanto a su proveniencia, estaban:

a. Más direccionados. b. Menos direccionados. c. Igual.

5. Comparando la sensación envolvente del sonido, lo percibió:

a. Más envolvente. b. Menos envolvente. c. Igual.

6. ¿Percibió que más sonidos provenían específicamente de uno de los 9 parlantes?

a. Si. b. No. c. Igual.

Para la dinámica:

7. Comparando el nivel general del audiovisual, lo percibió:

a. A un mayor nivel.b. A un menor nivel. c. Al mismo nivel.


a. Era mayor. b. Era menor. c. Era igual.


a. Eran más fuertes. b. Eran más suaves. c. Igual.





a. Más brillante. b. Más opaco. c. Igual.



105

d. Mayores a 8KHz.e. Lo percibió igual que en el anterior.

13. Cree que la coherencia entre la parte sonora y la parte visual:

a. Aumentó. b. Disminuyó. c. Siguió igual.

Tercera encuesta: Proceso de codificación en 7.1



a. Más grandes. b. Más pequeños. c. Igual que en el anterior.


a. Más lejos. b. Más cerca. c. Igual que en el anterior.


3. Los diálogos que suceden en el audiovisual:

a. Se entendieron más. b. Se entendieron menos. c. Se escucharon igual.


4. Sintió que los sonidos en cuanto a su proveniencia, estaban:

a. Más direccionados. b. Menos direccionados. c. Igual.

5. Comparando la sensación envolvente del sonido, lo percibió:

a. Más envolvente. b. Menos envolvente. c. Igual.

6. ¿Percibió que más sonidos provenían específicamente de uno de los 9 parlantes?

a. Si. b. No. c. Igual.

Para la dinámica:

106

7. Comparando el nivel general del audiovisual, lo percibió:

a. A un mayor nivel.b. A un menor nivel. c. Al mismo nivel.


a. Era mayor. b. Era menor. c. Era igual.







a. Más brillante. b. Más opaco. c. Igual.



d. Mayores a 8KHz.e. Lo percibió igual que en el anterior.

13. Cree que la coherencia entre la parte sonora y la parte visual:

a. Aumentó. b. Disminuyó. c. Siguió igual.

107

ANEXO C

M-FILESPROGRAMAS DECONVOLUCIÓN Y CONVOLUCIÓN MASTERIZACIÓN

CANAL IZQUIERDO>> clc;clear all;clear global;

>> fs=48000;

>> [m1,fs]=wavread('m1.wav');

>> [r1,fs]=wavread('r1.wav');

>> figure;subplot(2,1,1),plot(m1);title('SeÒal sin procesar=masterizar o codificar');subplot(2,1,2),plot(r1);title('SeÒal Procesada=masterizada o codificada');

>> m1a=m1(1:48000,1);

>> Lh11=length(r1)-length(m1a)+1

>> Lh22=pow2(nextpow2(Lh11))

>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;

>> h1=real(ifft(H11, Lh22));

>> h1=h1(1:1:Lh11);

>> h1n=h1/max(abs(h1));

>> figure;plot(h1);title('Respuesta al Impulso');

>> figure;plot(h1n);title('Respuesta al Impulso NORMALIZADA')

>> co=conv(h1,m1);

>> co=co(1:1:length(r1));

>> figure;subplot(2,1,1),plot(r1);title('SeÒal ORIGINAL');subplot(2,1,2),plot(co);title('SeÒal Obtenida por Convolucion');

>> [rr,fs]=wavread('ruidorosa.wav');

>> figure;plot(rr);title('Ruido Rosa');

>> convruidorosa=conv(h1,rr);

>> convruidorosa=convruidorosa(1:1:length(rr));

>> figure;subplot(2,1,1),plot(convruidorosa);title('Ruido Rosa Procesado');subplot(2,1,2),plot(rr);title('Ruido Rosa Original');

>> wavwrite(convruidorosa,fs,24,'ruidoprocesadoM1.wav');

CANAL DERECHO>> clc;clear all;clear global;

>> fs=48000;




108

>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









CANAL LFE>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);



109


>> co=conv(h1,m1);









CENTRAL TRASERO>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









110

CANAL REAR LEFT>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









CANAL REAR RIGHT>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

111

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









CANAL SIDE LEFT>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);



>> figure;plot(h1n);title('Respuesta al Impulso NORMALIZADA') >> co=conv(h1,m1);



112







CANAL SIDE RIGHT>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









PROGRAMAS DE CORRELACIÓN MEZCLA

>> clc;clear all;clear global;

>> fs=48000;

113










>> figure;subplot(3,3,1),plot(m1);title('FRONT LEFT');subplot(3,3,2),plot(m2);title('FRONT RIGHT');subplot(3,3,3);plot(m3);title('CENTER');

>> subplot(3,3,4),plot(m4);title('LFE');subplot(3,3,5),plot(m5);title('REAR LEFT');subplot(3,3,6);plot(m6);title('REAR RIGHT');>> subplot(3,3,7),plot(m7);title('CENTER REAR');subplot(3,3,8),plot(m8);title('SIDE LEFT');subplot(3,3,9);plot(m9);title('SIDE RIGHT');

>> acoefi1=corrcoef(m1,m1);

>> acorrel1=xcorr(m1);

>> figure;subplot(2,1,1),plot(acoefi1);title('Coeficiente de CorrelaciÛn');subplot(2,1,2),plot(acorrel1);title('Funcion de CorrelaciÛn');

>> acorrel1max=max(abs(acorrel1))

















114

















>> coefi1=corrcoef(m1,m2);

>> 'coeficiente de correlaciÛn'

>> coeficiente=coefi1(1,2)

>> 'coeficiente de correlaciÛn de Pearson'

>> coeficientePearson=coeficiente^2

>> correl1=xcorr(m1,m2);

>> figure;subplot(2,1,1),plot(coefi1);title('Coeficiente de CorrelaciÛn');subplot(2,1,2),plot(correl1);title('Funcion de CorrelaciÛn');

>> correl1max=max(abs(correl1))






>> correl2=xcorr(m1,m3);>> figure;subplot(2,1,1),plot(coefi2);title('Coeficiente de CorrelaciÛn');subplot(2,1,2),plot(correl2);title('Funcion de CorrelaciÛn');




115




































116






























>> coeficiente=coefi11(1,2)>> 'coeficiente de correlaciÛn de Pearson'




117



































118



































119



































120































>> coeficientePearson=coeficiente^2>> correl28=xcorr(m5,m7);




121



































122






























MASTERIZACIÓN


>> fs=48000;

>> [m1,fs]=wavread('r1.wav');

123










>> subplot(3,3,4),plot(m4);title('LFE');subplot(3,3,5),plot(m5);title('REAR LEFT');subplot(3,3,6);plot(m6);title('REAR RIGHT');>> subplot(3,3,7),plot(m7);title('CENTER REAR');subplot(3,3,8),plot(m8);title('SIDE LEFT');subplot(3,3,9);plot(m9);title('SIDE RIGHT');























124


































125



































126



































127



































128



































129



































130





























>> coeficientePearson=coeficiente^2>> correl28=xcorr(m5,m7);






131



































132




























CODIFICACIÓN>> clc;clear all;clear global;>> fs=48000;

>> [m1,fs]=wavread('c1.wav');





133





>> subplot(3,3,4),plot(m4);title('LFE');subplot(3,3,5),plot(m5);title('REAR LEFT');subplot(3,3,6);plot(m6);title('REAR RIGHT');

>> subplot(3,3,7),plot(m8);title('SIDE LEFT');subplot(3,3,8);plot(m9);title('SIDE RIGHT');



























134



































135



































136



































137



































138



































139



































140
























PROGRAMAS DECONVOLUCIÓN Y CONVOLUCIÓN CODIFICACIÓNCANAL CENTRAL


>> fs=48000;

>> [m1,fs]=wavread('R3.wav');

>> [r1,fs]=wavread('C3.wav');


>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

141

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);








>> wavwrite(convruidorosa,fs,24,'ruidoprocesadoC3.wav');

CANAL IZQUIERDO>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);



142







CANAL DERECHO>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);





>> convruidorosa=conv(h1,rr);>> convruidorosa=convruidorosa(1:1:length(rr));



CANAL LFE>> clc;clear all;clear global;

>> fs=48000;


143



>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









CANAL REAR LEFT>> clc;clear all;clear global;

>> fs=48000;



>> figure;subplot(2,1,1),plot(m1);title('SeÒal sin procesar=masterizar o codificar');subplot(2,1,2),plot(r1);title('SeÒal Procesada=masterizada o codificada'); >> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);

144




>> co=conv(h1,m1);









CANAL REAR RIGHT>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);


>> figure;plot(h1);title('Respuesta al Impulso');>> figure;plot(h1n);title('Respuesta al Impulso NORMALIZADA')

>> co=conv(h1,m1);








145


CANAL SIDE LEFT >> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









CANAL SIDE RIGHT>> clc;clear all;clear global;

>> fs=48000;




>> m1a=m1(1:48000,1);



146

>> R11=fft(r1, Lh22);

>> M11=fft(m1, Lh22);

>> H11=R11./M11;


>> h1=h1(1:1:Lh11);




>> co=conv(h1,m1);









ANEXO D

CONTENIDO DE DVD’S ADJUNTOS

DVD 1Video Codificado en 7.1 canalesVideo de referencia

DVD 2Archivos mezcla 8.1Archivos master 8.1Archivos codificación 7.1

DVD 3

147

M-Files programas MatlabArchivos de audio para Matlab

148

Realización y Análisis de Procesos de Arquitectura Sonora...

Documents

Transcript of Realización y Análisis de Procesos de Arquitectura Sonora...