Download - 2 Conceptos básicosbibing.us.es/proyectos/abreproy/12179/fichero/Proyecto... · 13 Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y verde)

10

2 Conceptos básicos

En el siguiente capítulo se realiza un estudio del arte de las diferentes tecnologías involucradas

en un sistema de vídeo 3D. Primeramente para entender el concepto de visión 3D se introduce

al lector en el concepto de visión estereoscópica y se explica brevemente la historia de la

visión estereoscópica hasta la actualidad.

Una vez definidos los conceptos básicos, se mostrarán las diferentes tecnologías que existen

para la representación de contenidos estereoscópicos tanto sistemas que actualmente están

en fase de investigación como sistemas comerciales. Seguidamente se explicarán las diferentes

formas que existen en la actualidad de generar contenidos 3D explicando la problemática y

beneficios de cada uno.

Entre la generación y la representación, típicamente, se utilizan codificadores que

proporcionan la información del transmisor al receptor con el número mínimo de bits y sin que

el espectador pueda observar que se ha realizado dicho proceso. En este caso se explicarán las

diferentes soluciones existentes para la codificación de contenidos 3D.

2.1 VISIÓN 3D

Antes de profundizar en la explicación del desarrollo de las técnicas utilizadas para analizar los

diferentes formatos de codificación 3D, se hace necesario explicar en qué principios físicos se

basa la visión 3D.

2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D

El sistema visual humano es un sistema binocular, disponemos de dos ojos en los que, debido a

su separación horizontal, se reciben dos imágenes, de una misma escena, con puntos de vista

diferentes. Mediante estas dos “vistas” el cerebro crea una sensación espacial. A este tipo de

visión se le denomina visión estereoscópica y al proceso en si mismo estereopsis.

Figura 2.1 Creación de sensación de profundidad

En la estereopsis intervienen diversos mecanismos. Cuando observamos objetos muy lejanos,

los ejes ópticos de nuestros ojos son paralelos. Cuando observamos un objeto cercano,

nuestros ojos giran para que los ejes ópticos estén alineados sobre él, es decir, convergen. A su

11

vez se produce la acomodación o enfoque para ver nítidamente el objeto. Este proceso

conjunto se denomina fusión. No todo el mundo tiene la misma capacidad de fusionar un par

de imágenes en una sola tridimensional. Alrededor de un 5% de la población tiene problemas

de fusión2. La agudeza estereoscópica es la capacidad de discernir, mediante la estereopsis,

detalles situados en planos diferentes y a una distancia mínima. Hay una distancia límite a

partir de la cual no somos capaces de apreciar la separación de planos, y que varía de unas

personas a otras. Así, la distancia límite a la que dejamos de percibir la sensación

estereoscópica puede variar desde unos 60 metros hasta cientos de metros3.

Un factor que interviene directamente en esta capacidad es la separación interocular. A mayor

separación entre los ojos, mayor es la distancia a la que apreciamos el efecto de relieve.

Las cámaras convencionales son monoculares (un solo objetivo) con lo que al realizar la

reproducción de un contenido grabado con una de estas cámaras los ojos reciben la misma

imagen desde el mismo punto de vista a los dos ojos. En el caso de realizar la grabación con

una cámara estereoscópica se observaría como los objetos salen o se adentran sobre el marco

donde se representan, dotando a la reproducción de un mayor realismo. En estas dos

imágenes (Figura 2.2) se puede apreciar la disparidad, es decir, las diferencias en la dirección

horizontal entre los elementos de la imagen.

Figura 2.2 Imagen estereoscópica

El mecanismo sobre el que se produce la estereopsis es extremadamente preciso. Pese a esto,

como se ha comentado anteriormente, no todo el mundo es capaz de realizar el proceso de

fusión. Desordenes visuales en la niñez, aunque fueran temporales, pueden dar resultado a

“estereoceguera”, se calcula que afecta al 5% de la población.

La causa más común es el estrabismo (desalineación de los ojos), aunque en caso de ser

corregido a tiempo la visión estéreo puede desarrollarse normalmente.

También se hace necesario comentar que las capacidades de visualización estereoscópica

varían con la edad, siendo los jóvenes son más sensibles a esta, sobre todo cuando la

disparidad de la imagen es mayor.

A parte de los problemas físicos que puedan impedir una correcta visualización, también se

hace necesario que la reproducción se realice siguiendo una serie de requisitos, unos comunes

2 Howard, I.; Rogers, B. (1995). Binocular Vision and Stereopsis.

3 "Principles of Stereoscopy", Herbert McCay's

12

a contenidos 2D y otros exclusivos de contenidos estereoscópicos. Por la parte de 2D se hace

necesaria: una correcta definición, resolución y evitar el parpadeo de la imagen, esto último se

consigue asegurando una frecuencia de refresco mínima de 50Hz. Por la parte de 3D se hacen

necesarios los siguientes requisitos:

La sensación de mareo no debe existir.

El usuario no debe tener que realizar un esfuerzo para adaptarse a la sensación 3D,

sino que esta sensación sea natural.

La sensación 3D debe ser nítida y constante a lo largo de todas las figuras y

especialmente en los bordes de los objetos.

El sistema debe ser lo más independiente posible del ángulo de visión del usuario.

De cumplirse todos estos requisitos estaremos ante un sistema 3D que será de gran aceptación

por parte del público. Este tipo de visión debe ser algo natural y no ha de suponer ningún

esfuerzo o molestia adicional.

2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES

ESTEREOSCÓPICAS

Los Displays 3D que se utilizan para realizar la representación de los contenidos 3D pueden ser

divididos según la técnica usada para dirigir las vistas izquierda y derecha al ojo apropiado:

unos necesitan dispositivos ópticos cerca de los ojos, y por el contrario, otros tienen este

proceso integrado en el display mismo. Estos últimos, de visión libre (free-viewing), son

llamados autoestereoscópicos. El hecho de que el usuario no necesite incorporar ningún

elemento hace que este último tipo sea de alto interés.

2.2.1 AIDED-VIEWING

En los monitores que sí necesitan de elementos en el usuario (aided-viewing), dos perspectivas

diferentes son generadas (casi) simultáneamente. Los rayos de luz son generados en un plano

fijo de visión mediante diversos métodos de multiplexado que dirigen las imágenes al ojo

apropiado:

1) Multiplexado de colores (Anaglyph): Este sistema propone ubicar en un mismo cuadro las

dos imágenes de dos capas de color, superpuestas pero desplazadas ligeramente una

respecto a la otra para producir el efecto de profundidad. Cada imagen, para ser vista debe

ser filtrada por lentes especiales en cada ojo que separa y hace que los ojos tengan esa

diferencia de percepción de la imagen, estos filtros son óptimos al usar colores

complementarios en la imagen y en las gafas, la imagen presentada por ejemplo en rojo no

es vista por el ojo que tiene un filtro del mismo color, pero sí que ve la otra imagen en azul

o verde. Es muy común utilizar el par rojo/cian ya que esta combinación tiene

características simples de longitudes de onda paso bajo/paso alto.

13

Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores para obtener la

visualización en 3D.

2) Multiplexado mediante polarización: Este sistema propone algo similar al multiplexado de

colores, la diferencia se basa en usar la naturaleza de la luz polarizada para separar las

imágenes izquierda y derecha, dicha separación de las imágenes se basa en la polarización

de la luz a +45º para el ojo derecho y a –45º para el ojo izquierdo, se desea al igual que en

el sistema anterior diferenciar cada imagen, pero si esta imagen se muestra como luz

polarizada tiene componentes determinadas de campo eléctrico y magnético, las cuales

pueden ser filtradas en recepción por gafas especiales. Este sistema posee varias ventajas

como el ser pasivo, y mantener todo el espectro de colores de una imagen, haciendo que

sea una técnica muy sencilla.

14

Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización vertical

El funcionamiento básico consiste en la utilización de dos proyectores con filtros (uno

vertical y el otro horizontal). La proyección se ha de realizar sobre una pantalla que refleje

los rayos sin modificar su polarización. El usuario deberá incorporar unas gafas con filtros

polarizados para realizar la separación de las imágenes.

Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo

3) Multiplexado en tiempo: Este procedimiento propone que las imágenes correspondientes

a cada ojo se presenten en forma sucesiva una después de otra, en este sistema la

información L+R4 no está contenida en la misma imagen, hay un par de cuadros

independientes que se muestran en rápida sucesión. Es necesario separar estas imágenes

ante el espectador, y esto se logra con obturadores de alta velocidad alternados y

sincronizados, los cuales se montan en gafas especiales (shutter glasses), estos

obturadores son usualmente del tipo LCD (Liquid Crystal Display). El sistema visual humano

es capaz de mezclar imágenes estereoscópicas separadas por un retraso en el tiempo de

hasta 50ms. La velocidad a la cual se alternan las imágenes es conocida como velocidad de

renovación, y por ello se pueden producir imágenes con parpadeo, sin embargo se ha

mejorado y se han determinado ciertos valores donde se tiene buena calidad de

visualización (12 imágenes/seg. para el cine tradicional y 12,5-15 imágenes/seg. para la

televisión con exploración entrelazada). Este sistema funciona mucho mejor a velocidades

de renovación más elevadas con exploración progresiva.

4 Información estereoscópica de los canales visuales Izquierdo + Derecho, llamado I+D ó L+R.

15

Figura 2.6 Funcionamiento de los lentes "shutter"

La ventaja de este sistema radica en que se pueden utilizar monitores 2D para la

reproducción de los contenidos 3D siempre y cuando la frecuencia de refresco de pantalla

sea de al menos 100Hz y tengan un bajo tiempo de respuesta.

4) Multiplexado en espacio: En este sistema las dos vistas son creadas en lugares distintos y

redirigidas al ojo correcto mediante canales independientes. Este sistema es el utilizado

por los Head Mounted Displays (HMD)5. Con estos sistemas se puede llegar a tener una

percepción de hasta 140º en horizontal y 90º en vertical.

2.2.2 FREE-VIEWING

En este sistema, las dos imágenes (L+R) se presentan simultáneamente en tiras verticales

intercaladas. Un sistema lenticular de lentes cilíndricas situado en la pantalla enfoca ambas

imágenes en forma separada aproximadamente a una distancia interocular cercana a los

65mm.

Este sistema exige que el espectador no mueva su cabeza bruscamente, y restringe el perfil

multivisión de una pantalla de televisión, es decir un cambio de posición del espectador afecta

a la imagen que éste observa. Existe la sensación de que la escena gira con el movimiento del

observador, este fenómeno se conoce como Free viewpoint (punto de vista libre), y hoy en día

la tecnología ha desarrollado 8 de estos puntos. Cada Free Viewpoint requiere dos imágenes

(una por cada ojo) lo que hace que la pantalla tenga una resolución mucho mayor que la HDTV

(High Definition Television). Con esto se desarrolla en algo la técnica que permita que existan

múltiples espectadores, ya que no es necesario localizarlos en posiciones fijas. El principal

cambio es la utilización de micro-lentes que permiten controlar la difracción de los haces de

luz. Como no se necesitan gafas especiales, se lo conoce como sistema autoestereoscópico.

Algunos de los métodos más destacados son:

5 HMD: es un dispositivo de visualización similar a un casco, que permite reproducir imágenes creadas

por ordenador sobre un "display" muy cercano a los ojos o directamente sobre la retina de los ojos.

16

Electroholográficos: Estos displays, actualmente en fase de investigación, pueden

grabar y reproducir las propiedades de las ondas de luz (amplitud, longitud de onda y

fase). Este proceso, en caso de realizarse de forma perfecta, sería el ideal para

sistemas de visión libre 3D.

Volumétricos: Estos displays crean la sensación de inmersión proyectando la

información 3D dentro de un volumen. Estos sistemas típicamente presentan

problemas de resolución además de necesitar mucho ancho de banda. Este tipo de

displays se encuentran actualmente en fase de investigación.

Multiplexado por direccionamiento: Se aplican efectos ópticos como la difracción,

refracción, reflexión y oclusión para redirigir la luz emitida por los píxeles de distintas

vistas al ojo apropiado. Existen diversos tipos, pero los más destacados (debido a que

están más desarrollados tecnológicamente) son los basados en la refracción y en

oclusión:

1) Oclusión: Debido al efecto parallax (paralaje), partes de la imagen son ocultadas a

un ojo y visibles para el otro. Existen diversos tipos dependiendo del número de

hendiduras y de la posición de colocación de la barrera, que puede estar enfrente

o detrás de la pantalla. Las pantallas con barrera de parallax detrás del display ya

se pueden encontrar en el mercado en monitores tanto de PC como de portátiles.

Como se observa en la figura 2.7, la barrera de parallax es la encargada que

redirigir los haces de luz (y no la imagen en sí), al ojo adecuado. El problema que

tiene este tipo de displays es que la posición de visualización es muy estricta

siendo posible su uso sólo para una persona.

Figura 2.7 Tecnología de barrera de parallax

2) Refracción: Como en el caso anterior existen diversos tipos de display, siendo

Integral Imaging el más prometedor. En este tipo de displays la imagen se

compone de múltiples pequeñas imágenes 2D capturas con un amplio número de

grupos de pequeñas lentes convexas. Cada grupo de lentes captura la escena

desde un punto de vista distinto. De esta manera el usuario percibe diferentes

imágenes para diferentes puntos de vista. El problema radica en que los grupos

17

lentes deben de ser muy pequeños, debido a que cada píxel debe contener un

grupo de lentes. Por este motivo, el display debe de tener una resolución muy alta.

Como solución alternativa existen las pantallas lenticulares que usan lentes

cilíndricas que pueden ser consideradas como una versión unidimensional de las

pantallas Integral Imaging. Debido a la orientación vertical de las lentes, los rayos

de luz de cada imagen son emitidos en direcciones específicas en el plano

horizontal.

Figura 2.8 Funcionamiento monitor lenticular

En la figura anterior se muestra precisamente este funcionamiento. Se observa como el

usuario tendrá la posibilidad de colocarse en distintos lugares donde podrá percibir

correctamente la sensación 3D, al contrario que con la barrera de parallax donde sólo existe

un lugar donde es posible observar correctamente el contenido.

2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D

Existen diferentes tecnologías de creación de contenidos 3D y también existen diferentes

formas de visualización estereoscópica, esto hace que existan multitud de formatos con los

que codificar, almacenar y transmitir los contenidos. Cada formato de representación depende

de un formato de codificación concreto.

La adquisición es la primera etapa en el proceso de crear y transmitir señales de 3D; la cadena

a la que el vídeo estereoscópico debe someterse se describe en la figura 2.9.

Figura 2.9 Cadena de transmisión del vídeo estéreo

Los diferentes formatos para la codificación, transmisión y visualización hacen que existan

muchas formas de adquirir vídeo 3D y de procesarlo. De los puntos anteriores del capítulo se

desprende la conclusión de que para crear una imagen estereoscópica es necesario al menos

tener información de imágenes L+R, lo que supone que se necesitan dos lentes para captar

estas informaciones; sin embargo los nuevos métodos proponen algunas otras soluciones.

18

2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA)

Este método se presenta como la solución elemental al problema de la adquisición, debido a

que es la manera más próxima de emular el sistema de visión humano.

La idea principal es asemejar las lentes a la visión humana, es por ello que la separación

interlenticular debe ser de 65 mm. y tener un ángulo de convergencia igual al humano. Un

requerimiento elemental para el diseño de un sistema de adquisición estereoscópico es la

comprensión total del espacio real (espacio donde se encuentra el objeto) para reproducir el

espacio del vídeo estereoscópico.

La tecnología de cada lente para captar la imagen es igual a la tradicional de los sistemas de

vídeo monoscópico, es decir cámaras CCD. Cada lente trabaja bajo sus principios para capturar

la imagen independientemente.

Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo

2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA)

Para la implementación de estos sistemas se utilizan lentes monoculares tradicionales

dispuestos de tal forma que permitan obtener los detalles que proporcionen información de

profundidad para una escena. Estos sistemas, al ser complicados, quedan reservados para

aplicaciones muy específicas y determinadas, tales como espectáculos deportivos y culturales,

donde al espectador se le puede incluso brindar mayores posibilidades de interactividad. En

estos sistemas la producción de imágenes es más compleja y robusta que en otros casos, ya

que con muchas informaciones visuales los sistemas deben ser capaces de procesar gran flujo

de datos, tener altas tasas de compresión y obtener variables útiles para el desarrollo.

La etapa de captura se desarrolla mediante adquisición sincronizada en el tiempo la cual se

logra para todas las cámaras dispuestas, esta sincronización utiliza Genlock6. Estas imágenes

6 Genlock: Técnica común en vídeo donde una referencia de vídeo específica sirve para sincronizar todas

las fuentes de vídeo que se dispongan.

19

captadas por la cámara son almacenadas directamente sin compresión en el sistema de

almacenamiento, para un procesamiento offline (fuera del proceso).

El hecho de obtener mucha más información de imagen permite tener algunos resultados

como vídeo estéreo y vídeo con libre punto de vista, el cual se da cuando una escena puede

verse desde cualquier ángulo por la persona y esta percibirá una visión volumétrica de la

respectiva vista elegida.

2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF)

Este método es muy útil en algunos casos, dado que la información de profundidad permitiría

generar el vídeo estereoscópico. Se propone un sistema en el cual se capte el plano 2D con un

lente normal y por otro lado se capte la información de profundidad de cada píxel7 de este

plano, eso se hace a través de las conocidas Z-Cam o también llamadas TOF (Time of Flight),

que permiten generar información para dar profundidad a cada píxel.

La Z-Cam genera pulsos de luz infrarroja con diodos láser que son reflejados por los objetos

que la cámara capta, al capturar esta reflexión el dispositivo calcula para cada píxel la distancia

exacta a la que se encuentra y genera un mapa de profundidad, el cual no es más que el vídeo

original en escala de grises, en donde el blanco representa los píxeles más cercanos y el negro

los píxeles con mayor componente de profundidad Z.

2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D)

Esta técnica aunque resulte la que más se acopla a los sistemas que están en vigencia, requiere

un procesamiento digital de la señal muy rigurosa y compleja.

Al no contar con la información real de profundidad, el emular o crear esta información

disminuye calidad y precisión. A pesar de todo ello, este es el método más usado en la

actualidad, dado que permite una compatibilidad total con los sistemas existentes, que lo

único que deben incorporar es la etapa de conversión a 3D.

Esta conversión se puede hacer a dos niveles, en la producción y en la recepción; el último

caso es lo que actualmente se tiene como 3DTV, la cual toma el cuadro en 2D, lo convierte a

3D y lo presenta en anáglifo polarizado o multiplexado en el tiempo, sin embargo cuando este

proceso se realiza en la producción se puede tener mayor calidad.

2.4 FORMATOS DE VÍDEO PARA 3D

Los formatos establecidos para el vídeo 3D han ido evolucionando desde los más simples hasta

aquellos con procesos exclusivos y complejos. Un formato se puede definir como la descripción

de la información que se adquiera y se procesa.

2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA)

Este formato de vídeo 3D está considerado como uno de los más antiguos y con mayores

restricciones por su baja calidad; es notorio que este formato tiene completa compatibilidad

7 Pixel: La menor unidad homogénea en parte de una imagen digital.

20

ya que este se reproduce en las pantallas convencionales y el procesamiento para generar 3D -

OCA es sencillo. El formato OCA (Anáglifo Cromático Optimizado) se le puede considerar como

un sistema admisible ya que ha sido optimizado para no perder calidad en el color ni sufrir

grandes alteraciones en el vídeo original, es de fácil manipulación y de bajo costo.

2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV)

En este formato se tratan y procesan las señales para 3D que puedan existir de manera

independiente, es así que si se tienen señales izquierda y derecha, cada una de ellas se

someterá a su estándar de compresión, a su codificación y será incluso transmitida

considerando que es una señal 2D, esto supone efectivamente el gasto del doble de recursos

para una información 3D, por lo tanto el sistema se limita a la existencia de dos imágenes.

Dentro de este formato podemos encontrar la técnica de Dual-Stream y de Simulcast. En

ambas técnicas las señales se adquieren independientemente, tienen su línea de

procesamiento independiente dentro del sistema y son transmitidas bien sincronizadamente

multiplexadas o de manera simultánea, ocupando el doble de recursos técnicos. En la

recepción se utilizan dos plataformas independientes para cada señal.

Este formato representa la solución natural a la producción y transmisión de señales estéreo

de vídeo, el formato es conveniente y aplicable para 2 vistas, izquierda y derecha. A cada una

de las vistas se le aplicarán codificadores que se usan actualmente. La desventaja principal de

este formato es que no se utiliza la relación y la dependencia entre las vistas, que para otros

formatos representa un elemento vital para reducir los recursos técnicos utilizados. Por otro

lado la ventaja existente es la fácil recuperación de una de las vistas para la compatibilidad 2D.

Dado que no se utilizan técnicas avanzadas para la codificación de este vídeo se conoce a este

como CSV, o vídeo estéreo convencional.

2.4.2.1 Concepto de Dual Stream

En este caso se generan dos flujos de las señales y posteriormente se someten a una etapa de

multiplexación donde se estructura una secuencia de transmisión para que así se genere el par

de cuadros de vídeo de manera ordenada, este formato es compatible con 2D debido a que si

solo ese desea un cuadro, es fácil descartar el otro y diferenciar cuál es el que se desea ver.

Inicialmente se contempla el Dual Streaming como el enviar los mismos flujos para dos fines

diferentes, pero si se trata de señales estereoscópicas, se aprovecha esta condición para enviar

en dos flujos ligeramente distintos y que estos sean procesados de manera independiente.

Este formato es bastante aplicable con técnicas de compresión y transmisión actuales, ya que

se maneja cada señal de manera independiente.

2.4.2.2 Transmisión Simultánea (Simulcast)

Aunque el procesar las señales independientemente es lo más simple, es recomendable

simplificar el sistema, el esquema de transmisión simultánea plantea la existencia de dos

señales individuales L y R que serán transmitidas en diferentes canales, es decir como dos

señales diferentes; sin duda los recursos necesarios son elevados pero la infraestructura para

vídeo monoscópico no se altera, solo se aumenta.

21

2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC)

El formato que se expone a continuación, ha tenido una evolución significativa, y comenzó por

la idea más sencilla, que fue enviar los cuadros izquierdo y derecho por separado de manera

alternada es decir como una transmisión “doble” de las escenas. Después siguió evolucionando

hasta obtener mayor eficiencia ubicando a las dos imágenes en el mismo campo. Dado que la

base de este formato es el cuadro HD, el estándar HDMI propuso la idea de implementarlo y

definió formatos bases y formatos alternativos, dejando muchas opciones para realizar la

producción de imágenes 3D. Además se propone una efectiva solución a la compatibilidad, el

fundamento básico dice que estos formatos se basan en la existencia de 2 vistas (izquierda y

derecha) que aprovechando el número de líneas del cuadro, se ubican dentro del mismo

plano. El hecho de que se ubiquen dos imágenes en el lugar que ocuparía una supone una

pérdida de calidad, sin embargo la evolución de las técnicas de compresión ha permitido que

se mantenga la buena calidad y se comprima con estándares avanzados. Entre los formatos

avanzados HDMI, la versión 1.4a establece que se puede sustituir la información de uno de los

cuadros por información de profundidad, haciendo que la adquisición de esta información

pueda ser aprovechada.

Este formato se presenta como una solución sencilla a la compatibilidad, ya que se aprovecha

las cualidades del canal de alta definición para ubicar en él, el máximo de información posible.

HDMI 1.4 establece las normas para la comunicación de imágenes HD a través de la interfaz

con el mismo nombre, y en su versión ampliada 1.4a establece los formatos para ubicar

imágenes L+R en el cuadro HD.

Para el estándar DVB-T se puede considerar que un canal HDTV ocupa la mitad del ancho de

banda de un múltiplex, y por lo tanto el canal de 3DTV ocuparía los mismos recursos. El hecho

de introducir dos imágenes en un cuadro HD implica la pérdida de resolución, lo cual es una

desventaja; por otro lado la gran ventaja de este formato es la elevada compatibilidad que se

obtiene. De igual forma se definen los tipos de barrido de línea para cada estructura 3D, ya sea

progresivo o entrelazado, manteniendo los principios de cada uno de estos métodos. Las

estructuras 3D en HDMI 1.4a deberían procurar transmitir dos señales de vídeo en completa

resolución 1080p, una para cada ojo, es así que se establecen nuevas dimensiones del cuadro

HD para 3D, todas ellas se basan en imágenes L+R, sin embargo también es válido para las

estructuras actuales de 1920x1080p, claro que reduciendo su resolución. Estas nuevas

dimensiones del cuadro HD establecen los siguientes conceptos:

Full HD 2D (FHD2D) / Half HD 3D (HHD3D): Es la de menor calidad para reproducción

3D, mantiene las dimensiones convencionales del FHD2D es decir 1920x1080p.

Full HD 3D (FHD3D): Es la que conserva la calidad de cada cuadro, por lo tanto las

dimensiones del cuadro, aumentan de acuerdo a la configuración.

A continuación se presentan todas las configuraciones posibles y para cada dimensión del

cuadro HD:

22

2.4.3.1 Formato de Empaquetamiento de Cuadro

Para este formato se ubica el cuadro izquierdo en la parte superior, posteriormente un espacio

en blanco y luego el cuadro derecho, se establece una nueva dimensión del cuadro HD (ver

figura 2.11), este espacio en blanco viene dado por el pulso de borrado que el cuadro tiene

originalmente y que es de 45 líneas. Es muy similar, por la disposición de los cuadros, al

formato Top and Bottom, pero se diferencia por la estructura detallada del cuadro.

Figura 2.11 Empaquetamiento de cuadro para formato progresivo

2.4.3.2 Configuración Side by Side Half (SbS)

En esta configuración se propone ubicar los cuadros izquierdo y derecho uno a continuación de

otro horizontalmente (ver figura 2.12). En este caso el SbS del tipo Half (HHD3D) los cuadros

originales HD reducen su resolución a la mitad en el eje horizontal, para al final obtener un

cuadro HD de dimensiones normales, en este caso el cuadro derecho se ubica a la derecha y el

izquierdo en la izquierda. La señalización para detectar este tipo de cuadros se realiza

mediante el estándar HDMI 1.4a.

Figura 2.12 Side by Side (SbS)

2.4.3.3 Configuración Top and Bottom (TaB)

En este caso las imágenes izquierda y derecha son submuestreadas a la mitad de su resolución

en el eje vertical y posteriormente ubicadas como muestra la figura 2.13.

23

Figura 2.13 Top and Bottom (TaB)

2.4.3.4 Configuración quincunx matrix (Tablero de ajedrez)

Este formato forma parte del grupo de formatos extendidos de HDMI 1.4a, es decir no son

muy utilizados, pero también proponen una solución para la disposición de la información

estereoscópica, en este caso se propone dividir a la imagen en todos sus píxeles e ir alternando

en forma de tablero de ajedrez entre el píxel del cuadro derecho y el píxel del cuadro izquierdo

(ver figura 2.14), en este caso cada imagen también se submuestrea a la mitad de su

resolución para poder ocupar un cuadro HD de dimensiones convencionales.

Figura 2.14 Configuración Tablero de ajedrez

En este formato se mantiene el número de líneas originales, es poco usado para la

estructuración de las imágenes antes de la transmisión. Por ello no se requiere un estudio

minucioso; existen dos posibilidades para estos cuadros, cualquiera de las vistas, izquierda o

derecha, puede ocupar el primer píxel del cuadro HD.

2.4.3.5 Configuración campos alternados

Este es uno más de los formatos extendidos de 3d_Structure para HDMI, es una configuración

que se basa en el formato entrelazado, dado que intercala en la disposición del cuadro HD (ver

Figura 2.15) los campos pares e impares para información estereoscópica izquierda y derecha.

Para este caso se mantiene el número de píxeles por línea, el número de líneas efectivas se

duplica al igual que la frecuencia.

24

Figura 2.15 Configuración de Campos alternados

2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D)

La herramienta que representa la información de la profundidad es el mapa de profundidad. La

normativa ISO/IEC 23002-3 (MPEG-C Parte 3) define a este como un formato válido para los

sistemas de 3D y establece los modos de producción y compresión para estas imágenes. Para

obtener un mapa de profundidad existen varias técnicas; a continuación se describen los

procesos en el lado transmisor de este tipo de señales.

Existen 3 formas de obtener las señales necesarias para este formato, de todas estas se

desprende el mapa de profundidad que luego será codificado independientemente y se

estructura junto con el vídeo en el conjunto de bits a ser transmitido.

Figura 2.16 Imagen con su mapa de profundidad asociado

2.4.4.1 El mapa de profundidad

El mapa de profundidad es una representación visual de las escenas de vídeo, la cual contiene

valores discretos que representan la profundidad de cada píxel del cuadro original. Las

imágenes son representadas por cuadros en escalas de grises donde cada gris representa una

distancia Z, y se ha establecido que para los objetos cercanos se asigne el color blanco y para el

25

más alejado el color negro. Para el vídeo, la profundidad se representa por una señal de vídeo

monocromática de 8 bits, con estos 255 valores se obtienen buena calidad para la posterior

interpretación de la profundidad de una escena. El mapa de profundidad consta simplemente

de una matriz que contienen N valores asociados a los píxeles individuales del flujo de vídeo

regular. Esta señal puede ser procesada con técnicas específicas para señales de luminancia8, o

más modernamente con las técnicas de codificación que el vídeo de la televisión digital utiliza.

Esta al ser una señal auxiliar de vídeo requiere ser señalizada, para lo cual se introduce un byte

que determina que la señal es de este tipo.

2.4.4.2 Generación del mapa de profundidad a partir de 2D

La generación de este tipo de información, forma parte del formato de conversión 2D a 3D, es

decir aquí se genera un mapa de profundidad utilizando algún algoritmo que estime el valor de

la componente Z de cada píxel. Algunas técnicas crean un mapa de profundidad a través de la

estimación de la segunda vista, y posteriormente emplean la técnica como si se hubiera

obtenido la imagen desde dos cámaras. Existen una gran variedad de propuestas para obtener

este mapa de profundidad, y todos estiman la componente Z de diferente manera, incluso

existen técnicas para realizar transformación en tiempo real.

Para la generación de este mapa, algunas técnicas parten del análisis del vector del

movimiento el cual se obtiene fácilmente a través del H.264 (MPEG-4), y con este vector

construyen el mapa de profundidad.

2.4.4.3 Generación del mapa de profundidad a través de Cámara infrarroja

Las Zcam funcionan a partir de la luz infrarroja que detecta la posición de los objetos, por lo

que también se denominan cámaras infrarrojas. Estas cámaras obtienen dos señales de vídeo,

el plano 2D y el mapa de profundidad, este tipo de cámaras generan pulsos infrarrojos que se

reflejan por los objetos y dependiendo de dicha reflexión se obtiene el valor de profundidad de

cada objeto de la imagen. Estas cámaras constan de un CCD ultra rápido y una fuente de luz

infrarroja. Los sistemas de creación de mapa de profundidad por rayos infrarrojos procuran

generar imágenes de alta calidad y no solo es la adquisición sino el proceso para generar el

mapa en sí. Después de la adquisición, es clave en el proceso corregir y poner a punto factores

como brillo, textura y segmentación de la imagen. En primera instancia la cámara emite y

recibe pulsos de luz infrarroja, los cuales viajan junto con la luz que representa el plano, es por

ello que cada información debe ir a su correspondiente módulo de procesamiento.

2.4.4.4 Generación del mapa de profundidad a través de Cámara Estéreo

Si bien es cierto la técnica más adecuada para generar un mapa de profundidad es a través de

un transductor diseñado para ello; se han desarrollado diversos algoritmos que parten de que

la mayoría de sistemas de 3D trabajan con cámaras estéreo, por la facilidad y porque las

cámaras con dos lentes son más populares que las cámaras infrarrojas para profundidad. Por

lo tanto la atención ya no está en los lentes ni en el proceso de adquisición, sino mas bien en la

8 La luminancia “Y” es la componente del vídeo que tiene la información de luminosidad (luz o brillo) de

la imagen.

26

línea base del procesamiento de las señales izquierda y derecha para generar la información

V+D.

En esta técnica se identifican dos etapas para la generación del mapa, la primera consiste

básicamente en preparar a la imagen para que se pueda extraer el mapa a partir de la

disparidad. Los 5 procesos que la primera etapa comprende, procuran corregir los errores de

los píxeles de la imagen para que posteriormente en la segunda etapa, la detección de la

disparidad sea correcta.

2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC)

Este formato es robusto debido a que posee su propio estándar de compresión y codificación,

el Multi-view Video Coding es una extensión que se hizo para H.264 (MPEG-4), y en este ya se

contempla la posibilidad de que desde la adquisición se obtengan no sólo dos, sino múltiples

vistas de una escena, y que estas sean comprimidas y transmitidas como un perfil multivista

Con la aparición de esta extensión a la norma, no solo se fortalece el concepto del 3D basado

en la existencia de dos imágenes como en el sistema visual, sino también surge el concepto de

FVV (Free View-point Video), en el cual se adquieren n vistas, y se presentan al espectador n

vistas de las escenas. Para el caso particular en el que n=2 vistas es el que se usa en la

actualidad en los sistemas Blu-Ray 3D.

2.4.6 FORMATO MVD (MVC+D)

La búsqueda de cada vez más calidad ha llevado a extender formatos ya existentes, es así que

al MVC, a pesar de que en su concepción requiere n vistas lo que lo haría de gran calidad, se le

añade una información importante que ya ha sido estudiada, la profundidad. Este formato es

considerado dentro de la categoría de los formatos avanzados para producción de vídeo 3D y

se establece la existencia de n vistas, cada una de ellas con su respectivo mapa de

profundidad. Al igual que para MVC, la particularización de este formato en n=2 significa un

estéreo de alta calidad.

Figura 2.17 Formato MVC + Profundidad

La gran ventaja de este formato es que al existir múltiples vistas y reforzadas con la

información de profundidad, la presentación del vídeo al espectador tiene más calidad; incluso

27

el espectador podrá observar cada una de las n vistas de manera independiente en 3D. Debido

a que cada una tiene su mapa de profundidad. Además el procesamiento digital de la señal se

simplifica al evitar el cálculo de algunos parámetros de profundidad.

2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV)

Este al igual que MVD, está dentro de los llamados formatos avanzados para vídeo 3D. Para

este formato se generan más informaciones de profundidad para la imagen que se adquiera; al

igual que el anterior es un formato multivista por lo que puede existir n informaciones visuales

por señal de vídeo. Como es de imaginarse la cantidad de datos que se obtienen es bastante

grande por lo cual la compresión que se realice es fundamental y determinante.

El método nace con LDI (Layered Depth Image) y se expande hasta aplicarlo no sólo a

imágenes sino en vídeo también. La información que se asocia por cada vista de la imagen es:

la imagen de vídeo monoscópica, el mapa de profundidad asociado, una capa para representar

el fondo del vídeo (se obtiene de la oclusión del vídeo original), y una capa de fondo para la

profundidad.

Figura 2.18 Formato LDV

De todas las técnicas de reconstrucción de imágenes 3D, LDV es una de las más eficientes en el

momento de sintetizar las vistas en escenas 3D complejas.

2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES)

En este formato se establece que se pueden generar 2 o más vistas (n≥2) acompañadas de

información de profundidad y capas de oclusión; la información es similar a LDV sin embargo la

diferencia es que LDV transmite una vista completa y crea el resto, en este caso cada una de

las cámaras capta el vídeo de color con su respectiva extensión de la información.

En general todos los formatos, en los cuales se utilice a la profundidad como información para

crear el 3D dan flexibilidad para que se pueda manejar de mejor forma toda la información,

por lo tanto se vuelve un poco más sencillo el manejar conceptos como movilidad, efectos de

profundidad, etc.

28

Este formato extiende al estéreo convencional ya que genera una serie de datos extras a las

originales izquierda y derecha de un sistema estereoscópico tradicional, al extender el estéreo

tiene como ventaja, dejar la posibilidad de que los formatos y esquemas anteriores puedan

adaptarse. Dentro de las informaciones adicionales se manejan señales de profundidad

adicionales y capas de oclusión, lo cual brinda una funcionalidad mayor por ejemplo se crean

facilidades para la post producción, además se puede sintetizar varias vistas así como adaptar

la línea base con el fin de presentar en una pantalla de TV o ser proyectado en el cine. DES

(Depth Enhanced Video) establece que existan 2 flujos de vídeo, con un mapa de profundidad

y dos capas de oclusión cada uno. Se dice que este es un formato genérico porque el sistema

genérico de adquisición brinda todas las señales necesarias de manera precisa y sencilla.

2.4.9 RESUMEN DE FORMATOS

MVD, LDV y DES fueron presentados como formatos avanzados para esquemas multivista y se

mencionó como ventaja sobresaliente la viabilidad para que se usen en recepción pantallas

autoestereoscópicas al usuario.

En definitiva no importa cuál formato se utilice para transmitir la información 3D, el desarrollo

de la tecnología de displays permite convertir esa información a dos o más cuadros que se

pueden visualizar por cualquier método que el fabricante elija. Lo más importante es

encontrar un formato óptimo.

2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO

ESTEREOSCÓPICO

Existen diversos organismos de estandarización que están trabajando en un modelo estándar

de codificación. Los tres más importantes que han colaborado en el desarrollo de estándares

sobre tecnologías 3D son la “Internacional Organization for Standardization (ISO)”, la

“International Electrotechnical Commission (IEC)” y la “International Telecommunication Union

(ITU)”. ITU conjuntamente con MPEG (grupo de expertos en vídeo del ISO/IEC), trabajan en la

estandarización del H.264 (MPEG-4 parte 10 de ISO/IEC), este estándar conjunto trata aspectos

de codificación multi-vista: MVC (“Multi-View Coding”). Mediante este tipo de codificación se

pretende conseguir la compresión de diferentes vistas para poder realizar transmisiones de

Vídeo 3D con tasas de compresión adecuadas.

MVC al estar amparado por los tres grandes cuerpos de estandarización (ITU, ISO e IEC) se

puede estimar que será el formato más extendido en un futuro y evitará multiplicidad de

formatos de codificación multi-vista.

Por su parte MPEG también trabaja en otros aspectos, por ejemplo, la parte 16 del MPEG-4,

denominada AFX (“Animation Framework extensión”), define una colección de herramientas

que permiten producir contenidos sintéticos animados en tres dimensiones.

También se está trabajando en el MPEG-C, que define los algoritmos avanzados de codificación

de vídeos. Entre las partes del estándar, la parte 3 define la manera de añadir uno o más flujos

de datos auxiliares (como por ejemplo mapas de profundidad) que están asociados con los

29

píxeles del flujo de vídeo principal. De este modo, se puede utilizar este estándar para codificar

de forma universal la información estereoscópica para aplicaciones de 3D.

A continuación se explicarán algunas de las formas más habituales en las que se codifican este

tipo de contenidos.

2.5.1 CODIFICACIÓN ESTEREOSCÓPICA

La recomendación ITU-T H.264, o más conocida como MPEG-4, tiene grandes ventajas y buen

desempeño; si bien es cierto H.264 tiene varias extensiones aplicables a 3D, el MPEG-4

convencional también se puede aplicar a los formatos de vídeo 3D, porque el vídeo que se

transmite se le trata como vídeo 2D de características especiales.

MPEG-4 tiene una gran versatilidad y calidad de codificación, si bien es cierto MPEG-2 llegó a

desarrollar una extensión para perfil multivisión, en el cual se contempla el caso de múltiples

vistas y de cómo explotar la relación entre ellas para codificar y comprimir, no llegó a ser el

estándar de vanguardia y llegó a su máximo desarrollo en dicha extensión.

Las ventajas de MPEG-4 hacen que este sirva de base para desarrollar modelos más eficientes

ante la gran cantidad de información que los formatos de 3DTV requieren.

A continuación se realiza una descripción de MPEG-4 y de cómo este se adapta a los diferentes

formatos, dependiendo la clase y cantidad de información necesarias.

2.5.1.1 Características generales del estándar H.264, MPEG-4 Parte 10

El procedimiento seguido se basa principalmente en aplicar JPEG sobre las imágenes de

referencia y a partir de esta, y mediante técnicas de compensación de movimiento (aplicadas

sobre macrobloques 8x8, 16x16 etc.), aprovechar la redundancia temporal entre imágenes

consecutivas pertenecientes a la misma escena. Únicamente se codifican las diferencias. Estas

diferencias se describen mediante los vectores de movimiento, que especifican, si se ha

movido un macrobloque, cual es la nueva posición dentro de la imagen del macrobloque y de

esta manera poder hacer una predicción de la imagen. Sobre esta imagen diferencia también

se aplica JPEG.

El estándar define cinco tipos de imágenes en la codificación:

Imágenes Intra (I): Sólo contienen macrobloques intra. Son imágenes codificadas

teniendo en cuenta únicamente la propia imagen (son imágenes de referencia). Las

imágenes I suelen ser codificadas de manera similar a la codificación JPEG. Las

imágenes I son las que más ocupan y se utilizan como puntos de acceso aleatorio ya

que sólo dependen de sí mismas en la descodificación.

Imágenes Predicted (P): Contienen macrobloques P y/o macrobloques I. Este tipo

corresponde a las imágenes predichas que hacen referencia a una imagen de tipo I o P

anteriores en tiempo. Ocupan entre un 30% y un 50% menos que una imagen I.

30

Imágenes Bi-Predicted (B): Contienen macrobloques B y/o macrobloques I. Son

imágenes predichas con referencia a la imagen I anterior y a la P posterior. Es

necesario que el descodificador tenga las dos referencias, anterior y posterior, para

poder descodificarlas correctamente. Suelen ser aproximadamente un 50% más

pequeñas que las imágenes P.

Imágenes Switching Predicted (SP): Contienen macrobloques P y/o I. Facilita el cambio

entre secuencias codificadas. Sólo se utilizan en versiones extendidas del estándar.

Imágenes Switching Intra (SI): Son iguales que las SP pero contienen macrobloques SI,

que son un tipo especial de macrobloques intra. Sólo se utilizan en versiones

extendidas del estándar. Cuando una imagen es codificada esta puede ser almacenada

en un contenedor de bytes o directamente transmitida. La transmisión seguirá un

patrón fijo que consistirá en el envío de una imagen I seguida de imágenes P y/o

imágenes B.

En la figura 2.19 podemos ver un posible patrón de transmisión.

Figura 2.19 Estructura típica de transmisión de H.264

Es importante tener en cuenta que el descodificador necesitará una imagen de referencia

(imagen I) para empezar a descodificar, debido a que las demás imágenes (hasta la siguiente

imagen I) hacen referencia a ella.

2.5.1.2 H.264 AVC en OCA (Optimized Chromatic Anagliph)

En este caso la naturaleza de la señal de vídeo es similar a las señales convencionales de vídeo

2D, por lo tanto el estándar es fácilmente aplicable sin ninguna restricción, tal como lo

muestra la figura 2.20.

Figura 2.20 Codificación para OCA

Cabe mencionar que se debe procurar mantener la calidad, por lo que trabajar en HD sería una

idea conveniente en este formato. Para OCA, no existen señales auxiliares ni información extra

para el vídeo 3D.

31

2.5.1.3 H.264 AVC para CSV (Conventional Video Stereo)

Esta es la aplicación natural a la parte estéreo, considerando que aquí las señales de vídeo son

monoscópicas e independientes. Dentro de CSV, podemos considerar 2 casos como los

formatos antes estudiados, el caso del Dual-Streaming y del Simulcast; con esto H.264 trabaja

normalmente sobre cada uno bajo la estructura expuesta en las figuras 2.21 y 2.22

respectivamente:

Figura 2.21 Aplicación de H.264 en Dual-Streaming

Figura 2.22 Aplicación de H.264 en Simulcast

En los dos casos la codificación es totalmente independiente, por lo que el codificador trabaja

con señales completamente convencionales. Las desventajas que se presentan son:

Dual-Streaming: se debe tener en consideración que la estructura de transmisión

soporte el video-out proveniente de la codificación de dos señales.

Simulcast: la estructura de transmisión si soporta la salida del codificador, se debe

considerar que el uso del canal de transmisión en este esquema de transmisión se

duplica.

Al ser informaciones completamente independientes estos esquemas se pueden ajustar a los

formatos V+D, utilizando en lugar del vídeo derecho a la información de profundidad.

32

2.5.1.4 H.264 AVC para CFC+ (Conventional HD Frame Compatible +)

CFC+ es el formato en el cual la información tiene una naturaleza propia para 3DTV, por lo cual

la cantidad de información ya crece; como se estudió en el formato, aquí se manejan al menos

las dimensiones del cuadro HD y para casos de mayor calidad, dimensiones superiores. Dado

que MPEG-4 si establece algunos niveles y perfiles en los cuales encajen estos vídeos, la

codificación si sería aplicable.

Dado que en este formato se manejan los cuadros L+R bajo algún empaquetamiento, es

necesario utilizar la extensión de H.264 que define un SEI (Supplemental enhancement

information), es decir un señalizador de información adicional. En este SEI se indica bajo que

formato se empaqueta la información, y que tipo de información existe. Para mejorar la

calidad en la codificación a esta información de vídeo 3D se le aplica el SVC (Scalable Video

Coding), el cual no es más que un anexo del H.264 para señales de mayor calidad y por

supuesto compatible con los parámetros de codificación antes estudiados.

En la figura 2.23 se ilustra como actuaría el codificador para casos de empaquetamiento en un

cuadro HD. Cabe señalar que el tipo de empaquetamiento es totalmente independiente, ya

que mientras se ocupe las dimensiones normadas para los cuadros HD, el vídeo estereoscópico

se codifica como señales normales, aún cuando estas lleven información estereoscópica.

Figura 2.23 Aplicación de H.264 en CFC+

Debido al uso del cuadro HD, es necesario utilizar la señalización correspondiente, dicha

señalización se encuentra en la norma HDMI 1.4a en la sección correspondiente a 3D.

2.5.2 CODIFICACIÓN PARA EL FORMATO V+D

La idea inicial de establecer el mapa de profundidad surge del proyecto ATTEST9, y se basa en

que una señal monocromática ahorraría muchos recursos de transmisión y facilidad en

codificación. Existen algunas técnicas que resulta una solución viable en este formato,

9 Advanced Three-dimensional Television System Technologies (ATTEST), proyecto para la investigación

de un sistema de difusión eficiente de televisión 3D.

33

procurando siempre el uso eficiente de los recursos y evitar en lo posible que se demanden

tasas de bits excesivamente altas.

El desarrollo de estas técnicas ha permitido que este formato sea eficiente e incluso sea

aplicable a la televisión móvil 3D. Es posible también aplicar la extensión MVC de H.264

tomando en cuenta que una de las vistas puede ser el mapa de profundidad.

2.5.2.1 MPEG-C parte 3

Este estándar conocido también como el ISO/IEC 23002-3, establece el procesamiento

separado e independiente de las señales de vídeo y de la señal de profundidad, tomando en

cuenta que codificar una señal de profundidad monocromática requiere menos tasa de bits y

que en recepción se debe contar con dos decodificadores para separar la reconstrucción de

ambas señales.

Cabe señalar que el estándar no establece técnicas de compresión o transmisión, sólo

establece la metodología que puede ser aplicada para nuestro estudio con técnicas

H.264/AVC.

Se considera que el codificador para la profundidad tendrá como salida una tasa de bits de

entre el 5 y 10% de la tasa del vídeo 2D, siendo así la tasa total de bits un 110% en V+D usando

codificación para cada señal, un valor que puede resultar cuestionable para servicios donde el

uso del canal sea realmente limitado.

La cadena de transmisión para este formato se representa en la figura 2.24.

Figura 2.24 Cadena de Transmisión para MPEG-C parte 3

El esquema de la figura 2.24 muestra la codificación independiente de las 2 señales, de lo cual

resultarán dos flujos de bits; para la transmisión de dichos flujos, estos deben ser

multiplexados cuadro a cuadro generando un único transport-stream, el cual puede

34

eventualmente contener parámetros adicionales del mapa de profundidad como información

auxiliar.

2.5.2.2 H.264 - Imágenes auxiliares

H.264 sostiene la posibilidad de codificar señales auxiliares de vídeo, teniendo las mismas

características de macro-bloques, de semántica y sintaxis en la codificación.

Se pueden adicionar señales de vídeo redundantes o señales no especificadas en la norma

H.264, de esto se vale el 3D para poder transmitir sobre MPEG-4 la señal auxiliar del mapa de

profundidad (ver figura 2.25). Esta señal debe estar debidamente señalizada según lo

establece el estándar, a este tipo de señales el estándar, las denominadas como “Auxiliary

Coded Picture”, y se definen como imágenes que suplementan a la señal primaria,

normalmente esta señal se usa como redundancia y el estándar restringe a que esta sea

monocromática.

Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares

Esta solución permite aprovechar al máximo las ventajas de H.264 y además se brinda un gran

nivel de compatibilidad con los sistemas anteriores, además de un uso eficiente en la

transmisión.

2.5.3 CODIFICACIÓN PARA EL FORMATO MVC

Esta enmienda a H.264/AVC crea la posibilidad de explotar al máximo la dependencia entre las

vistas de una señal de vídeo estereoscópico, haciendo uso de una predicción tomando en

cuenta los n cuadros presentes. Para este formato se pueden especificar dos casos, el primero

en el cual se generaliza la predicción para n vistas, y el segundo que se ha mencionado como

estéreo de alto desempeño si n=2.

Según H.264 se añade un nuevo SEI para indicar el uso de la predicción y codificación

multivista. Un codificador MVC consiste básicamente en N codificadores simples en paralelo,

cada uno de ellos utiliza estructuras de predicción temporal, donde una secuencia de imágenes

35

sucesivas es codificada como Intra (I), Predictiva (P) o Bi-predictiva (B). Para mejorar aún más

la eficiencia de la codificación, se tiende a utilizar Imágenes B jerárquicas, donde la jerarquía

de una imagen B es creada por la sucesión de imágenes B que resultan referencias para otras

imágenes B.

En MVC los conceptos de predicción para una imagen se extienden a tal punto que una imagen

que está en el proceso de codificación, puede tener tanto referencias temporales como

referencias intervista para la predicción. En la figura 2.26 se explica esta predicción MVC

considerando n=5 y un GOP de tamaño 8.

Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP)10

Para la cámara 1, el procedimiento de predicción es idéntico al caso de una sola vista,

manteniendo así una compatibilidad con sistemas anteriores, pero para el resto de vistas se

hace uso de la referencia intervista (flechas rojas) para la predicción.

Con el fin de mejorar la eficiencia existen varias estructuras de predicción desarrolladas, dos

de las más importantes son IPP (inter-view prediction at key picture) y HBP (Hierarchical B

Pictures), IPP funciona bajo lo expuesto en la figura 2.26.

HBP explota aún más la relación inter-vista, no solo utilizando las vistas n+1 para la predicción

sino también las n+2. La figura 2.27 muestra el proceso de predicción de las diferentes

imágenes para un GOP = 8 y n=8 vistas.

10

Fuente: “3D Video Formats and Coding Methods”; Karsten Müller, Philipp Merkle, Gerhard Tech, and Thomas Wiegand; HHI; 2006 Berlín Alemania.

36

Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP)

11

En la figura anterior, la S indica la cámara, mientras que la T indica el tiempo. Como en

estándares anteriores, las tres maneras de codificar una imagen son: intracodificado (I cuadro),

predecible posterior (P cuadro) y predecible bi-direccional (B cuadro). La diferencia principal es

que en este nuevo estándar hay dos dimensiones: el tiempo y la vista, tal y como se puede ver

en la figura.

En la imagen se puede observar que sólo en la cámara S0 se codifica una imagen como intra.

Esto se realiza cada 8 tramas. En las cámaras S2, S4, S6 y S7 se codifican las imágenes de

predicción a partir de la vista S0, también cada 8 tramas. Finalmente, el resto de imágenes se

predicen bidireccionalmente a partir de las imágenes próximas en tiempo y espacio (entre

vistas).

En realidad, el esquema de predicción puede llegar a ser mucho más complejo que el que

muestra la figura y por eso se han propuesto nuevas herramientas de predicción que se

puedan combinar con cualquier estructura de predicción.

2.5.4 CODIFICACIÓN PARA EL FORMATO MVD

Para formatos avanzados como este, la codificación se vuelve compleja debido a la cantidad de

información que se genera, MVD resulta una combinación de V+D y MVC. La codificación es en

principio basada en la técnica MVC original, no obstante en términos prácticos se puede hablar

de una codificación MVD.

La codificación en MVD funciona, dentro de un esquema global, de acuerdo a lo expuesto en la

figura 2.28.

11

Karsten Müller; “Representation and Coding Formats for 3D Video”; Conference Session 3DTV Content; IEEE Broadcast Technology Society; 2009 Alemania.

37

Figura 2.28 Cadena de transmisión en MVD12

Se observa que el codificador genera una única señal para la transmisión, la cual contiene la

información de las n vistas y su respectiva profundidad. El modo de predicción en este caso

varía ya que toma, adicionalmente, la información de profundidad. Este proceso de predicción

se detalla en la Figura 2.29.

Figura 2.29 Modo de predicción de imágenes para MVD

La codificación y predicción son basadas en MVC, tomando en cuenta que se van a generar

más señales del vídeo, el diagrama de bloques del codificador es más complejo.

12

“Compression for 3DTV - with special focus on MPEG standards”; Dr.-Ing. Aljoscha Smolid Fraunhofer HHI Image Processing Department; Alemania 2007.

38

2.5.5 CODIFICACIÓN PARA EL FORMATO LDV

Este formato es sin duda más preciso y de mayor calidad que los anteriores, y por ello su

codificación también resulta más compleja. Se puede aplicar el mismo MVC a estas señales,

haciendo un proceso similar al de MVD, donde las informaciones adicionales entran como

vistas extras al codificador MVC. Bajo esta premisa se puede aplicar el H.264 sin problema.

Es notorio que se puede recurrir en una complejidad mayor para los codificadores y en un flujo

de bits mucho mayor al que se pueda manejar para broadcasting. Por ello la compañía 3DTV

Solutions™ en pro de la calidad ha propuesto todo un esquema para este formato basándose

en su propio esquema de codificación LDV, donde se explota al máximo la relación entre todas

las capas y las vistas permitiendo posteriormente una efectiva reconstrucción a tasas de bits

más accesibles. Sin embargo una desventaja de esta propuesta es que requiere una gran

exactitud en los mapas de profundidad, de no ser así se generarán resultados erróneos.

2.5.6 CODIFICACIÓN PARA EL FORMATO DES

No cabe duda que para este formato se debe manejar el mismo criterio que para LDV y MVD; a

tal cantidad de información si bien es cierto MVC no se puede aplicar, ya que resultaría de gran

complejidad su implementación.

2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265

Se espera que el más reciente estándar de compresión, el códec de vídeo de alta eficiencia

(HEVC, por sus siglas en inglés), también conocido como H.265, se convierta en el estándar de

vídeo preferido en la próxima década.

Igual que todas las generaciones anteriores de tecnología de compresión de vídeo, el estándar

HEVC promete reducir el costo global de difusión y almacenamiento de activos de vídeo y al

mismo tiempo mantener o incrementar la calidad de la experiencia del espectador.

Sin sacrificar la calidad del vídeo, el HEVC puede reducir el tamaño de un archivo de vídeo o

flujo de bits hasta en un 50%, en comparación con el estándar AVC/H.264 o hasta en 75%, en

comparación con los estándares MPEG-2. El resultado es una reducción en los costos de

almacenamiento y transmisión de vídeo. De igual manera, el nuevo códec prepara el camino

para difundir contenido de más alta definición a fin de ofrecer al consumidor una experiencia

de más alta calidad.

El HEVC, diseñado para el avance de la industria de compresión de vídeo, tiene el propósito de:

Proporcionar un promedio de reducción de la tasa de bits de 50% para obtener una

calidad de vídeo fija, en comparación con el H.264.

Proporcionar mayor calidad con la misma tasa de bits.

Definir una sintaxis estándar para simplificar la implementación y maximizar la

interoperabilidad.

Seguir propiciando el trabajo en red, es decir, en flujos de transporte MPEG.

39

Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización

Mientras que el H.264 tiene siete perfiles (conjuntos definidos de herramientas de codificación

empleados para crear un flujo de bits que cumpla con los estándares), el HEVC define

actualmente tres: Main, Main 10 y Main Still Picture. Se espera que futuras extensiones del

códec HEVC incluyan un aumento de la profundidad de bits, muestreos de color 4:2:2 y 4:4:4,

MVC (codificación de vídeo multivista) y SVC (codificación de vídeo escalable).

El perfil Main del HEVC permite una profundidad de bits de 8 bits por color, mientras que Main

10 permite 8 bits o 10 bits por color. Debido a la opción adicional de profundidad de bits, el

perfil Main 10 tiene la capacidad de ofrecer una mejor calidad de vídeo que el Main.

Finalmente, el perfil Main Still Picture permite codificar una sola imagen fija con las mismas

exigencias del perfil Main.

La especificación HEVC también define 13 niveles, que son conjuntos de restricciones que

indican el rendimiento requerido del decodificador para reproducir un flujo de bits del perfil

especificado. Los niveles están, a su vez, divididos en dos niveles: el Main, que incluye los

niveles 1 - 3.1, y el High, que incluye los niveles 4 - 6.2 y está diseñado para aplicaciones muy

exigentes. Los niveles del HEVC comparten ciertas similitudes con los del H.264, con la

diferencia fundamental de la adición de los niveles 6, 6.1 y 6.2, que definen los requerimientos

para vídeo con resolución 8K.

El principal objetivo del nuevo estándar HEVC es proporcionar las herramientas necesarias

para transmitir la cantidad más pequeña de información requerida para un determinado nivel

de calidad de vídeo.

40

Figura 2.31 Modos/macrobloque

Aunque hay varias diferencias entre los estándares H.264 y HEVC para codificar cada

macrobloque, vale la pena mencionar dos de ellas: el aumento de los modos de intra

predicción y una partición refinada para la inter predicción.

Intra predicción y codificación: En el estándar H.264 existen nueve modos de

predicción en un bloque de 4 x 4 para la intra predicción dentro de un determinado

cuadro y nueve modos de predicción en el nivel de 8 x 8. Es menor en el nivel del

bloque de 16 x 16, donde se reduce a solo cuatro modos de predicción. La intra

predicción busca calcular el estado de los bloques adyacentes en una dirección que

minimiza el error del cálculo.

En el HEVC existe una técnica similar, pero el número de modos posibles es 35 (acorde

con la complejidad adicional del códec). Esto implica la participación de un número

enormemente alto de puntos de decisión en el análisis, ya que hay casi dos veces el

número de tamaños de intra predicción espacial en el HEVC, en comparación con el

H.264, y casi cuatro veces el número de direcciones de intrapredicción espacial.

Inter predicción y codificación: El H.264 usa compensación de movimiento a partir de

bloques, el tamaño y la forma de los bloques es ajustable para buscar redundancia

temporal en los cuadros de un vídeo. La compensación de movimiento suele ser

considerada la porción más exigente del proceso de codificación. La habilidad para

implementarla de forma inteligente dentro del espacio de decisión tiene una gran

incidencia en la eficiencia del códec. El HEVC lleva esta capacidad a otro nivel.

El HEVC reemplaza la estructura de macrobloque del H.264 por un conjunto de

bloques en estructura de árbol más eficientes, pero también complejos. Cada bloque

puede ser más grande (hasta 64 x 64) que el macrobloque estándar de 16 x 16, y

puede ser dividido de forma eficiente usando un quadtree. Este sistema permite al

codificador una gran flexibilidad para usar grandes particiones cuando predicen bien y

particiones pequeñas cuando se necesitan predicciones más detalladas.

Esto permite una mayor eficiencia en la codificación, ya que se pueden codificar a bajo costo

grandes unidades de predicción (incluido el tamaño del bloque en estructura de árbol) cuando

se adaptan al contenido. Del mismo modo, cuando algunas partes del bloque necesitan

predicciones más detalladas, estas también pueden describirse de forma eficiente.

41

Con respecto al impacto del HEVC en el mundo de la compresión de vídeo, hay varios casos en

los que la mejor calidad en la proporción de la tasa de bits del HEVC tendrá incidencia en las

aplicaciones de la industria. Teniendo en cuenta que la difusión de vídeo de alta calidad

demanda enorme capacidad de red, los siguientes son algunos de los beneficios proyectados:

Utilización de más canales en redes satelitales, de cable y de televisión IPTV.

Menor costo de difusión de vídeo gestionado y no gestionado.

Mayor alcance para los operadores móviles y de televisión IPTV con restricciones de

ancho de banda.

Mejor calidad de la experiencia de los servicios de transmisión libre (OTT) de modo

que estén al mismo nivel de la difusión tradicional.

En el mercado de la transmisión móvil, la reducción de la tasa de bits del HEVC de 30 – 50%,

para alcanzar una calidad comparable al H.264, se materializa en ahorros en los costos de la

difusión en las redes. Los operadores móviles no tendrán que distribuir tantos datos para un

determinado nivel de calidad, reduciendo los costos y haciendo la reproducción más confiable,

a condición de que el hardware del dispositivo pueda decodificar sin problemas el HEVC.

El HEVC también se suma a la tendencia hacia vídeo de 4K y 8K Ultra HD de alta resolución en

el mercado dominante. Gracias a que la resolución 4K presenta cuatro veces el número de

píxeles que la 1080p, la eficiencia que brinda el HEVC hace mucho más viable la difusión de 4K.

Se espera que antes de finalizar la década, el HEVC sea ampliamente adoptado en distintas

aplicaciones, como la transferencia y difusión de vídeo, vídeo satelital, vídeo por cable, IPTV,

vídeo vigilancia, vídeo corporativo y videojuegos.