10
2 Conceptos básicos
En el siguiente capítulo se realiza un estudio del arte de las diferentes tecnologías involucradas
en un sistema de vídeo 3D. Primeramente para entender el concepto de visión 3D se introduce
al lector en el concepto de visión estereoscópica y se explica brevemente la historia de la
visión estereoscópica hasta la actualidad.
Una vez definidos los conceptos básicos, se mostrarán las diferentes tecnologías que existen
para la representación de contenidos estereoscópicos tanto sistemas que actualmente están
en fase de investigación como sistemas comerciales. Seguidamente se explicarán las diferentes
formas que existen en la actualidad de generar contenidos 3D explicando la problemática y
beneficios de cada uno.
Entre la generación y la representación, típicamente, se utilizan codificadores que
proporcionan la información del transmisor al receptor con el número mínimo de bits y sin que
el espectador pueda observar que se ha realizado dicho proceso. En este caso se explicarán las
diferentes soluciones existentes para la codificación de contenidos 3D.
2.1 VISIÓN 3D
Antes de profundizar en la explicación del desarrollo de las técnicas utilizadas para analizar los
diferentes formatos de codificación 3D, se hace necesario explicar en qué principios físicos se
basa la visión 3D.
2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D
El sistema visual humano es un sistema binocular, disponemos de dos ojos en los que, debido a
su separación horizontal, se reciben dos imágenes, de una misma escena, con puntos de vista
diferentes. Mediante estas dos “vistas” el cerebro crea una sensación espacial. A este tipo de
visión se le denomina visión estereoscópica y al proceso en si mismo estereopsis.
Figura 2.1 Creación de sensación de profundidad
En la estereopsis intervienen diversos mecanismos. Cuando observamos objetos muy lejanos,
los ejes ópticos de nuestros ojos son paralelos. Cuando observamos un objeto cercano,
nuestros ojos giran para que los ejes ópticos estén alineados sobre él, es decir, convergen. A su
11
vez se produce la acomodación o enfoque para ver nítidamente el objeto. Este proceso
conjunto se denomina fusión. No todo el mundo tiene la misma capacidad de fusionar un par
de imágenes en una sola tridimensional. Alrededor de un 5% de la población tiene problemas
de fusión2. La agudeza estereoscópica es la capacidad de discernir, mediante la estereopsis,
detalles situados en planos diferentes y a una distancia mínima. Hay una distancia límite a
partir de la cual no somos capaces de apreciar la separación de planos, y que varía de unas
personas a otras. Así, la distancia límite a la que dejamos de percibir la sensación
estereoscópica puede variar desde unos 60 metros hasta cientos de metros3.
Un factor que interviene directamente en esta capacidad es la separación interocular. A mayor
separación entre los ojos, mayor es la distancia a la que apreciamos el efecto de relieve.
Las cámaras convencionales son monoculares (un solo objetivo) con lo que al realizar la
reproducción de un contenido grabado con una de estas cámaras los ojos reciben la misma
imagen desde el mismo punto de vista a los dos ojos. En el caso de realizar la grabación con
una cámara estereoscópica se observaría como los objetos salen o se adentran sobre el marco
donde se representan, dotando a la reproducción de un mayor realismo. En estas dos
imágenes (Figura 2.2) se puede apreciar la disparidad, es decir, las diferencias en la dirección
horizontal entre los elementos de la imagen.
Figura 2.2 Imagen estereoscópica
El mecanismo sobre el que se produce la estereopsis es extremadamente preciso. Pese a esto,
como se ha comentado anteriormente, no todo el mundo es capaz de realizar el proceso de
fusión. Desordenes visuales en la niñez, aunque fueran temporales, pueden dar resultado a
“estereoceguera”, se calcula que afecta al 5% de la población.
La causa más común es el estrabismo (desalineación de los ojos), aunque en caso de ser
corregido a tiempo la visión estéreo puede desarrollarse normalmente.
También se hace necesario comentar que las capacidades de visualización estereoscópica
varían con la edad, siendo los jóvenes son más sensibles a esta, sobre todo cuando la
disparidad de la imagen es mayor.
A parte de los problemas físicos que puedan impedir una correcta visualización, también se
hace necesario que la reproducción se realice siguiendo una serie de requisitos, unos comunes
2 Howard, I.; Rogers, B. (1995). Binocular Vision and Stereopsis.
3 "Principles of Stereoscopy", Herbert McCay's
12
a contenidos 2D y otros exclusivos de contenidos estereoscópicos. Por la parte de 2D se hace
necesaria: una correcta definición, resolución y evitar el parpadeo de la imagen, esto último se
consigue asegurando una frecuencia de refresco mínima de 50Hz. Por la parte de 3D se hacen
necesarios los siguientes requisitos:
La sensación de mareo no debe existir.
El usuario no debe tener que realizar un esfuerzo para adaptarse a la sensación 3D,
sino que esta sensación sea natural.
La sensación 3D debe ser nítida y constante a lo largo de todas las figuras y
especialmente en los bordes de los objetos.
El sistema debe ser lo más independiente posible del ángulo de visión del usuario.
De cumplirse todos estos requisitos estaremos ante un sistema 3D que será de gran aceptación
por parte del público. Este tipo de visión debe ser algo natural y no ha de suponer ningún
esfuerzo o molestia adicional.
2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES
ESTEREOSCÓPICAS
Los Displays 3D que se utilizan para realizar la representación de los contenidos 3D pueden ser
divididos según la técnica usada para dirigir las vistas izquierda y derecha al ojo apropiado:
unos necesitan dispositivos ópticos cerca de los ojos, y por el contrario, otros tienen este
proceso integrado en el display mismo. Estos últimos, de visión libre (free-viewing), son
llamados autoestereoscópicos. El hecho de que el usuario no necesite incorporar ningún
elemento hace que este último tipo sea de alto interés.
2.2.1 AIDED-VIEWING
En los monitores que sí necesitan de elementos en el usuario (aided-viewing), dos perspectivas
diferentes son generadas (casi) simultáneamente. Los rayos de luz son generados en un plano
fijo de visión mediante diversos métodos de multiplexado que dirigen las imágenes al ojo
apropiado:
1) Multiplexado de colores (Anaglyph): Este sistema propone ubicar en un mismo cuadro las
dos imágenes de dos capas de color, superpuestas pero desplazadas ligeramente una
respecto a la otra para producir el efecto de profundidad. Cada imagen, para ser vista debe
ser filtrada por lentes especiales en cada ojo que separa y hace que los ojos tengan esa
diferencia de percepción de la imagen, estos filtros son óptimos al usar colores
complementarios en la imagen y en las gafas, la imagen presentada por ejemplo en rojo no
es vista por el ojo que tiene un filtro del mismo color, pero sí que ve la otra imagen en azul
o verde. Es muy común utilizar el par rojo/cian ya que esta combinación tiene
características simples de longitudes de onda paso bajo/paso alto.
13
Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores para obtener la
visualización en 3D.
2) Multiplexado mediante polarización: Este sistema propone algo similar al multiplexado de
colores, la diferencia se basa en usar la naturaleza de la luz polarizada para separar las
imágenes izquierda y derecha, dicha separación de las imágenes se basa en la polarización
de la luz a +45º para el ojo derecho y a –45º para el ojo izquierdo, se desea al igual que en
el sistema anterior diferenciar cada imagen, pero si esta imagen se muestra como luz
polarizada tiene componentes determinadas de campo eléctrico y magnético, las cuales
pueden ser filtradas en recepción por gafas especiales. Este sistema posee varias ventajas
como el ser pasivo, y mantener todo el espectro de colores de una imagen, haciendo que
sea una técnica muy sencilla.
14
Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización vertical
El funcionamiento básico consiste en la utilización de dos proyectores con filtros (uno
vertical y el otro horizontal). La proyección se ha de realizar sobre una pantalla que refleje
los rayos sin modificar su polarización. El usuario deberá incorporar unas gafas con filtros
polarizados para realizar la separación de las imágenes.
Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo
3) Multiplexado en tiempo: Este procedimiento propone que las imágenes correspondientes
a cada ojo se presenten en forma sucesiva una después de otra, en este sistema la
información L+R4 no está contenida en la misma imagen, hay un par de cuadros
independientes que se muestran en rápida sucesión. Es necesario separar estas imágenes
ante el espectador, y esto se logra con obturadores de alta velocidad alternados y
sincronizados, los cuales se montan en gafas especiales (shutter glasses), estos
obturadores son usualmente del tipo LCD (Liquid Crystal Display). El sistema visual humano
es capaz de mezclar imágenes estereoscópicas separadas por un retraso en el tiempo de
hasta 50ms. La velocidad a la cual se alternan las imágenes es conocida como velocidad de
renovación, y por ello se pueden producir imágenes con parpadeo, sin embargo se ha
mejorado y se han determinado ciertos valores donde se tiene buena calidad de
visualización (12 imágenes/seg. para el cine tradicional y 12,5-15 imágenes/seg. para la
televisión con exploración entrelazada). Este sistema funciona mucho mejor a velocidades
de renovación más elevadas con exploración progresiva.
4 Información estereoscópica de los canales visuales Izquierdo + Derecho, llamado I+D ó L+R.
15
Figura 2.6 Funcionamiento de los lentes "shutter"
La ventaja de este sistema radica en que se pueden utilizar monitores 2D para la
reproducción de los contenidos 3D siempre y cuando la frecuencia de refresco de pantalla
sea de al menos 100Hz y tengan un bajo tiempo de respuesta.
4) Multiplexado en espacio: En este sistema las dos vistas son creadas en lugares distintos y
redirigidas al ojo correcto mediante canales independientes. Este sistema es el utilizado
por los Head Mounted Displays (HMD)5. Con estos sistemas se puede llegar a tener una
percepción de hasta 140º en horizontal y 90º en vertical.
2.2.2 FREE-VIEWING
En este sistema, las dos imágenes (L+R) se presentan simultáneamente en tiras verticales
intercaladas. Un sistema lenticular de lentes cilíndricas situado en la pantalla enfoca ambas
imágenes en forma separada aproximadamente a una distancia interocular cercana a los
65mm.
Este sistema exige que el espectador no mueva su cabeza bruscamente, y restringe el perfil
multivisión de una pantalla de televisión, es decir un cambio de posición del espectador afecta
a la imagen que éste observa. Existe la sensación de que la escena gira con el movimiento del
observador, este fenómeno se conoce como Free viewpoint (punto de vista libre), y hoy en día
la tecnología ha desarrollado 8 de estos puntos. Cada Free Viewpoint requiere dos imágenes
(una por cada ojo) lo que hace que la pantalla tenga una resolución mucho mayor que la HDTV
(High Definition Television). Con esto se desarrolla en algo la técnica que permita que existan
múltiples espectadores, ya que no es necesario localizarlos en posiciones fijas. El principal
cambio es la utilización de micro-lentes que permiten controlar la difracción de los haces de
luz. Como no se necesitan gafas especiales, se lo conoce como sistema autoestereoscópico.
Algunos de los métodos más destacados son:
5 HMD: es un dispositivo de visualización similar a un casco, que permite reproducir imágenes creadas
por ordenador sobre un "display" muy cercano a los ojos o directamente sobre la retina de los ojos.
16
Electroholográficos: Estos displays, actualmente en fase de investigación, pueden
grabar y reproducir las propiedades de las ondas de luz (amplitud, longitud de onda y
fase). Este proceso, en caso de realizarse de forma perfecta, sería el ideal para
sistemas de visión libre 3D.
Volumétricos: Estos displays crean la sensación de inmersión proyectando la
información 3D dentro de un volumen. Estos sistemas típicamente presentan
problemas de resolución además de necesitar mucho ancho de banda. Este tipo de
displays se encuentran actualmente en fase de investigación.
Multiplexado por direccionamiento: Se aplican efectos ópticos como la difracción,
refracción, reflexión y oclusión para redirigir la luz emitida por los píxeles de distintas
vistas al ojo apropiado. Existen diversos tipos, pero los más destacados (debido a que
están más desarrollados tecnológicamente) son los basados en la refracción y en
oclusión:
1) Oclusión: Debido al efecto parallax (paralaje), partes de la imagen son ocultadas a
un ojo y visibles para el otro. Existen diversos tipos dependiendo del número de
hendiduras y de la posición de colocación de la barrera, que puede estar enfrente
o detrás de la pantalla. Las pantallas con barrera de parallax detrás del display ya
se pueden encontrar en el mercado en monitores tanto de PC como de portátiles.
Como se observa en la figura 2.7, la barrera de parallax es la encargada que
redirigir los haces de luz (y no la imagen en sí), al ojo adecuado. El problema que
tiene este tipo de displays es que la posición de visualización es muy estricta
siendo posible su uso sólo para una persona.
Figura 2.7 Tecnología de barrera de parallax
2) Refracción: Como en el caso anterior existen diversos tipos de display, siendo
Integral Imaging el más prometedor. En este tipo de displays la imagen se
compone de múltiples pequeñas imágenes 2D capturas con un amplio número de
grupos de pequeñas lentes convexas. Cada grupo de lentes captura la escena
desde un punto de vista distinto. De esta manera el usuario percibe diferentes
imágenes para diferentes puntos de vista. El problema radica en que los grupos
17
lentes deben de ser muy pequeños, debido a que cada píxel debe contener un
grupo de lentes. Por este motivo, el display debe de tener una resolución muy alta.
Como solución alternativa existen las pantallas lenticulares que usan lentes
cilíndricas que pueden ser consideradas como una versión unidimensional de las
pantallas Integral Imaging. Debido a la orientación vertical de las lentes, los rayos
de luz de cada imagen son emitidos en direcciones específicas en el plano
horizontal.
Figura 2.8 Funcionamiento monitor lenticular
En la figura anterior se muestra precisamente este funcionamiento. Se observa como el
usuario tendrá la posibilidad de colocarse en distintos lugares donde podrá percibir
correctamente la sensación 3D, al contrario que con la barrera de parallax donde sólo existe
un lugar donde es posible observar correctamente el contenido.
2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D
Existen diferentes tecnologías de creación de contenidos 3D y también existen diferentes
formas de visualización estereoscópica, esto hace que existan multitud de formatos con los
que codificar, almacenar y transmitir los contenidos. Cada formato de representación depende
de un formato de codificación concreto.
La adquisición es la primera etapa en el proceso de crear y transmitir señales de 3D; la cadena
a la que el vídeo estereoscópico debe someterse se describe en la figura 2.9.
Figura 2.9 Cadena de transmisión del vídeo estéreo
Los diferentes formatos para la codificación, transmisión y visualización hacen que existan
muchas formas de adquirir vídeo 3D y de procesarlo. De los puntos anteriores del capítulo se
desprende la conclusión de que para crear una imagen estereoscópica es necesario al menos
tener información de imágenes L+R, lo que supone que se necesitan dos lentes para captar
estas informaciones; sin embargo los nuevos métodos proponen algunas otras soluciones.
18
2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA)
Este método se presenta como la solución elemental al problema de la adquisición, debido a
que es la manera más próxima de emular el sistema de visión humano.
La idea principal es asemejar las lentes a la visión humana, es por ello que la separación
interlenticular debe ser de 65 mm. y tener un ángulo de convergencia igual al humano. Un
requerimiento elemental para el diseño de un sistema de adquisición estereoscópico es la
comprensión total del espacio real (espacio donde se encuentra el objeto) para reproducir el
espacio del vídeo estereoscópico.
La tecnología de cada lente para captar la imagen es igual a la tradicional de los sistemas de
vídeo monoscópico, es decir cámaras CCD. Cada lente trabaja bajo sus principios para capturar
la imagen independientemente.
Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo
2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA)
Para la implementación de estos sistemas se utilizan lentes monoculares tradicionales
dispuestos de tal forma que permitan obtener los detalles que proporcionen información de
profundidad para una escena. Estos sistemas, al ser complicados, quedan reservados para
aplicaciones muy específicas y determinadas, tales como espectáculos deportivos y culturales,
donde al espectador se le puede incluso brindar mayores posibilidades de interactividad. En
estos sistemas la producción de imágenes es más compleja y robusta que en otros casos, ya
que con muchas informaciones visuales los sistemas deben ser capaces de procesar gran flujo
de datos, tener altas tasas de compresión y obtener variables útiles para el desarrollo.
La etapa de captura se desarrolla mediante adquisición sincronizada en el tiempo la cual se
logra para todas las cámaras dispuestas, esta sincronización utiliza Genlock6. Estas imágenes
6 Genlock: Técnica común en vídeo donde una referencia de vídeo específica sirve para sincronizar todas
las fuentes de vídeo que se dispongan.
19
captadas por la cámara son almacenadas directamente sin compresión en el sistema de
almacenamiento, para un procesamiento offline (fuera del proceso).
El hecho de obtener mucha más información de imagen permite tener algunos resultados
como vídeo estéreo y vídeo con libre punto de vista, el cual se da cuando una escena puede
verse desde cualquier ángulo por la persona y esta percibirá una visión volumétrica de la
respectiva vista elegida.
2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF)
Este método es muy útil en algunos casos, dado que la información de profundidad permitiría
generar el vídeo estereoscópico. Se propone un sistema en el cual se capte el plano 2D con un
lente normal y por otro lado se capte la información de profundidad de cada píxel7 de este
plano, eso se hace a través de las conocidas Z-Cam o también llamadas TOF (Time of Flight),
que permiten generar información para dar profundidad a cada píxel.
La Z-Cam genera pulsos de luz infrarroja con diodos láser que son reflejados por los objetos
que la cámara capta, al capturar esta reflexión el dispositivo calcula para cada píxel la distancia
exacta a la que se encuentra y genera un mapa de profundidad, el cual no es más que el vídeo
original en escala de grises, en donde el blanco representa los píxeles más cercanos y el negro
los píxeles con mayor componente de profundidad Z.
2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D)
Esta técnica aunque resulte la que más se acopla a los sistemas que están en vigencia, requiere
un procesamiento digital de la señal muy rigurosa y compleja.
Al no contar con la información real de profundidad, el emular o crear esta información
disminuye calidad y precisión. A pesar de todo ello, este es el método más usado en la
actualidad, dado que permite una compatibilidad total con los sistemas existentes, que lo
único que deben incorporar es la etapa de conversión a 3D.
Esta conversión se puede hacer a dos niveles, en la producción y en la recepción; el último
caso es lo que actualmente se tiene como 3DTV, la cual toma el cuadro en 2D, lo convierte a
3D y lo presenta en anáglifo polarizado o multiplexado en el tiempo, sin embargo cuando este
proceso se realiza en la producción se puede tener mayor calidad.
2.4 FORMATOS DE VÍDEO PARA 3D
Los formatos establecidos para el vídeo 3D han ido evolucionando desde los más simples hasta
aquellos con procesos exclusivos y complejos. Un formato se puede definir como la descripción
de la información que se adquiera y se procesa.
2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA)
Este formato de vídeo 3D está considerado como uno de los más antiguos y con mayores
restricciones por su baja calidad; es notorio que este formato tiene completa compatibilidad
7 Pixel: La menor unidad homogénea en parte de una imagen digital.
20
ya que este se reproduce en las pantallas convencionales y el procesamiento para generar 3D -
OCA es sencillo. El formato OCA (Anáglifo Cromático Optimizado) se le puede considerar como
un sistema admisible ya que ha sido optimizado para no perder calidad en el color ni sufrir
grandes alteraciones en el vídeo original, es de fácil manipulación y de bajo costo.
2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV)
En este formato se tratan y procesan las señales para 3D que puedan existir de manera
independiente, es así que si se tienen señales izquierda y derecha, cada una de ellas se
someterá a su estándar de compresión, a su codificación y será incluso transmitida
considerando que es una señal 2D, esto supone efectivamente el gasto del doble de recursos
para una información 3D, por lo tanto el sistema se limita a la existencia de dos imágenes.
Dentro de este formato podemos encontrar la técnica de Dual-Stream y de Simulcast. En
ambas técnicas las señales se adquieren independientemente, tienen su línea de
procesamiento independiente dentro del sistema y son transmitidas bien sincronizadamente
multiplexadas o de manera simultánea, ocupando el doble de recursos técnicos. En la
recepción se utilizan dos plataformas independientes para cada señal.
Este formato representa la solución natural a la producción y transmisión de señales estéreo
de vídeo, el formato es conveniente y aplicable para 2 vistas, izquierda y derecha. A cada una
de las vistas se le aplicarán codificadores que se usan actualmente. La desventaja principal de
este formato es que no se utiliza la relación y la dependencia entre las vistas, que para otros
formatos representa un elemento vital para reducir los recursos técnicos utilizados. Por otro
lado la ventaja existente es la fácil recuperación de una de las vistas para la compatibilidad 2D.
Dado que no se utilizan técnicas avanzadas para la codificación de este vídeo se conoce a este
como CSV, o vídeo estéreo convencional.
2.4.2.1 Concepto de Dual Stream
En este caso se generan dos flujos de las señales y posteriormente se someten a una etapa de
multiplexación donde se estructura una secuencia de transmisión para que así se genere el par
de cuadros de vídeo de manera ordenada, este formato es compatible con 2D debido a que si
solo ese desea un cuadro, es fácil descartar el otro y diferenciar cuál es el que se desea ver.
Inicialmente se contempla el Dual Streaming como el enviar los mismos flujos para dos fines
diferentes, pero si se trata de señales estereoscópicas, se aprovecha esta condición para enviar
en dos flujos ligeramente distintos y que estos sean procesados de manera independiente.
Este formato es bastante aplicable con técnicas de compresión y transmisión actuales, ya que
se maneja cada señal de manera independiente.
2.4.2.2 Transmisión Simultánea (Simulcast)
Aunque el procesar las señales independientemente es lo más simple, es recomendable
simplificar el sistema, el esquema de transmisión simultánea plantea la existencia de dos
señales individuales L y R que serán transmitidas en diferentes canales, es decir como dos
señales diferentes; sin duda los recursos necesarios son elevados pero la infraestructura para
vídeo monoscópico no se altera, solo se aumenta.
21
2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC)
El formato que se expone a continuación, ha tenido una evolución significativa, y comenzó por
la idea más sencilla, que fue enviar los cuadros izquierdo y derecho por separado de manera
alternada es decir como una transmisión “doble” de las escenas. Después siguió evolucionando
hasta obtener mayor eficiencia ubicando a las dos imágenes en el mismo campo. Dado que la
base de este formato es el cuadro HD, el estándar HDMI propuso la idea de implementarlo y
definió formatos bases y formatos alternativos, dejando muchas opciones para realizar la
producción de imágenes 3D. Además se propone una efectiva solución a la compatibilidad, el
fundamento básico dice que estos formatos se basan en la existencia de 2 vistas (izquierda y
derecha) que aprovechando el número de líneas del cuadro, se ubican dentro del mismo
plano. El hecho de que se ubiquen dos imágenes en el lugar que ocuparía una supone una
pérdida de calidad, sin embargo la evolución de las técnicas de compresión ha permitido que
se mantenga la buena calidad y se comprima con estándares avanzados. Entre los formatos
avanzados HDMI, la versión 1.4a establece que se puede sustituir la información de uno de los
cuadros por información de profundidad, haciendo que la adquisición de esta información
pueda ser aprovechada.
Este formato se presenta como una solución sencilla a la compatibilidad, ya que se aprovecha
las cualidades del canal de alta definición para ubicar en él, el máximo de información posible.
HDMI 1.4 establece las normas para la comunicación de imágenes HD a través de la interfaz
con el mismo nombre, y en su versión ampliada 1.4a establece los formatos para ubicar
imágenes L+R en el cuadro HD.
Para el estándar DVB-T se puede considerar que un canal HDTV ocupa la mitad del ancho de
banda de un múltiplex, y por lo tanto el canal de 3DTV ocuparía los mismos recursos. El hecho
de introducir dos imágenes en un cuadro HD implica la pérdida de resolución, lo cual es una
desventaja; por otro lado la gran ventaja de este formato es la elevada compatibilidad que se
obtiene. De igual forma se definen los tipos de barrido de línea para cada estructura 3D, ya sea
progresivo o entrelazado, manteniendo los principios de cada uno de estos métodos. Las
estructuras 3D en HDMI 1.4a deberían procurar transmitir dos señales de vídeo en completa
resolución 1080p, una para cada ojo, es así que se establecen nuevas dimensiones del cuadro
HD para 3D, todas ellas se basan en imágenes L+R, sin embargo también es válido para las
estructuras actuales de 1920x1080p, claro que reduciendo su resolución. Estas nuevas
dimensiones del cuadro HD establecen los siguientes conceptos:
Full HD 2D (FHD2D) / Half HD 3D (HHD3D): Es la de menor calidad para reproducción
3D, mantiene las dimensiones convencionales del FHD2D es decir 1920x1080p.
Full HD 3D (FHD3D): Es la que conserva la calidad de cada cuadro, por lo tanto las
dimensiones del cuadro, aumentan de acuerdo a la configuración.
A continuación se presentan todas las configuraciones posibles y para cada dimensión del
cuadro HD:
22
2.4.3.1 Formato de Empaquetamiento de Cuadro
Para este formato se ubica el cuadro izquierdo en la parte superior, posteriormente un espacio
en blanco y luego el cuadro derecho, se establece una nueva dimensión del cuadro HD (ver
figura 2.11), este espacio en blanco viene dado por el pulso de borrado que el cuadro tiene
originalmente y que es de 45 líneas. Es muy similar, por la disposición de los cuadros, al
formato Top and Bottom, pero se diferencia por la estructura detallada del cuadro.
Figura 2.11 Empaquetamiento de cuadro para formato progresivo
2.4.3.2 Configuración Side by Side Half (SbS)
En esta configuración se propone ubicar los cuadros izquierdo y derecho uno a continuación de
otro horizontalmente (ver figura 2.12). En este caso el SbS del tipo Half (HHD3D) los cuadros
originales HD reducen su resolución a la mitad en el eje horizontal, para al final obtener un
cuadro HD de dimensiones normales, en este caso el cuadro derecho se ubica a la derecha y el
izquierdo en la izquierda. La señalización para detectar este tipo de cuadros se realiza
mediante el estándar HDMI 1.4a.
Figura 2.12 Side by Side (SbS)
2.4.3.3 Configuración Top and Bottom (TaB)
En este caso las imágenes izquierda y derecha son submuestreadas a la mitad de su resolución
en el eje vertical y posteriormente ubicadas como muestra la figura 2.13.
23
Figura 2.13 Top and Bottom (TaB)
2.4.3.4 Configuración quincunx matrix (Tablero de ajedrez)
Este formato forma parte del grupo de formatos extendidos de HDMI 1.4a, es decir no son
muy utilizados, pero también proponen una solución para la disposición de la información
estereoscópica, en este caso se propone dividir a la imagen en todos sus píxeles e ir alternando
en forma de tablero de ajedrez entre el píxel del cuadro derecho y el píxel del cuadro izquierdo
(ver figura 2.14), en este caso cada imagen también se submuestrea a la mitad de su
resolución para poder ocupar un cuadro HD de dimensiones convencionales.
Figura 2.14 Configuración Tablero de ajedrez
En este formato se mantiene el número de líneas originales, es poco usado para la
estructuración de las imágenes antes de la transmisión. Por ello no se requiere un estudio
minucioso; existen dos posibilidades para estos cuadros, cualquiera de las vistas, izquierda o
derecha, puede ocupar el primer píxel del cuadro HD.
2.4.3.5 Configuración campos alternados
Este es uno más de los formatos extendidos de 3d_Structure para HDMI, es una configuración
que se basa en el formato entrelazado, dado que intercala en la disposición del cuadro HD (ver
Figura 2.15) los campos pares e impares para información estereoscópica izquierda y derecha.
Para este caso se mantiene el número de píxeles por línea, el número de líneas efectivas se
duplica al igual que la frecuencia.
24
Figura 2.15 Configuración de Campos alternados
2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D)
La herramienta que representa la información de la profundidad es el mapa de profundidad. La
normativa ISO/IEC 23002-3 (MPEG-C Parte 3) define a este como un formato válido para los
sistemas de 3D y establece los modos de producción y compresión para estas imágenes. Para
obtener un mapa de profundidad existen varias técnicas; a continuación se describen los
procesos en el lado transmisor de este tipo de señales.
Existen 3 formas de obtener las señales necesarias para este formato, de todas estas se
desprende el mapa de profundidad que luego será codificado independientemente y se
estructura junto con el vídeo en el conjunto de bits a ser transmitido.
Figura 2.16 Imagen con su mapa de profundidad asociado
2.4.4.1 El mapa de profundidad
El mapa de profundidad es una representación visual de las escenas de vídeo, la cual contiene
valores discretos que representan la profundidad de cada píxel del cuadro original. Las
imágenes son representadas por cuadros en escalas de grises donde cada gris representa una
distancia Z, y se ha establecido que para los objetos cercanos se asigne el color blanco y para el
25
más alejado el color negro. Para el vídeo, la profundidad se representa por una señal de vídeo
monocromática de 8 bits, con estos 255 valores se obtienen buena calidad para la posterior
interpretación de la profundidad de una escena. El mapa de profundidad consta simplemente
de una matriz que contienen N valores asociados a los píxeles individuales del flujo de vídeo
regular. Esta señal puede ser procesada con técnicas específicas para señales de luminancia8, o
más modernamente con las técnicas de codificación que el vídeo de la televisión digital utiliza.
Esta al ser una señal auxiliar de vídeo requiere ser señalizada, para lo cual se introduce un byte
que determina que la señal es de este tipo.
2.4.4.2 Generación del mapa de profundidad a partir de 2D
La generación de este tipo de información, forma parte del formato de conversión 2D a 3D, es
decir aquí se genera un mapa de profundidad utilizando algún algoritmo que estime el valor de
la componente Z de cada píxel. Algunas técnicas crean un mapa de profundidad a través de la
estimación de la segunda vista, y posteriormente emplean la técnica como si se hubiera
obtenido la imagen desde dos cámaras. Existen una gran variedad de propuestas para obtener
este mapa de profundidad, y todos estiman la componente Z de diferente manera, incluso
existen técnicas para realizar transformación en tiempo real.
Para la generación de este mapa, algunas técnicas parten del análisis del vector del
movimiento el cual se obtiene fácilmente a través del H.264 (MPEG-4), y con este vector
construyen el mapa de profundidad.
2.4.4.3 Generación del mapa de profundidad a través de Cámara infrarroja
Las Zcam funcionan a partir de la luz infrarroja que detecta la posición de los objetos, por lo
que también se denominan cámaras infrarrojas. Estas cámaras obtienen dos señales de vídeo,
el plano 2D y el mapa de profundidad, este tipo de cámaras generan pulsos infrarrojos que se
reflejan por los objetos y dependiendo de dicha reflexión se obtiene el valor de profundidad de
cada objeto de la imagen. Estas cámaras constan de un CCD ultra rápido y una fuente de luz
infrarroja. Los sistemas de creación de mapa de profundidad por rayos infrarrojos procuran
generar imágenes de alta calidad y no solo es la adquisición sino el proceso para generar el
mapa en sí. Después de la adquisición, es clave en el proceso corregir y poner a punto factores
como brillo, textura y segmentación de la imagen. En primera instancia la cámara emite y
recibe pulsos de luz infrarroja, los cuales viajan junto con la luz que representa el plano, es por
ello que cada información debe ir a su correspondiente módulo de procesamiento.
2.4.4.4 Generación del mapa de profundidad a través de Cámara Estéreo
Si bien es cierto la técnica más adecuada para generar un mapa de profundidad es a través de
un transductor diseñado para ello; se han desarrollado diversos algoritmos que parten de que
la mayoría de sistemas de 3D trabajan con cámaras estéreo, por la facilidad y porque las
cámaras con dos lentes son más populares que las cámaras infrarrojas para profundidad. Por
lo tanto la atención ya no está en los lentes ni en el proceso de adquisición, sino mas bien en la
8 La luminancia “Y” es la componente del vídeo que tiene la información de luminosidad (luz o brillo) de
la imagen.
26
línea base del procesamiento de las señales izquierda y derecha para generar la información
V+D.
En esta técnica se identifican dos etapas para la generación del mapa, la primera consiste
básicamente en preparar a la imagen para que se pueda extraer el mapa a partir de la
disparidad. Los 5 procesos que la primera etapa comprende, procuran corregir los errores de
los píxeles de la imagen para que posteriormente en la segunda etapa, la detección de la
disparidad sea correcta.
2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC)
Este formato es robusto debido a que posee su propio estándar de compresión y codificación,
el Multi-view Video Coding es una extensión que se hizo para H.264 (MPEG-4), y en este ya se
contempla la posibilidad de que desde la adquisición se obtengan no sólo dos, sino múltiples
vistas de una escena, y que estas sean comprimidas y transmitidas como un perfil multivista
Con la aparición de esta extensión a la norma, no solo se fortalece el concepto del 3D basado
en la existencia de dos imágenes como en el sistema visual, sino también surge el concepto de
FVV (Free View-point Video), en el cual se adquieren n vistas, y se presentan al espectador n
vistas de las escenas. Para el caso particular en el que n=2 vistas es el que se usa en la
actualidad en los sistemas Blu-Ray 3D.
2.4.6 FORMATO MVD (MVC+D)
La búsqueda de cada vez más calidad ha llevado a extender formatos ya existentes, es así que
al MVC, a pesar de que en su concepción requiere n vistas lo que lo haría de gran calidad, se le
añade una información importante que ya ha sido estudiada, la profundidad. Este formato es
considerado dentro de la categoría de los formatos avanzados para producción de vídeo 3D y
se establece la existencia de n vistas, cada una de ellas con su respectivo mapa de
profundidad. Al igual que para MVC, la particularización de este formato en n=2 significa un
estéreo de alta calidad.
Figura 2.17 Formato MVC + Profundidad
La gran ventaja de este formato es que al existir múltiples vistas y reforzadas con la
información de profundidad, la presentación del vídeo al espectador tiene más calidad; incluso
27
el espectador podrá observar cada una de las n vistas de manera independiente en 3D. Debido
a que cada una tiene su mapa de profundidad. Además el procesamiento digital de la señal se
simplifica al evitar el cálculo de algunos parámetros de profundidad.
2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV)
Este al igual que MVD, está dentro de los llamados formatos avanzados para vídeo 3D. Para
este formato se generan más informaciones de profundidad para la imagen que se adquiera; al
igual que el anterior es un formato multivista por lo que puede existir n informaciones visuales
por señal de vídeo. Como es de imaginarse la cantidad de datos que se obtienen es bastante
grande por lo cual la compresión que se realice es fundamental y determinante.
El método nace con LDI (Layered Depth Image) y se expande hasta aplicarlo no sólo a
imágenes sino en vídeo también. La información que se asocia por cada vista de la imagen es:
la imagen de vídeo monoscópica, el mapa de profundidad asociado, una capa para representar
el fondo del vídeo (se obtiene de la oclusión del vídeo original), y una capa de fondo para la
profundidad.
Figura 2.18 Formato LDV
De todas las técnicas de reconstrucción de imágenes 3D, LDV es una de las más eficientes en el
momento de sintetizar las vistas en escenas 3D complejas.
2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES)
En este formato se establece que se pueden generar 2 o más vistas (n≥2) acompañadas de
información de profundidad y capas de oclusión; la información es similar a LDV sin embargo la
diferencia es que LDV transmite una vista completa y crea el resto, en este caso cada una de
las cámaras capta el vídeo de color con su respectiva extensión de la información.
En general todos los formatos, en los cuales se utilice a la profundidad como información para
crear el 3D dan flexibilidad para que se pueda manejar de mejor forma toda la información,
por lo tanto se vuelve un poco más sencillo el manejar conceptos como movilidad, efectos de
profundidad, etc.
28
Este formato extiende al estéreo convencional ya que genera una serie de datos extras a las
originales izquierda y derecha de un sistema estereoscópico tradicional, al extender el estéreo
tiene como ventaja, dejar la posibilidad de que los formatos y esquemas anteriores puedan
adaptarse. Dentro de las informaciones adicionales se manejan señales de profundidad
adicionales y capas de oclusión, lo cual brinda una funcionalidad mayor por ejemplo se crean
facilidades para la post producción, además se puede sintetizar varias vistas así como adaptar
la línea base con el fin de presentar en una pantalla de TV o ser proyectado en el cine. DES
(Depth Enhanced Video) establece que existan 2 flujos de vídeo, con un mapa de profundidad
y dos capas de oclusión cada uno. Se dice que este es un formato genérico porque el sistema
genérico de adquisición brinda todas las señales necesarias de manera precisa y sencilla.
2.4.9 RESUMEN DE FORMATOS
MVD, LDV y DES fueron presentados como formatos avanzados para esquemas multivista y se
mencionó como ventaja sobresaliente la viabilidad para que se usen en recepción pantallas
autoestereoscópicas al usuario.
En definitiva no importa cuál formato se utilice para transmitir la información 3D, el desarrollo
de la tecnología de displays permite convertir esa información a dos o más cuadros que se
pueden visualizar por cualquier método que el fabricante elija. Lo más importante es
encontrar un formato óptimo.
2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO
ESTEREOSCÓPICO
Existen diversos organismos de estandarización que están trabajando en un modelo estándar
de codificación. Los tres más importantes que han colaborado en el desarrollo de estándares
sobre tecnologías 3D son la “Internacional Organization for Standardization (ISO)”, la
“International Electrotechnical Commission (IEC)” y la “International Telecommunication Union
(ITU)”. ITU conjuntamente con MPEG (grupo de expertos en vídeo del ISO/IEC), trabajan en la
estandarización del H.264 (MPEG-4 parte 10 de ISO/IEC), este estándar conjunto trata aspectos
de codificación multi-vista: MVC (“Multi-View Coding”). Mediante este tipo de codificación se
pretende conseguir la compresión de diferentes vistas para poder realizar transmisiones de
Vídeo 3D con tasas de compresión adecuadas.
MVC al estar amparado por los tres grandes cuerpos de estandarización (ITU, ISO e IEC) se
puede estimar que será el formato más extendido en un futuro y evitará multiplicidad de
formatos de codificación multi-vista.
Por su parte MPEG también trabaja en otros aspectos, por ejemplo, la parte 16 del MPEG-4,
denominada AFX (“Animation Framework extensión”), define una colección de herramientas
que permiten producir contenidos sintéticos animados en tres dimensiones.
También se está trabajando en el MPEG-C, que define los algoritmos avanzados de codificación
de vídeos. Entre las partes del estándar, la parte 3 define la manera de añadir uno o más flujos
de datos auxiliares (como por ejemplo mapas de profundidad) que están asociados con los
29
píxeles del flujo de vídeo principal. De este modo, se puede utilizar este estándar para codificar
de forma universal la información estereoscópica para aplicaciones de 3D.
A continuación se explicarán algunas de las formas más habituales en las que se codifican este
tipo de contenidos.
2.5.1 CODIFICACIÓN ESTEREOSCÓPICA
La recomendación ITU-T H.264, o más conocida como MPEG-4, tiene grandes ventajas y buen
desempeño; si bien es cierto H.264 tiene varias extensiones aplicables a 3D, el MPEG-4
convencional también se puede aplicar a los formatos de vídeo 3D, porque el vídeo que se
transmite se le trata como vídeo 2D de características especiales.
MPEG-4 tiene una gran versatilidad y calidad de codificación, si bien es cierto MPEG-2 llegó a
desarrollar una extensión para perfil multivisión, en el cual se contempla el caso de múltiples
vistas y de cómo explotar la relación entre ellas para codificar y comprimir, no llegó a ser el
estándar de vanguardia y llegó a su máximo desarrollo en dicha extensión.
Las ventajas de MPEG-4 hacen que este sirva de base para desarrollar modelos más eficientes
ante la gran cantidad de información que los formatos de 3DTV requieren.
A continuación se realiza una descripción de MPEG-4 y de cómo este se adapta a los diferentes
formatos, dependiendo la clase y cantidad de información necesarias.
2.5.1.1 Características generales del estándar H.264, MPEG-4 Parte 10
El procedimiento seguido se basa principalmente en aplicar JPEG sobre las imágenes de
referencia y a partir de esta, y mediante técnicas de compensación de movimiento (aplicadas
sobre macrobloques 8x8, 16x16 etc.), aprovechar la redundancia temporal entre imágenes
consecutivas pertenecientes a la misma escena. Únicamente se codifican las diferencias. Estas
diferencias se describen mediante los vectores de movimiento, que especifican, si se ha
movido un macrobloque, cual es la nueva posición dentro de la imagen del macrobloque y de
esta manera poder hacer una predicción de la imagen. Sobre esta imagen diferencia también
se aplica JPEG.
El estándar define cinco tipos de imágenes en la codificación:
Imágenes Intra (I): Sólo contienen macrobloques intra. Son imágenes codificadas
teniendo en cuenta únicamente la propia imagen (son imágenes de referencia). Las
imágenes I suelen ser codificadas de manera similar a la codificación JPEG. Las
imágenes I son las que más ocupan y se utilizan como puntos de acceso aleatorio ya
que sólo dependen de sí mismas en la descodificación.
Imágenes Predicted (P): Contienen macrobloques P y/o macrobloques I. Este tipo
corresponde a las imágenes predichas que hacen referencia a una imagen de tipo I o P
anteriores en tiempo. Ocupan entre un 30% y un 50% menos que una imagen I.
30
Imágenes Bi-Predicted (B): Contienen macrobloques B y/o macrobloques I. Son
imágenes predichas con referencia a la imagen I anterior y a la P posterior. Es
necesario que el descodificador tenga las dos referencias, anterior y posterior, para
poder descodificarlas correctamente. Suelen ser aproximadamente un 50% más
pequeñas que las imágenes P.
Imágenes Switching Predicted (SP): Contienen macrobloques P y/o I. Facilita el cambio
entre secuencias codificadas. Sólo se utilizan en versiones extendidas del estándar.
Imágenes Switching Intra (SI): Son iguales que las SP pero contienen macrobloques SI,
que son un tipo especial de macrobloques intra. Sólo se utilizan en versiones
extendidas del estándar. Cuando una imagen es codificada esta puede ser almacenada
en un contenedor de bytes o directamente transmitida. La transmisión seguirá un
patrón fijo que consistirá en el envío de una imagen I seguida de imágenes P y/o
imágenes B.
En la figura 2.19 podemos ver un posible patrón de transmisión.
Figura 2.19 Estructura típica de transmisión de H.264
Es importante tener en cuenta que el descodificador necesitará una imagen de referencia
(imagen I) para empezar a descodificar, debido a que las demás imágenes (hasta la siguiente
imagen I) hacen referencia a ella.
2.5.1.2 H.264 AVC en OCA (Optimized Chromatic Anagliph)
En este caso la naturaleza de la señal de vídeo es similar a las señales convencionales de vídeo
2D, por lo tanto el estándar es fácilmente aplicable sin ninguna restricción, tal como lo
muestra la figura 2.20.
Figura 2.20 Codificación para OCA
Cabe mencionar que se debe procurar mantener la calidad, por lo que trabajar en HD sería una
idea conveniente en este formato. Para OCA, no existen señales auxiliares ni información extra
para el vídeo 3D.
31
2.5.1.3 H.264 AVC para CSV (Conventional Video Stereo)
Esta es la aplicación natural a la parte estéreo, considerando que aquí las señales de vídeo son
monoscópicas e independientes. Dentro de CSV, podemos considerar 2 casos como los
formatos antes estudiados, el caso del Dual-Streaming y del Simulcast; con esto H.264 trabaja
normalmente sobre cada uno bajo la estructura expuesta en las figuras 2.21 y 2.22
respectivamente:
Figura 2.21 Aplicación de H.264 en Dual-Streaming
Figura 2.22 Aplicación de H.264 en Simulcast
En los dos casos la codificación es totalmente independiente, por lo que el codificador trabaja
con señales completamente convencionales. Las desventajas que se presentan son:
Dual-Streaming: se debe tener en consideración que la estructura de transmisión
soporte el video-out proveniente de la codificación de dos señales.
Simulcast: la estructura de transmisión si soporta la salida del codificador, se debe
considerar que el uso del canal de transmisión en este esquema de transmisión se
duplica.
Al ser informaciones completamente independientes estos esquemas se pueden ajustar a los
formatos V+D, utilizando en lugar del vídeo derecho a la información de profundidad.
32
2.5.1.4 H.264 AVC para CFC+ (Conventional HD Frame Compatible +)
CFC+ es el formato en el cual la información tiene una naturaleza propia para 3DTV, por lo cual
la cantidad de información ya crece; como se estudió en el formato, aquí se manejan al menos
las dimensiones del cuadro HD y para casos de mayor calidad, dimensiones superiores. Dado
que MPEG-4 si establece algunos niveles y perfiles en los cuales encajen estos vídeos, la
codificación si sería aplicable.
Dado que en este formato se manejan los cuadros L+R bajo algún empaquetamiento, es
necesario utilizar la extensión de H.264 que define un SEI (Supplemental enhancement
information), es decir un señalizador de información adicional. En este SEI se indica bajo que
formato se empaqueta la información, y que tipo de información existe. Para mejorar la
calidad en la codificación a esta información de vídeo 3D se le aplica el SVC (Scalable Video
Coding), el cual no es más que un anexo del H.264 para señales de mayor calidad y por
supuesto compatible con los parámetros de codificación antes estudiados.
En la figura 2.23 se ilustra como actuaría el codificador para casos de empaquetamiento en un
cuadro HD. Cabe señalar que el tipo de empaquetamiento es totalmente independiente, ya
que mientras se ocupe las dimensiones normadas para los cuadros HD, el vídeo estereoscópico
se codifica como señales normales, aún cuando estas lleven información estereoscópica.
Figura 2.23 Aplicación de H.264 en CFC+
Debido al uso del cuadro HD, es necesario utilizar la señalización correspondiente, dicha
señalización se encuentra en la norma HDMI 1.4a en la sección correspondiente a 3D.
2.5.2 CODIFICACIÓN PARA EL FORMATO V+D
La idea inicial de establecer el mapa de profundidad surge del proyecto ATTEST9, y se basa en
que una señal monocromática ahorraría muchos recursos de transmisión y facilidad en
codificación. Existen algunas técnicas que resulta una solución viable en este formato,
9 Advanced Three-dimensional Television System Technologies (ATTEST), proyecto para la investigación
de un sistema de difusión eficiente de televisión 3D.
33
procurando siempre el uso eficiente de los recursos y evitar en lo posible que se demanden
tasas de bits excesivamente altas.
El desarrollo de estas técnicas ha permitido que este formato sea eficiente e incluso sea
aplicable a la televisión móvil 3D. Es posible también aplicar la extensión MVC de H.264
tomando en cuenta que una de las vistas puede ser el mapa de profundidad.
2.5.2.1 MPEG-C parte 3
Este estándar conocido también como el ISO/IEC 23002-3, establece el procesamiento
separado e independiente de las señales de vídeo y de la señal de profundidad, tomando en
cuenta que codificar una señal de profundidad monocromática requiere menos tasa de bits y
que en recepción se debe contar con dos decodificadores para separar la reconstrucción de
ambas señales.
Cabe señalar que el estándar no establece técnicas de compresión o transmisión, sólo
establece la metodología que puede ser aplicada para nuestro estudio con técnicas
H.264/AVC.
Se considera que el codificador para la profundidad tendrá como salida una tasa de bits de
entre el 5 y 10% de la tasa del vídeo 2D, siendo así la tasa total de bits un 110% en V+D usando
codificación para cada señal, un valor que puede resultar cuestionable para servicios donde el
uso del canal sea realmente limitado.
La cadena de transmisión para este formato se representa en la figura 2.24.
Figura 2.24 Cadena de Transmisión para MPEG-C parte 3
El esquema de la figura 2.24 muestra la codificación independiente de las 2 señales, de lo cual
resultarán dos flujos de bits; para la transmisión de dichos flujos, estos deben ser
multiplexados cuadro a cuadro generando un único transport-stream, el cual puede
34
eventualmente contener parámetros adicionales del mapa de profundidad como información
auxiliar.
2.5.2.2 H.264 - Imágenes auxiliares
H.264 sostiene la posibilidad de codificar señales auxiliares de vídeo, teniendo las mismas
características de macro-bloques, de semántica y sintaxis en la codificación.
Se pueden adicionar señales de vídeo redundantes o señales no especificadas en la norma
H.264, de esto se vale el 3D para poder transmitir sobre MPEG-4 la señal auxiliar del mapa de
profundidad (ver figura 2.25). Esta señal debe estar debidamente señalizada según lo
establece el estándar, a este tipo de señales el estándar, las denominadas como “Auxiliary
Coded Picture”, y se definen como imágenes que suplementan a la señal primaria,
normalmente esta señal se usa como redundancia y el estándar restringe a que esta sea
monocromática.
Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares
Esta solución permite aprovechar al máximo las ventajas de H.264 y además se brinda un gran
nivel de compatibilidad con los sistemas anteriores, además de un uso eficiente en la
transmisión.
2.5.3 CODIFICACIÓN PARA EL FORMATO MVC
Esta enmienda a H.264/AVC crea la posibilidad de explotar al máximo la dependencia entre las
vistas de una señal de vídeo estereoscópico, haciendo uso de una predicción tomando en
cuenta los n cuadros presentes. Para este formato se pueden especificar dos casos, el primero
en el cual se generaliza la predicción para n vistas, y el segundo que se ha mencionado como
estéreo de alto desempeño si n=2.
Según H.264 se añade un nuevo SEI para indicar el uso de la predicción y codificación
multivista. Un codificador MVC consiste básicamente en N codificadores simples en paralelo,
cada uno de ellos utiliza estructuras de predicción temporal, donde una secuencia de imágenes
35
sucesivas es codificada como Intra (I), Predictiva (P) o Bi-predictiva (B). Para mejorar aún más
la eficiencia de la codificación, se tiende a utilizar Imágenes B jerárquicas, donde la jerarquía
de una imagen B es creada por la sucesión de imágenes B que resultan referencias para otras
imágenes B.
En MVC los conceptos de predicción para una imagen se extienden a tal punto que una imagen
que está en el proceso de codificación, puede tener tanto referencias temporales como
referencias intervista para la predicción. En la figura 2.26 se explica esta predicción MVC
considerando n=5 y un GOP de tamaño 8.
Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP)10
Para la cámara 1, el procedimiento de predicción es idéntico al caso de una sola vista,
manteniendo así una compatibilidad con sistemas anteriores, pero para el resto de vistas se
hace uso de la referencia intervista (flechas rojas) para la predicción.
Con el fin de mejorar la eficiencia existen varias estructuras de predicción desarrolladas, dos
de las más importantes son IPP (inter-view prediction at key picture) y HBP (Hierarchical B
Pictures), IPP funciona bajo lo expuesto en la figura 2.26.
HBP explota aún más la relación inter-vista, no solo utilizando las vistas n+1 para la predicción
sino también las n+2. La figura 2.27 muestra el proceso de predicción de las diferentes
imágenes para un GOP = 8 y n=8 vistas.
10
Fuente: “3D Video Formats and Coding Methods”; Karsten Müller, Philipp Merkle, Gerhard Tech, and Thomas Wiegand; HHI; 2006 Berlín Alemania.
36
Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP)
11
En la figura anterior, la S indica la cámara, mientras que la T indica el tiempo. Como en
estándares anteriores, las tres maneras de codificar una imagen son: intracodificado (I cuadro),
predecible posterior (P cuadro) y predecible bi-direccional (B cuadro). La diferencia principal es
que en este nuevo estándar hay dos dimensiones: el tiempo y la vista, tal y como se puede ver
en la figura.
En la imagen se puede observar que sólo en la cámara S0 se codifica una imagen como intra.
Esto se realiza cada 8 tramas. En las cámaras S2, S4, S6 y S7 se codifican las imágenes de
predicción a partir de la vista S0, también cada 8 tramas. Finalmente, el resto de imágenes se
predicen bidireccionalmente a partir de las imágenes próximas en tiempo y espacio (entre
vistas).
En realidad, el esquema de predicción puede llegar a ser mucho más complejo que el que
muestra la figura y por eso se han propuesto nuevas herramientas de predicción que se
puedan combinar con cualquier estructura de predicción.
2.5.4 CODIFICACIÓN PARA EL FORMATO MVD
Para formatos avanzados como este, la codificación se vuelve compleja debido a la cantidad de
información que se genera, MVD resulta una combinación de V+D y MVC. La codificación es en
principio basada en la técnica MVC original, no obstante en términos prácticos se puede hablar
de una codificación MVD.
La codificación en MVD funciona, dentro de un esquema global, de acuerdo a lo expuesto en la
figura 2.28.
11
Karsten Müller; “Representation and Coding Formats for 3D Video”; Conference Session 3DTV Content; IEEE Broadcast Technology Society; 2009 Alemania.
37
Figura 2.28 Cadena de transmisión en MVD12
Se observa que el codificador genera una única señal para la transmisión, la cual contiene la
información de las n vistas y su respectiva profundidad. El modo de predicción en este caso
varía ya que toma, adicionalmente, la información de profundidad. Este proceso de predicción
se detalla en la Figura 2.29.
Figura 2.29 Modo de predicción de imágenes para MVD
La codificación y predicción son basadas en MVC, tomando en cuenta que se van a generar
más señales del vídeo, el diagrama de bloques del codificador es más complejo.
12
“Compression for 3DTV - with special focus on MPEG standards”; Dr.-Ing. Aljoscha Smolid Fraunhofer HHI Image Processing Department; Alemania 2007.
38
2.5.5 CODIFICACIÓN PARA EL FORMATO LDV
Este formato es sin duda más preciso y de mayor calidad que los anteriores, y por ello su
codificación también resulta más compleja. Se puede aplicar el mismo MVC a estas señales,
haciendo un proceso similar al de MVD, donde las informaciones adicionales entran como
vistas extras al codificador MVC. Bajo esta premisa se puede aplicar el H.264 sin problema.
Es notorio que se puede recurrir en una complejidad mayor para los codificadores y en un flujo
de bits mucho mayor al que se pueda manejar para broadcasting. Por ello la compañía 3DTV
Solutions™ en pro de la calidad ha propuesto todo un esquema para este formato basándose
en su propio esquema de codificación LDV, donde se explota al máximo la relación entre todas
las capas y las vistas permitiendo posteriormente una efectiva reconstrucción a tasas de bits
más accesibles. Sin embargo una desventaja de esta propuesta es que requiere una gran
exactitud en los mapas de profundidad, de no ser así se generarán resultados erróneos.
2.5.6 CODIFICACIÓN PARA EL FORMATO DES
No cabe duda que para este formato se debe manejar el mismo criterio que para LDV y MVD; a
tal cantidad de información si bien es cierto MVC no se puede aplicar, ya que resultaría de gran
complejidad su implementación.
2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265
Se espera que el más reciente estándar de compresión, el códec de vídeo de alta eficiencia
(HEVC, por sus siglas en inglés), también conocido como H.265, se convierta en el estándar de
vídeo preferido en la próxima década.
Igual que todas las generaciones anteriores de tecnología de compresión de vídeo, el estándar
HEVC promete reducir el costo global de difusión y almacenamiento de activos de vídeo y al
mismo tiempo mantener o incrementar la calidad de la experiencia del espectador.
Sin sacrificar la calidad del vídeo, el HEVC puede reducir el tamaño de un archivo de vídeo o
flujo de bits hasta en un 50%, en comparación con el estándar AVC/H.264 o hasta en 75%, en
comparación con los estándares MPEG-2. El resultado es una reducción en los costos de
almacenamiento y transmisión de vídeo. De igual manera, el nuevo códec prepara el camino
para difundir contenido de más alta definición a fin de ofrecer al consumidor una experiencia
de más alta calidad.
El HEVC, diseñado para el avance de la industria de compresión de vídeo, tiene el propósito de:
Proporcionar un promedio de reducción de la tasa de bits de 50% para obtener una
calidad de vídeo fija, en comparación con el H.264.
Proporcionar mayor calidad con la misma tasa de bits.
Definir una sintaxis estándar para simplificar la implementación y maximizar la
interoperabilidad.
Seguir propiciando el trabajo en red, es decir, en flujos de transporte MPEG.
39
Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización
Mientras que el H.264 tiene siete perfiles (conjuntos definidos de herramientas de codificación
empleados para crear un flujo de bits que cumpla con los estándares), el HEVC define
actualmente tres: Main, Main 10 y Main Still Picture. Se espera que futuras extensiones del
códec HEVC incluyan un aumento de la profundidad de bits, muestreos de color 4:2:2 y 4:4:4,
MVC (codificación de vídeo multivista) y SVC (codificación de vídeo escalable).
El perfil Main del HEVC permite una profundidad de bits de 8 bits por color, mientras que Main
10 permite 8 bits o 10 bits por color. Debido a la opción adicional de profundidad de bits, el
perfil Main 10 tiene la capacidad de ofrecer una mejor calidad de vídeo que el Main.
Finalmente, el perfil Main Still Picture permite codificar una sola imagen fija con las mismas
exigencias del perfil Main.
La especificación HEVC también define 13 niveles, que son conjuntos de restricciones que
indican el rendimiento requerido del decodificador para reproducir un flujo de bits del perfil
especificado. Los niveles están, a su vez, divididos en dos niveles: el Main, que incluye los
niveles 1 - 3.1, y el High, que incluye los niveles 4 - 6.2 y está diseñado para aplicaciones muy
exigentes. Los niveles del HEVC comparten ciertas similitudes con los del H.264, con la
diferencia fundamental de la adición de los niveles 6, 6.1 y 6.2, que definen los requerimientos
para vídeo con resolución 8K.
El principal objetivo del nuevo estándar HEVC es proporcionar las herramientas necesarias
para transmitir la cantidad más pequeña de información requerida para un determinado nivel
de calidad de vídeo.
40
Figura 2.31 Modos/macrobloque
Aunque hay varias diferencias entre los estándares H.264 y HEVC para codificar cada
macrobloque, vale la pena mencionar dos de ellas: el aumento de los modos de intra
predicción y una partición refinada para la inter predicción.
Intra predicción y codificación: En el estándar H.264 existen nueve modos de
predicción en un bloque de 4 x 4 para la intra predicción dentro de un determinado
cuadro y nueve modos de predicción en el nivel de 8 x 8. Es menor en el nivel del
bloque de 16 x 16, donde se reduce a solo cuatro modos de predicción. La intra
predicción busca calcular el estado de los bloques adyacentes en una dirección que
minimiza el error del cálculo.
En el HEVC existe una técnica similar, pero el número de modos posibles es 35 (acorde
con la complejidad adicional del códec). Esto implica la participación de un número
enormemente alto de puntos de decisión en el análisis, ya que hay casi dos veces el
número de tamaños de intra predicción espacial en el HEVC, en comparación con el
H.264, y casi cuatro veces el número de direcciones de intrapredicción espacial.
Inter predicción y codificación: El H.264 usa compensación de movimiento a partir de
bloques, el tamaño y la forma de los bloques es ajustable para buscar redundancia
temporal en los cuadros de un vídeo. La compensación de movimiento suele ser
considerada la porción más exigente del proceso de codificación. La habilidad para
implementarla de forma inteligente dentro del espacio de decisión tiene una gran
incidencia en la eficiencia del códec. El HEVC lleva esta capacidad a otro nivel.
El HEVC reemplaza la estructura de macrobloque del H.264 por un conjunto de
bloques en estructura de árbol más eficientes, pero también complejos. Cada bloque
puede ser más grande (hasta 64 x 64) que el macrobloque estándar de 16 x 16, y
puede ser dividido de forma eficiente usando un quadtree. Este sistema permite al
codificador una gran flexibilidad para usar grandes particiones cuando predicen bien y
particiones pequeñas cuando se necesitan predicciones más detalladas.
Esto permite una mayor eficiencia en la codificación, ya que se pueden codificar a bajo costo
grandes unidades de predicción (incluido el tamaño del bloque en estructura de árbol) cuando
se adaptan al contenido. Del mismo modo, cuando algunas partes del bloque necesitan
predicciones más detalladas, estas también pueden describirse de forma eficiente.
41
Con respecto al impacto del HEVC en el mundo de la compresión de vídeo, hay varios casos en
los que la mejor calidad en la proporción de la tasa de bits del HEVC tendrá incidencia en las
aplicaciones de la industria. Teniendo en cuenta que la difusión de vídeo de alta calidad
demanda enorme capacidad de red, los siguientes son algunos de los beneficios proyectados:
Utilización de más canales en redes satelitales, de cable y de televisión IPTV.
Menor costo de difusión de vídeo gestionado y no gestionado.
Mayor alcance para los operadores móviles y de televisión IPTV con restricciones de
ancho de banda.
Mejor calidad de la experiencia de los servicios de transmisión libre (OTT) de modo
que estén al mismo nivel de la difusión tradicional.
En el mercado de la transmisión móvil, la reducción de la tasa de bits del HEVC de 30 – 50%,
para alcanzar una calidad comparable al H.264, se materializa en ahorros en los costos de la
difusión en las redes. Los operadores móviles no tendrán que distribuir tantos datos para un
determinado nivel de calidad, reduciendo los costos y haciendo la reproducción más confiable,
a condición de que el hardware del dispositivo pueda decodificar sin problemas el HEVC.
El HEVC también se suma a la tendencia hacia vídeo de 4K y 8K Ultra HD de alta resolución en
el mercado dominante. Gracias a que la resolución 4K presenta cuatro veces el número de
píxeles que la 1080p, la eficiencia que brinda el HEVC hace mucho más viable la difusión de 4K.
Se espera que antes de finalizar la década, el HEVC sea ampliamente adoptado en distintas
aplicaciones, como la transferencia y difusión de vídeo, vídeo satelital, vídeo por cable, IPTV,
vídeo vigilancia, vídeo corporativo y videojuegos.