¿Cómo han evolucionado los estándares y formatos de codificación de video entre 1990 y 2021?

Desde sus inicios, los estándares de codificación de video han experimentado una evolución significativa, motivada principalmente por el avance de la tecnología, la mejora en el poder de procesamiento de los dispositivos y la creciente demanda de contenidos de alta calidad. A lo largo de las décadas, varios formatos han emergido, adaptándose a nuevos requerimientos de eficiencia y flexibilidad. Entre estos, los más influyentes han sido H.264/AVC, H.265/HEVC y H.266/VVC, cada uno buscando superar las limitaciones del anterior, mientras permiten una mejor compresión y una mayor calidad de video, todo ello sin sacrificar el rendimiento.

El estándar H.264/AVC, lanzado por primera vez en 2003, ha sido uno de los más exitosos de todos los tiempos. Es ampliamente utilizado en una variedad de aplicaciones, desde la transmisión en línea hasta el almacenamiento de contenidos, y sigue siendo el estándar de facto en muchas áreas, incluso 20 años después de su lanzamiento. H.264 introdujo importantes mejoras con respecto a sus predecesores, como una mayor eficiencia en la compresión y el soporte para resoluciones de video más altas. A lo largo de su vida útil, este estándar ha visto varias actualizaciones, que incluyen mejoras en la codificación de video de alta fidelidad, codificación de video escalable y codificación de video multi-vista, permitiendo que se adapte a diversas situaciones de uso.

A partir de 2013, H.265/HEVC se presentó como sucesor de H.264 con la promesa de una mayor eficiencia de compresión, especialmente cuando se trabaja con resoluciones de video más altas, como 4K y video HDR. Este formato fue diseñado para aprovechar las mejoras en los procesadores de los dispositivos electrónicos y satisfacer las demandas de los nuevos tipos de contenido que comenzaron a popularizarse en ese entonces. H.265 no es compatible con versiones anteriores, pero comparte muchas de las técnicas fundamentales de su predecesor, añadiendo nuevas capacidades. Entre sus características clave, se destacan el uso de unidades de codificación (CTU) de tamaños variables, la predicción intra e inter-cuadro con mayor flexibilidad, y una compresión más eficaz a mayores resoluciones.

A pesar de estas ventajas, la adopción de H.265 no fue inmediata. Aunque los chips electrónicos y los dispositivos de consumo comenzaron a incluir soporte para H.265, el viejo H.264 siguió siendo dominante en muchos contextos. Sin embargo, en aplicaciones de streaming adaptativo, como DASH y HLS, el uso de H.264 para flujos de menor tasa de bits sigue siendo común, con H.265 usándose para contenidos de mayor resolución y cuando la eficiencia del ancho de banda es crucial.

En 2020, el estándar H.266/VVC llegó para continuar la tendencia de mejorar la eficiencia de compresión, esta vez buscando optimizar aún más el soporte para contenido de muy alta resolución y video en 360 grados. El nuevo estándar presenta características avanzadas, como un mayor número de modos de predicción intra y la capacidad de trabajar con transformaciones no cuadradas, entre otras innovaciones. H.266 no solo tiene como objetivo reducir el tamaño de los archivos de video, sino también mejorar la calidad percibida, adaptándose a las necesidades de aplicaciones emergentes como la realidad virtual y la grabación de video en ultra alta definición.

Además de estos estándares, existen otros formatos importantes como VC-1, basado en el códec WMV9 de Microsoft, y los formatos VP8, VP9 y AV1. Aunque VC-1 no se ha utilizado ampliamente, sigue siendo un ejemplo interesante de los intentos de optimizar la compresión de video en la era de la resolución estándar. Por otro lado, los códecs VP8, VP9 y AV1 han ganado popularidad en plataformas como YouTube, Google Meet y otros servicios de streaming que requieren una compresión de video eficiente y de código abierto. AV1, en particular, se posiciona como una alternativa competitiva frente a HEVC y H.266 debido a su naturaleza libre de royalties, lo que lo hace atractivo para las empresas que buscan evitar las tarifas asociadas con la patente de otros estándares.

En este panorama, el desafío sigue siendo el equilibrio entre la calidad del video, el tamaño del archivo y la capacidad de los dispositivos para decodificarlo sin comprometer la experiencia del usuario. Si bien los formatos más nuevos ofrecen una mejor compresión y mayores capacidades, la compatibilidad hacia atrás con los estándares más antiguos sigue siendo crucial, especialmente en el caso de dispositivos más antiguos y en aplicaciones donde los requisitos de ancho de banda son limitados.

Los avances en la codificación de video no solo están motivados por la mejora de la calidad y la eficiencia, sino también por el contexto de la creciente diversidad de dispositivos y aplicaciones. Desde la transmisión en vivo hasta la grabación de contenido de ultra alta definición, la codificación de video se enfrenta al desafío constante de adaptarse a las demandas del mercado sin perder la versatilidad que lo ha convertido en una tecnología esencial para nuestra era digital.

¿Cómo funcionan los procesos de transformación y cuantificación en HEVC?

HEVC (High Efficiency Video Coding) es un estándar de compresión de video avanzado que mejora significativamente la eficiencia en comparación con su predecesor, H.264. El proceso de codificación en HEVC involucra una serie de pasos fundamentales, entre los cuales los más críticos son la transformación y cuantificación de los datos de video. Estos pasos son esenciales para reducir la cantidad de datos sin perder calidad visual perceptible. A continuación, se describen los principales procesos implicados en la transformación y cuantificación en HEVC.

El proceso de transformación en HEVC se realiza a través de una operación matemática denominada transformación hacia adelante o forward transform. Esta transformación convierte los bloques de píxeles de una imagen o un cuadro en un dominio de frecuencias. En lugar de trabajar directamente con los valores de los píxeles de la imagen, la transformación utiliza las frecuencias espaciales para representar los datos, lo que facilita la posterior compresión. La transformación más comúnmente utilizada en HEVC es la Transformada Discreta de Coseno (DCT), que es eficiente en términos de procesamiento y reducción de redundancias espaciales.

Una vez que se ha realizado la transformación, el siguiente paso es la cuantificación. La cuantificación es un proceso en el cual los valores obtenidos en la transformación se redondean a un conjunto limitado de valores, lo que resulta en una pérdida de precisión. Aunque esta pérdida puede parecer una desventaja, es crucial para reducir la cantidad de datos necesarios para representar una imagen. Al aplicar la cuantificación, se eliminan las frecuencias de menor relevancia, aquellas que son más difíciles de percibir para el ojo humano, lo que permite una mayor tasa de compresión.

En HEVC, las matrices de cuantificación son elementos clave en el proceso de cuantificación. Estas matrices definen cómo se lleva a cabo la cuantificación de cada frecuencia transformada. Pueden variar dependiendo de la configuración de codificación y los parámetros específicos del video. El uso de diferentes matrices permite optimizar la compresión en función de las características particulares de cada secuencia de video, mejorando la eficiencia de la codificación.

El proceso completo de transformación y cuantificación no termina ahí. En algunos casos, es necesario realizar un re-escalado o rescaling de los valores cuantificados, para ajustarlos a los rangos apropiados antes de la siguiente fase de codificación. Esto ayuda a mantener la calidad visual al ajustar las frecuencias que han sido modificadas por la cuantificación.

A pesar de su eficacia, no siempre es necesario aplicar la transformación y cuantificación a todos los bloques de video. Existen técnicas que permiten omitir estos procesos en situaciones específicas, lo que se conoce como bypassing de la transformación o cuantificación. Por ejemplo, en algunas situaciones de alta calidad de imagen, se puede optar por el modo PCM (Modulación de Código de Pulsos), que evita los procesos de transformación y cuantificación para preservar todos los detalles originales de la señal de video. Esta opción, aunque aumenta el tamaño del archivo, puede ser útil en aplicaciones donde la calidad es prioritaria, como en la edición profesional de video.

Es relevante destacar que el proceso de transformación y cuantificación no solo afecta la calidad visual del video, sino también la eficiencia en términos de almacenamiento y transmisión. Un video mal cuantificado puede generar artefactos visibles, como bloqueos o distorsiones, que afectan negativamente la experiencia del espectador. Por lo tanto, la selección adecuada de los parámetros de cuantificación es crucial para lograr un equilibrio entre la calidad visual y la eficiencia en la compresión.

En el futuro, los avances en compresión de video, como los basados en el códec H.266 (VVC - Versatile Video Coding), continúan optimizando estos procesos, mejorando aún más la eficiencia y la calidad de la codificación. En H.266, tanto la transformación como la cuantificación siguen siendo fundamentales, pero los algoritmos están evolucionando para adaptarse mejor a las nuevas demandas de contenido de video de alta resolución y gran ancho de banda.

Es importante también entender que, aunque la transformación y cuantificación son esenciales para la codificación de video eficiente, no son los únicos procesos involucrados. La codificación de entropía, por ejemplo, juega un papel complementario en la reducción de datos y es esencial para maximizar la eficiencia en la compresión. A medida que los métodos de compresión evolucionan, se espera que estos procesos se vuelvan aún más sofisticados, integrando técnicas de aprendizaje automático y optimización en tiempo real para mejorar tanto la calidad como la eficiencia de la codificación de video.

¿Cómo se genera y selecciona un vector de movimiento en la codificación de video?

El proceso de predicción de movimiento es una parte fundamental en los códecs de video modernos, como H.264, HEVC y VP9, y juega un papel crucial en la compresión eficiente de datos. Existen diferentes métodos para generar y seleccionar vectores de movimiento, cada uno optimizado para una mayor eficiencia en la codificación y decodificación de los cuadros.

En primer lugar, uno de los enfoques más comunes es generar un vector de movimiento base a partir de los vectores de movimiento de bloques vecinos. Este método utiliza una técnica denominada predicción de vector de movimiento mediano, en la que el vector base se calcula como la mediana de tres vectores de movimiento de bloques vecinos cercanos. En el caso de los tamaños de bloque más pequeños en el códec H.264, la predicción base se realiza copiando los vectores de un bloque vecino de la izquierda o de uno situado por encima del bloque actual, como se ilustra en algunos ejemplos.

Sin embargo, existen otros métodos de predicción, como la creación de una lista de vectores de movimiento candidatos, que permite al codificador seleccionar el vector base a partir de una lista generada. En códecs como VP8 y VP9, se crea esta lista de vectores candidatos a partir de bloques vecinos, organizados de acuerdo con su frecuencia. Esta lista permite que el codificador elija el vector de movimiento más común o el más cercano a la posición de un bloque. Los parámetros específicos como "Nearest", "Near", "Zero" y "NewMV" son utilizados para determinar cuál de estos vectores es el seleccionado para el bloque actual.

Otro método consiste en generar un vector de movimiento base escalando un vector previamente codificado. Este enfoque se emplea en la modalidad de "Directa Temporal" de H.264, donde el codificador escala el vector de movimiento identificado en una imagen de referencia, ajustándolo según la distancia temporal entre el cuadro actual y las imágenes de referencia. De esta manera, se obtiene un vector base para la predicción del movimiento en el cuadro actual.

Un aspecto importante de la codificación de los vectores de movimiento es el uso de "vectores delta". Un delta es un valor que se añade al vector de movimiento base para generar un vector de movimiento más preciso. En códecs como H.265/HEVC y VP9, se codifica un delta para el vector de movimiento en situaciones donde es necesario una mayor precisión en la predicción. Sin embargo, existen modos, como el modo de "fusión" de HEVC, en el cual no se envía ningún parámetro delta. En estos casos, el codificador confía en la predicción del codificador anterior sin la necesidad de enviar información adicional, lo que permite una mayor eficiencia en la codificación.

Otro concepto relevante en la codificación de video es el "modo de salto" (Skip Mode). Este modo se emplea en situaciones donde la predicción es tan precisa que los bloques de residuos resultantes contienen información mínima o incluso nula. En este caso, el codificador no envía información adicional, ya que los bloques de residuos cuantizados son todos ceros. Este modo es particularmente útil en escenas con poca o ninguna variación, donde se reduce significativamente el tamaño de los datos necesarios para representar un cuadro.

Un factor crítico en la predicción de movimiento es que tanto el codificador como el decodificador deben utilizar la misma fuente de predicción para garantizar que se genere una predicción idéntica. Dado que la codificación de video es un proceso con pérdidas, esto implica que el cuadro decodificado no siempre será idéntico al original debido a distorsiones como los efectos de bloque y anillos. Esto es especialmente importante cuando se utiliza la predicción de movimiento interimagen, en la que los vectores de movimiento son fundamentales para reconstruir cuadros de manera precisa y eficiente.

A medida que los códecs evolucionan, las técnicas de predicción de movimiento continúan mejorando, buscando siempre reducir el tamaño del archivo mientras mantienen una alta calidad de imagen. Con el tiempo, la introducción de nuevas técnicas de predicción y la optimización de los algoritmos actuales permitirán una codificación más eficiente, lo que se traducirá en menores tiempos de procesamiento y una mejor experiencia de usuario al ver videos comprimidos.

¿Cómo gestionar de manera eficiente la descarga y carga de archivos en aplicaciones web?
¿Cómo funciona la inversión de control en el contenedor Spring?
¿Es el presidente estadounidense inmune a la ley durante su mandato?
¿Cómo mejorar tus puntos y texturas en crochet para un acabado profesional?
¿Cómo puede el sistema financiero superar el racismo estructural y apoyar a las comunidades marginadas?