En las pruebas de calidad visual de video, una de las metodologías más utilizadas es el Sistema de Calificación de Calidad Subjetiva por Diferencia de Secuencias (DSCQS, por sus siglas en inglés), el cual consiste en evaluar dos secuencias de video en cada prueba: una secuencia original (sin modificaciones) y otra modificada por un sistema o proceso bajo prueba. Durante la sesión de prueba, el evaluador asigna una calificación a cada par de secuencias sobre una línea continua con cinco intervalos que varían de Excelente a Malo. El evaluador no sabe cuál de las dos secuencias es la original y cuál la modificada, ya que la asignación de las secuencias A y B se aleatoriza. Esto evita que el evaluador sesgue su juicio y compare de manera inadecuada las secuencias, lo cual podría influir negativamente en los resultados de la prueba. Al finalizar la prueba, las calificaciones se normalizan para obtener un resultado que se expresa comúnmente como una puntuación de Opinión Promedio Media (MOS), que refleja la calidad relativa entre las secuencias de referencia e imparcial.

A pesar de ser una medida ampliamente aceptada de la calidad subjetiva visual, el sistema DSCQS presenta ciertas limitaciones. La variabilidad en los resultados puede depender de diversos factores, como la experiencia del evaluador y las características del video en cuestión. Un evaluador experto, especialmente si tiene experiencia en distorsiones o artefactos derivados de la compresión de video, podría dar una puntuación sesgada, enfocándose de manera excesiva en las imperfecciones del video. Por esta razón, se recomienda usar evaluadores no expertos, lo que implica que se necesita una gran cantidad de personas para realizar las pruebas. No obstante, este enfoque presenta un desafío práctico considerable, ya que los evaluadores no expertos tienden a volverse expertos rápidamente al aprender a reconocer artefactos característicos en los videos, lo que aumenta tanto el costo como el tiempo requerido para llevar a cabo las pruebas de calidad visual subjetiva.

Ante las dificultades inherentes a la medición subjetiva de la calidad visual, los desarrolladores de sistemas de compresión y procesamiento de video se han orientado hacia métricas objetivas que utilicen algoritmos para calcular la calidad sin depender de evaluaciones humanas. Entre estas métricas objetivas, una de las más utilizadas es la relación de señal a ruido de pico (PSNR, por sus siglas en inglés), la cual mide la calidad de un video en función de la diferencia entre una imagen original e imparcial y una imagen alterada. El PSNR se calcula en una escala logarítmica y depende del error cuadrático medio (MSE, por sus siglas en inglés), que a su vez se expresa en decibelios. Un valor más alto de PSNR indica una mejor calidad visual, pero esta métrica tiene sus limitaciones. Por ejemplo, para calcular el PSNR, es necesario contar con una versión no alterada de la imagen, lo cual no siempre está disponible. Además, aunque en general un PSNR alto indica una buena calidad de imagen, la relación no siempre se traduce directamente en la percepción subjetiva de calidad visual.

A pesar de sus limitaciones, el PSNR sigue siendo útil en la comparación de diferentes versiones de un mismo video, sobre todo cuando se analizan diferentes configuraciones de compresión. Sin embargo, no siempre es adecuado para realizar comparaciones entre distintos tipos de material de video. Esto ha llevado al desarrollo de métricas objetivas más sofisticadas que intentan predecir de manera más precisa los resultados de las pruebas subjetivas. Ejemplos de estas métricas incluyen el Índice de Similitud Estructural (SSIM), el PSNRplus y el Modelo de Calidad de Video Predictivo (MOSp). Estas métricas se han mostrado más eficaces en la correlación con las puntuaciones de calidad subjetivas, alcanzando una correlación de entre el 70% y el 90%.

Sin embargo, el desarrollo de métricas objetivas confiables para medir la calidad visual de los videos sigue siendo un desafío. En 2008, la Recomendación ITU-T J.247 propuso cuatro métricas de calidad de video que podrían considerarse de referencia en el ámbito de la medición de calidad visual. Estas métricas se basan en el alineamiento temporal y espacial de las secuencias originales y degradadas, y calculan diversos parámetros de degradación como el desenfoque, los bordes generados por la compresión y los artefactos de bloques. A pesar de que los métodos de referencia completa han mostrado buenas correlaciones con las evaluaciones subjetivas (entre el 77% y el 84%), estos no son adecuados en situaciones donde no se dispone de una copia original del video, lo cual es común en muchas aplicaciones prácticas, especialmente cuando se trabaja con contenido generado por los usuarios.

Uno de los desarrollos más prometedores en este campo es el VMAF (Video Multimethod Assessment Fusion), que ha demostrado correlaciones superiores al 90% con los resultados de pruebas subjetivas. Este enfoque ha sido integrado en herramientas de software como FFMPEG, lo que facilita su adopción en procesos de análisis de calidad de video.

Al final, es crucial entender que, aunque las métricas objetivas como el PSNR o el VMAF proporcionan una aproximación rápida y económica para evaluar la calidad de un video, su capacidad para replicar la experiencia humana en la percepción visual de calidad sigue siendo limitada. El entorno real de visualización, las características subjetivas de cada observador y las condiciones específicas de cada material de video influirán siempre en cómo se percibe realmente la calidad. Por esta razón, las mediciones objetivas siguen siendo complementarias a las pruebas subjetivas, y ambas deben ser utilizadas de manera conjunta para obtener una evaluación precisa y completa de la calidad del video.

¿Cómo ha evolucionado la compresión de video y qué diferencias existen entre los estándares actuales?

La compresión de video, tal como la conocemos hoy, ha sido el resultado de décadas de evolución en la codificación y los estándares que han transformado la manera en que consumimos contenido visual. Desde los inicios de los métodos rudimentarios hasta los sofisticados algoritmos actuales, la tecnología ha avanzado significativamente. En este recorrido, se ha construido un marco conceptual fundamental que ha sido desarrollado y perfeccionado a lo largo de más de 70 años, influenciado por la investigación y la experimentación constante.

En sus primeras etapas, la compresión de video no era tan eficiente como hoy en día. En sus orígenes, los investigadores se centraron en métodos básicos para reducir la redundancia de los datos, como la codificación aritmética (Rissanen, 1976) y los transformadores de imágenes, como el Discrete Cosine Transform (DCT) (Ahmed et al., 1974). Estos avances sentaron las bases de los algoritmos de compresión que aún se utilizan en la actualidad. Sin embargo, la verdadera revolución comenzó cuando los investigadores comenzaron a aplicar la predicción de movimiento en la codificación de video, lo que permitió la predicción de los cuadros de video y la reducción de la cantidad de datos necesarios para describir la imagen completa.

La técnica de la predicción intercuadro, que implica el análisis de las diferencias entre los cuadros consecutivos, fue otro de los hitos importantes en la evolución de la compresión de video. Este enfoque fue desarrollado a lo largo de los años por diversos grupos de investigación, y se concretó en el diseño de sistemas de codificación como H.261 (1990) y MPEG-2 (1995), que ya implementaban esta predicción intercuadro de manera más avanzada, permitiendo una compresión eficiente de los datos sin perder calidad visual perceptible para el ojo humano.

Con el avance de la tecnología, los estándares se fueron haciendo más complejos y sofisticados. La evolución de los códecs, desde el H.263 (1996) hasta el H.264/AVC (2003) y el H.265/HEVC (2019), ha sido un proceso continuo de mejora en la eficiencia de la compresión y en la calidad del video. Cada uno de estos estándares ha sido diseñado con un enfoque más específico, respondiendo a necesidades emergentes, como la transmisión de videos de alta definición o la transmisión en redes de baja capacidad. El HEVC, por ejemplo, permite una compresión mucho más eficiente en comparación con su predecesor H.264, lo que es crucial para la transmisión de video en 4K y más allá.

Sin embargo, la implementación de estos estándares no es una tarea sencilla. La interpretación y los resultados de las pruebas de desempeño de cada códec pueden variar dependiendo de los materiales de prueba utilizados, la implementación específica del códec y la metodología aplicada en las pruebas. Esta variabilidad puede llevar a conclusiones divergentes, incluso entre los equipos de investigación más experimentados. Es por eso que los estándares de video actuales no son uniformemente aplicados de la misma manera, y las decisiones sobre qué códec utilizar dependen de varios factores como el tipo de contenido, la plataforma de distribución y los requisitos específicos de calidad y rendimiento.

Los avances tecnológicos en compresión de video también han estado acompañados de una creciente preocupación sobre los derechos de propiedad intelectual y la competencia entre los diversos estándares. Los códigos y algoritmos utilizados en estos códecs a menudo están cubiertos por patentes, lo que ha dado lugar a complicaciones en la implementación de ciertas tecnologías. La estandarización de estos métodos, a través de organismos como el ITU-T y la ISO, busca equilibrar las necesidades de innovación y protección de derechos de propiedad intelectual con la necesidad de una adopción global de tecnologías interoperables.

Es importante también destacar que, aunque la tecnología de compresión de video ha avanzado enormemente, los desafíos persisten. La transición a resoluciones más altas, como la ultra alta definición (UHD), y el crecimiento de la demanda de contenido en vivo en tiempo real han creado nuevos retos. Los sistemas de codificación deben ser cada vez más flexibles para adaptarse a diferentes dispositivos, capacidades de red y tamaños de archivo, manteniendo al mismo tiempo una calidad de imagen que satisfaga las expectativas del consumidor moderno.

Además de los avances técnicos, es fundamental considerar el impacto económico y social de estas tecnologías. La digitalización del video ha revolucionado industrias enteras, desde el entretenimiento hasta las telecomunicaciones, pero también ha generado un debate sobre la accesibilidad y la equidad en el acceso a tecnologías de alta calidad. La adopción de nuevos códecs puede influir en la infraestructura global de comunicación y en las decisiones empresariales de compañías que operan en sectores de transmisión de medios y plataformas de video bajo demanda.

El lector debe entender que la evolución de la compresión de video no solo es un proceso técnico, sino también un fenómeno interconectado con el desarrollo económico, social y político. Los avances en este campo son impulsados tanto por la necesidad de mejorar la eficiencia tecnológica como por la exigencia de adaptarse a un mundo que cada vez depende más del contenido digital para el trabajo, el ocio y la comunicación cotidiana.

¿Cómo funcionan la transformación y la cuantización en la codificación de video?

En la codificación de video, uno de los pasos cruciales para reducir el tamaño de los datos es la aplicación de la transformación y la cuantización sobre los bloques residuales de la imagen. La codificación de video se realiza mediante un proceso iterativo que predice los valores de cada bloque a partir de su contexto, y luego, sobre esos valores predichos, se calcula la diferencia, conocida como "residual". Este residual es lo que se somete a los procesos de transformación y cuantización antes de ser comprimido en un flujo de bits.

La transformación tiene como objetivo reestructurar la información de un bloque de píxeles en una representación más eficiente para su compresión. Típicamente, un bloque transformado convierte los valores de los píxeles en una nueva base, donde los componentes más significativos se agrupan en las primeras posiciones. Este proceso se realiza utilizando transformaciones matemáticas, como la Transformada Discreta de Coseno (DCT) o la Transformada Discreta de Fourier (DFT), que permiten representar la información de la imagen de una forma que facilita la posterior compresión.

En la imagen transformada, las componentes que contienen la información visual importante tienden a concentrarse en los primeros coeficientes, en la parte superior izquierda del bloque. Los valores menos significativos, que aportan poca o ninguna diferencia visual, quedan en las posiciones inferiores del bloque. Esto facilita el siguiente paso: la cuantización.

La cuantización, por su parte, es un proceso donde se reducen los valores numéricos de los coeficientes, eliminando aquellos de menor magnitud y estableciendo muchos de ellos a cero. A través de la cuantización, se pierde información, lo que convierte este paso en un proceso irreversible y con pérdida. Sin embargo, esta pérdida de información es controlada y ajustable, lo que permite un equilibrio entre la calidad visual y la tasa de compresión. Un nivel de cuantización más alto significa una mayor compresión, pero también una mayor degradación en la calidad de la imagen. En contraste, una menor cuantización preserva más detalles de la imagen pero reduce la eficiencia de la compresión.

El proceso de cuantización es, por lo tanto, fundamental en la compresión de video. Este reduce el número de coeficientes significativos, agrupándolos en las primeras posiciones del bloque y llevando a que muchos de los coeficientes se establezcan en cero. Este comportamiento hace que la representación del bloque cuantizado sea altamente eficiente, pues se puede utilizar una codificación más compacta para representar estos coeficientes.

En cuanto al decodificador, el proceso inverso se realiza al rescalar los coeficientes cuantizados y aplicar la transformación inversa. El decodificador no puede recuperar exactamente los valores originales de los coeficientes debido a la pérdida causada por la cuantización, pero puede aproximarse a ellos mediante una reconstrucción que utiliza el factor de escala invertido. Este proceso da lugar a una aproximación de la imagen original, aunque con cierta pérdida de calidad.

Es importante entender que la elección de la transformada y el grado de cuantización tienen un impacto directo en la calidad del video final. Las mejores transformaciones son aquellas que permiten una agrupación eficiente de la información visual en pocos coeficientes significativos, mientras que el ajuste de la cuantización permite balancear la calidad visual y la eficiencia en términos de compresión.

La implementación de estas técnicas varía según el códec utilizado. En el caso del códec HEVC (High Efficiency Video Coding), se utilizan transformadas y técnicas de cuantización avanzadas que permiten obtener una excelente relación entre calidad de imagen y tasa de compresión, siendo utilizado ampliamente en aplicaciones como la transmisión de video en alta resolución y la compresión de archivos de video.

Es crucial que tanto los codificadores como los decodificadores estén alineados en cuanto a los parámetros de la transformada, la cuantización y el proceso inverso para garantizar la interoperabilidad entre diferentes dispositivos y aplicaciones. Esta alineación permite que los sistemas de codificación y decodificación funcionen de manera efectiva y sin pérdidas significativas de información.

Para los profesionales de la programación y el diseño de hardware, implementar estos procesos de manera eficiente es un reto importante. Los algoritmos deben ser suficientemente rápidos y precisos para manejar los grandes volúmenes de datos que se generan en la codificación de video, sin sacrificar demasiado la calidad. Las aplicaciones de software y hardware deben ser capaces de manejar tanto las transformaciones como la cuantización de manera óptima, adaptándose a las necesidades específicas de cada contexto, ya sea en tiempo real o en procesamiento por lotes.

Es importante que el lector entienda que tanto la transformación como la cuantización no solo afectan la calidad del video, sino también la eficiencia de la compresión, lo que influye en la cantidad de datos que se necesitan para representar una secuencia de video. Conocer cómo funcionan estos procesos y cómo pueden ajustarse es esencial para cualquier persona involucrada en la codificación, transmisión o almacenamiento de video digital.

¿Cómo se lleva a cabo la codificación de entropía en HEVC y qué factores la afectan?

El codificador HEVC (High Efficiency Video Coding) emplea una serie de técnicas avanzadas para optimizar la codificación de video, con un enfoque en la eficiencia de la codificación de entropía. La codificación de entropía es fundamental para la compresión, ya que permite representar la información de manera más compacta, minimizando la cantidad de datos necesarios para representar los bloques de imagen. Esto se logra aprovechando las estadísticas de los coeficientes transformados y las relaciones espaciales y temporales entre los bloques.

En el proceso de codificación HEVC, las transformaciones de bloques (TBs) se realizan de manera que los coeficientes estadísticamente relacionados se agrupan de forma eficiente. Los bloques de mayor tamaño se dividen en TSBs de 4×4, y cada TSB se escanea en varias pasadas, permitiendo que la información relacionada se agrupe de manera que sea más fácil de comprimir. Este enfoque no solo mejora la eficiencia de la compresión, sino que también permite ejecutar varios pasos de procesamiento en paralelo o en un pipeline, lo que mejora la velocidad y eficiencia del proceso global.

Un aspecto clave del proceso es el manejo de los coeficientes, que incluyen tanto los valores absolutos como los signos. La codificación de los signos de los coeficientes y los valores absolutos restantes permite reducir el tamaño de los datos transmitidos, especialmente cuando algunos coeficientes se eliminan o se ajustan durante el proceso de transformación. En este contexto, las posiciones de los coeficientes y su magnitud juegan un papel importante en cómo se estructuran los datos para la codificación.

Otro factor esencial en la codificación HEVC es la predicción de bloques, tanto intra como inter. Los modos de predicción intra son aquellos en los que el bloque se predice a partir de sus vecinos dentro de la misma imagen. HEVC utiliza una lista de modos candidatos, seleccionados según los bloques ya codificados que comparten características similares con el bloque en cuestión. De esta manera, se puede reducir el número de modos posibles a codificar, optimizando el proceso. En cuanto a la predicción inter, que se basa en la predicción de bloques de otras imágenes, el codificador selecciona un vector de movimiento y un índice de referencia de bloques previamente codificados, de manera que se minimice la información adicional necesaria para la codificación.

Una parte crucial del proceso de codificación es la cuantificación. En HEVC, la cuantificación de los coeficientes transformados se controla a través de un parámetro denominado QP (Quantization Parameter). Este parámetro, que se ajusta a lo largo de la codificación, determina cómo se rescalan los coeficientes transformados antes de la transformación inversa en el decodificador. El QP se puede modificar mediante una señalización delta QP, lo que permite una mayor flexibilidad en la codificación, especialmente cuando se trabajan con grupos de bloques que comparten parámetros de cuantificación similares.

El proceso de binarización también es esencial para la codificación de entropía. Existen más de 50 elementos sintácticos diferentes que deben ser binarizados antes de ser codificados utilizando CABAC (Context-based Adaptive Binary Arithmetic Coding). Estos métodos incluyen la longitud fija, el truncamiento Rice y la codificación Exp-Golomb, entre otros. Cada uno de estos métodos se aplica dependiendo del valor y la frecuencia del elemento sintáctico, permitiendo una codificación más eficiente al adaptar el tamaño del código a las características estadísticas de los datos.

Finalmente, el codificador de aritmética binaria (BAC) empleado en HEVC es crucial para la representación precisa de los datos. A diferencia de otros métodos de codificación, donde se subdivide el rango de codificación en función de los valores binarios 0 y 1, en HEVC se utiliza un enfoque más sofisticado, con la subdivisión del rango basada en la probabilidad de que el valor codificado sea 0 o 1. Esta técnica mejora la precisión y la eficiencia al adaptar la subdivisión del rango en función de las probabilidades.

Es fundamental entender que la eficiencia de la codificación en HEVC no solo depende de las técnicas de codificación de entropía y de la predicción, sino también de la interacción de todos estos elementos dentro del sistema de compresión. La correcta aplicación de estas estrategias puede significar una reducción significativa en el tamaño del archivo sin perder calidad perceptual en la imagen. Además, dado que la codificación en HEVC está basada en una serie de pasos interrelacionados, la optimización de cada uno de ellos es crucial para obtener una compresión eficiente y efectiva.