¿Cómo se gestionan las imágenes de referencia en la codificación de video?

En la codificación de video, las imágenes de referencia juegan un papel crucial en la predicción inter-codificada, que es una de las principales técnicas utilizadas para reducir la redundancia temporal en una secuencia de video. Este proceso permite aprovechar imágenes previamente decodificadas para predecir los bloques de imágenes actuales, lo que a su vez reduce la cantidad de datos que deben ser transmitidos. Para lograr esto, tanto el codificador como el decodificador mantienen búferes de imágenes de referencia (o buffers de imágenes decodificadas, DPB, por sus siglas en inglés), que contienen un conjunto de imágenes previamente codificadas que pueden ser utilizadas para la predicción.

Un aspecto clave de la estructura jerárquica de los grupos de imágenes (GoP) es la forma en que se organiza y selecciona el uso de estas imágenes de referencia. Las imágenes de referencia pueden clasificarse en imágenes de corto y largo plazo, dependiendo de su utilización y duración en el búfer. Las imágenes de corto plazo son aquellas que se mantienen por un periodo limitado, ya que se eliminan una vez que ya no son necesarias para la predicción de nuevas imágenes. En contraste, las imágenes de largo plazo permanecen en el búfer hasta que se eliminen explícitamente. Este sistema permite gestionar de manera eficiente el espacio en memoria y optimizar los procesos de decodificación y codificación.

El proceso de adición y eliminación de imágenes de referencia

En sistemas como el H.264 y el HEVC, la memoria de las imágenes de referencia es limitada, lo que significa que solo un número determinado de imágenes puede mantenerse en el búfer en un momento dado. Este límite es generalmente especificado por el estándar de codificación de video, o por las capacidades del decodificador, que se determinan mediante un parámetro conocido como nivel. Por lo tanto, cuando se añade una nueva imagen al búfer de referencia, es necesario realizar una gestión de memoria eficiente, lo que a menudo implica la eliminación de imágenes antiguas.

El proceso de eliminación de imágenes de referencia sigue ciertas reglas. Cuando una nueva imagen de corto plazo se codifica, el codificador debe eliminar una imagen previamente almacenada en el búfer para hacer espacio. Si el número de imágenes de referencia de largo plazo excede el número máximo permitido, se priorizan aquellas imágenes que no se usarán para futuras predicciones. Este enfoque asegura que el búfer de referencia no se sobrecargue y que se mantenga la eficiencia en la codificación y decodificación.

Organización y orden de las imágenes de referencia

El orden en el que se almacenan las imágenes de referencia también es fundamental para el proceso de predicción. En codificadores como H.264 y HEVC, se utiliza una lista ordenada de imágenes de referencia, que puede ser de una o dos listas (Lista 0 y Lista 1), dependiendo del tipo de predicción utilizada. Por ejemplo, en una imagen B (bidireccional), se puede predecir un bloque utilizando una imagen de la Lista 0, de la Lista 1, o incluso de ambas listas si se emplea la predicción biprediccionada.

En este contexto, la Lista 0 y Lista 1 contienen las imágenes de referencia en un orden específico que facilita la predicción. El orden de las imágenes en estas listas depende de varios factores, entre los cuales se incluyen el tiempo de visualización (por ejemplo, imágenes más cercanas a la imagen actual suelen aparecer primero) y la clasificación de las imágenes como de corto o largo plazo. Este orden predeterminado puede ser modificado mediante comandos específicos enviados a través del flujo de bits.

Eficiencia de la compresión y reducción de la tasa de bits

La estructura jerárquica de los grupos de imágenes (GoP) ofrece ventajas adicionales. Por un lado, permite reducir la tasa de bits de los clips de video, lo que es especialmente útil cuando se busca minimizar el uso de ancho de banda o el almacenamiento. Al eliminar algunas capas de imágenes de mayor jerarquía, como la capa 3 en el esquema mostrado en la Figura 6.66, es posible obtener un video con una menor frecuencia de cuadros (frame rate), pero manteniendo la posibilidad de decodificar exitosamente las imágenes restantes. Este tipo de estructura jerárquica no solo facilita la compresión del video, sino que también mejora la eficiencia en comparación con las estructuras no jerárquicas.

Importancia de comprender el funcionamiento de los buffers de imágenes de referencia

Es fundamental para quienes trabajan en la codificación y compresión de video entender cómo funciona la gestión de las imágenes de referencia. No se trata solo de almacenar y acceder a imágenes, sino de hacerlo de manera óptima para lograr la máxima eficiencia en términos de compresión y calidad del video. La correcta organización y eliminación de las imágenes de referencia influye directamente en la calidad visual del video decodificado, así como en la velocidad de procesamiento.

Además, se debe tener en cuenta que la optimización de los búferes de imágenes de referencia no es solo una cuestión de tecnología, sino también de diseño de sistemas que deben ser capaces de adaptarse a diferentes limitaciones de hardware. Cada nuevo desarrollo en los estándares de codificación, como el H.265 o HEVC, trae consigo mejoras en la gestión de estos búferes, lo que a su vez permite obtener videos de mayor calidad con menores requerimientos de ancho de banda.

¿Cómo afecta la cuantización y la transformación a la compresión de video en HEVC?

En los sistemas de compresión de video como HEVC (High-Efficiency Video Coding), los procesos de transformación y cuantización son fundamentales para reducir el tamaño de los datos sin perder demasiada calidad visual. La transformación se realiza mediante una técnica matemática que permite representar una imagen o video en el dominio de la frecuencia, lo cual facilita la identificación y eliminación de datos redundantes. Posteriormente, se aplica la cuantización, que reduce la precisión de los valores de frecuencia para optimizar aún más la compresión. Sin embargo, la elección de parámetros específicos en estos procesos tiene un impacto directo en la calidad del video y en el grado de compresión alcanzado.

En un bloque de coeficientes cuantizados L, el valor en la esquina superior izquierda representa el coeficiente DC, que tiene la mayor magnitud. A medida que nos desplazamos hacia la parte inferior derecha, los coeficientes AC de mayor frecuencia tienden a tener magnitudes más pequeñas. La relación entre estos coeficientes se ve influenciada por el proceso de cuantización, que ajusta la precisión de los valores de manera que la cantidad de información contenida en los bloques se reduce, sin eliminar la estructura visual básica.

Al aplicar una rescalificación y una transformación inversa, el bloque de coeficientes se ajusta mediante una serie de desplazamientos binarios y multiplicaciones. Estos procesos, aunque permiten recuperar los datos comprimidos, no garantizan que el bloque descodificado Y' coincida exactamente con el bloque original Y. Las diferencias en los coeficientes no nulos son evidentes, especialmente a medida que la cuantización reduce la cantidad de información representada en el bloque. Sin embargo, los coeficientes nulos permanecen igual a cero, lo que ayuda a preservar la estructura general de la imagen.

El impacto de la cuantización en la calidad de la imagen es considerable. A medida que aumenta el valor de QP (parámetro de cuantización), la diferencia entre el bloque original y el bloque descodificado crece, lo que provoca mayor distorsión debido a la compresión. Sin embargo, esto también reduce la cantidad de datos en el bloque cuantizado L, lo que facilita una mayor compresión. Por ejemplo, con un QP bajo, la diferencia entre el bloque original X y el bloque descodificado X′ es mínima, lo que significa menos distorsión. Pero al incrementar el QP, el bloque cuantizado L pierde más detalles, y la distorsión entre X y X′ aumenta.

En algunos casos, especialmente cuando la compresión no es significativa, puede ser más eficiente omitir el proceso de transformación y cuantización. Esto se conoce como "bypass de transformación y cuantización", y en situaciones donde el QP es muy bajo, puede reducir la carga computacional sin una pérdida significativa de calidad.

Por ejemplo, si se activa el bypass de transformación, un bloque de coeficientes puede ser escalado sin aplicar la transformación inversa. Esto puede ser útil cuando el objetivo es mantener una calidad de imagen lo más alta posible sin realizar complejas operaciones de transformación. El uso de PCM (Modulación de Amplitud de Pulso), en lugar de la transformación y cuantización tradicionales, es otro enfoque para reducir la complejidad computacional en escenas que no requieren predicción ni transformación.

Es importante notar que el proceso de transformación y cuantización no es uniforme en todos los casos. El modo de bypass puede ser aplicado selectivamente para bloques específicos, lo que permite una compresión más eficiente sin afectar toda la secuencia de video. En este caso, la cantidad de datos en los bloques se puede reducir considerablemente sin una pérdida de calidad perceptible.

La capacidad de personalizar los procesos de compresión, seleccionando diferentes configuraciones de QP o eligiendo si se deben aplicar la transformación y cuantización, otorga a los codificadores una flexibilidad significativa. Esta flexibilidad es esencial para adaptarse a las diversas necesidades de compresión de video, desde la maximización de la calidad en secuencias con bajos niveles de compresión hasta la reducción drástica del tamaño de archivo cuando la calidad puede sacrificarse.

En sistemas como H.266 (VVC), las transformaciones y cuantizaciones evolucionan para ofrecer una mayor versatilidad. Aunque los principios fundamentales siguen siendo los mismos, VVC incorpora matrices de transformaciones más pequeñas dentro de matrices más grandes, lo que mejora aún más la eficiencia de la compresión.

Es crucial comprender que los procesos de transformación y cuantización no son simplemente herramientas para reducir el tamaño del archivo. Son mecanismos que afectan directamente la calidad visual de los contenidos comprimidos. Por lo tanto, la selección del valor de QP, el uso de bypasses y el tipo de transformaciones aplicadas deben ser cuidadosamente balanceados dependiendo del tipo de contenido y los requisitos de compresión.

¿Cómo cambia la mentalidad nuestra realidad?
¿Es posible transformar la propiedad urbana para el bien público sin sacrificar la equidad?
¿Pueden las máquinas pensar y qué significa su inteligencia emergente?
¿Cómo la Agregación de Noticias Ha Transformado el Periodismo Actual?
¿Cómo afectan los contratos relacionales a la gestión de riesgos y el comportamiento oportunista en las relaciones comerciales?