Návrh specializované architektury pro predikci hloubkových map v rámci standardu 3D-HEVC vyžaduje důkladnou rovnováhu mezi výpočetním výkonem, energetickou efektivitou a kompatibilitou s existujícími predikčními režimy HEVC. Složení a činnost jednotky PC-3 ilustruje klíčové prvky takového návrhu. Základním vstupem jsou vzorky bloků, které se mají predikovat, a z nich se následně počítají rezidua. První použitý modul, DMM-1, obsahuje výpočetní jednotku pro gradienty, která stanovuje počáteční a koncové body šesti tzv. wedgeletů. Jakmile jsou tyto body určeny, bitmapa predikovaného bloku je generována pomocí Bresenhamova algoritmu, který definuje, které vzorky náleží ke které partici bloku.

Jedním z důležitých omezení Bresenhamova algoritmu je, že negarantuje předem známý počet bodů, které budou použity pro vykreslení linie. To znamená, že nelze dopředu odhadnout počet taktických hodinových cyklů potřebných pro výpočet. Architektura musí být proto navržena tak, aby pokrývala nejhorší možný případ tohoto algoritmu. Následuje výpočetní bloková jednotka, která zpracovává bitmapu po jednotlivých řádcích. Výstupem je generování řádků predikovaného bloku. Poté následuje výpočetník SAD (součet absolutních rozdílů), který analyzuje kvalitu predikce pro každý z šesti wedgeletů. Na závěr probíhá výběr nejefektivnější varianty pomocí komparátoru, a následně se vypočítá výsledné reziduum.

Představená architektura byla syntetizována pro ASIC technologii, což umožňuje detailní porovnání s ostatními návrhy. Mezi nejvýznamnější srovnávané práce patří návrhy od Sancheze (2014, 2016) a Amishe (2019). Na rozdíl od těchto přístupů, které jsou buď omezeny na DMM-4 nebo DMM-1 a DMM-4, či vyžadují externí paměť pro uložení wedgeletů, architektura v této práci pokrývá nejen DMM-1 a DMM-4, ale také predikční režimy převzaté z HEVC jako Planar, DC, horizontální a vertikální.

To, co tuto architekturu odlišuje, je schopnost zpracovat 3D-videa v rozlišení UHD2160p při 30 snímcích za sekundu s více než dvěma pohledy, a to bez potřeby externí paměti. Spotřeba energie činí pouhých 41,57 mW pro 9 pohledů v HD1080p rozlišení, přičemž pokrývá bloky všech podporovaných velikostí od 4×4 do 64×64. Pro srovnání, návrh od Sancheze (2016) vyžaduje 166,5 mW pouze pro jeden pohled v rozlišení HD1080p a bloky velikosti 32×32, bez uvedení spotřeby pro ostatní velikosti bloků.

Co se týče výkonnostních ukazatelů, tato architektura vykazuje nárůst BD-Rate o 2,64 % v syntetických pohledech pod RA konfigurací, což je důsledkem její komplexnosti a širší podpory predikčních módů. Naproti tomu návrh Sancheze (2016) dosahuje nárůstu pouze 0,09 %, ovšem za cenu omezení na pouhé dva predikční režimy. Podobně práce od Amishe (2019) dosahuje BD-Rate mezi 0,436 a 1,906 %, ale opět bez plné kompatibility s 3D-HEVC a s požadavkem na externí paměť.

Při pohledu na výpočetní náročnost v All-Intra (AI) profilu, zděděné HEVC režimy tvoří 12,1 % celkové doby kódování, zatímco DMM-4 a DIS dohromady tvoří méně než 9 %. Největší výpočetní zátěž představuje právě DMM-1, který vyžaduje 27,2 % kódovacího času. Přes svou náročnost je DMM-1 klíčový pro efektivní kódování hloubkových map.

Navzdory několika návrhům zaměřeným na HEVC predikci (např. Tseng, Xu, Correa, Fang, Ramos), pouze několik prací se zaměřilo výhradně na optimalizované hardwarové implementace DMM-1. Sanchez et al. (2019) předkládá škálovatelné řešení pro DMM-1 a DMM-4, které eliminuje fázi zpřesnění za účelem snížení náročnosti a spotřeby paměti. Toto rozhodnutí však vede k drobné ztrátě efektivity – konkrétně 0,09 % pokles BD-Rate. I přesto jejich architektura nedosahuje potřebné propustnosti pro zpracování více než jednoho pohledu HD1080p@30fps, a navíc dosahuje spotřeby 151,6 mW.

Je klíčové poznamenat, že MVD formát využívaný v rámci 3D-HEVC vyžaduje paralelní zpracování vícenásobných pohledů, což dále zvyšuje požadavky na výpočetní prostředky i energetickou optimalizaci návrhu. Proto je zásadní, aby hardwarová architektura podporovala všechny režimy predikce, minimalizovala potřebu externích pamětí a současně udržela nízkou spotřebu energie i při vysoké výpočetní zátěži.

Jak heuristiky s nízkou komplexností a přizpůsobitelný hardwarový design zlepšují efektivitu kódování v 3D kompresi

V oblasti 3D kódování a komprese videa je klíčovým faktorem efektivní správa hardwarových zdrojů při kódování různých kanálů, zejména pokud jde o vyhodnocování různých režimů predikce a kódování. S rozvojem metod, jako jsou heuristiky s nízkou komplexností, je možné podstatně snížit nároky na výpočetní výkon a zároveň dosáhnout kvalitní komprese. Jednou z takových metod je ICDSD (Inter-Channel Directional Structure Detector), která se zaměřuje na analýzu směrů mezi spojenými bloky predikce (PB) různých kanálů.

ICDSD se zaměřuje na to, jakým způsobem mohou být určité predikční režimy, jako jsou Planar, DC a DMM-4, vynechány při analýze druhého kanálu, pokud první kanál neobsahuje směrové charakteristiky. Tento přístup snižuje zbytečné vyhodnocování a šetří výpočetní výkon, což je zásadní pro hardware, který musí být optimalizován pro různé scénáře kódování. Naopak, pokud první kanál obsahuje směrové informace, je možné, že i druhý kanál bude mít podobné směrové charakteristiky. V tomto případě se vyhodnocují všechny režimy Angular a DMM-1 wedgelet, což znamená vyšší nároky na kódování, ale zároveň větší přesnost v zachycení těchto charakteristik.

Další zjednodušení procesu vyhodnocování se dosahuje pomocí heuristiky LC-ICDSD (Low-Complexity ICDSD), která omezuje analýzu na vyhodnocení pouze jednoho wedgeletu DMM-1 a jednoho Angular režimu, čímž výrazně snižuje výpočetní náročnost ve srovnání s plným vyhodnocováním všech možných režimů. Tento přístup je výhodný, když jsou směrné charakteristiky kanálů relativně jednoduché a umožňuje výrazné snížení spotřeby energie při kódování druhého kanálu. Na základě této metody je možné deaktivovat až 32 jednotek Angular a DMM-1, což přispívá k dalšímu snížení spotřeby.

Důležitým aspektem je, že tyto heuristiky, jako jsou IPHOC, ICDSD a LC-ICDSD, se implementují v různých úrovních náročnosti, což umožňuje přizpůsobit úroveň výpočetního úsilí v závislosti na požadavcích na kvalitu a čas kódování. V Levelu 0, kde se používá pouze IPHOC, je snížena velikost bloků a omezeno vyhodnocování wedgeletů, což přináší nízkou komplexnost při zachování přijatelných výsledků v kvalitě. Na druhé straně Level 1 a Level 2 přidávají sofistikovanější heuristiky, které umožňují analyzovat korelaci mezi kanály a dynamičtěji deaktivovat nevyužívané režimy, čímž optimalizují výpočetní čas a spotřebu energie.

Pokud jde o výsledky testování, bylo prokázáno, že použití těchto heuristik vede k výraznému zlepšení efektivity kódování. Například v konfiguraci RA (Random Access) a AI (All Intra) dochází k redukci doby kódování, přičemž v konfiguraci AI je snížení ještě výraznější, protože jsou použity pouze nástroje pro predikci mezi snímky. Významné úspory energie a času jsou dosaženy zejména při kódování druhého kanálu, kde je možné vynechat některé predikční režimy, pokud směrná informace z prvního kanálu naznačuje, že podobné režimy budou platné i pro druhý kanál.

Z pohledu hardwarového návrhu jsou tyto heuristiky velmi příznivé, protože se zaměřují na minimalizaci počtu režimů, které je nutné vyhodnotit. To znamená, že hardware může být optimalizován pro efektivní zpracování menšího počtu možných scénářů, což nejen zvyšuje rychlost kódování, ale také snižuje nároky na energii. Výrazné snížení výpočetní náročnosti vede k rychlejšímu zpracování dat a efektivnějšímu využívání hardwarových prostředků.

Je důležité si uvědomit, že použití těchto heuristik může mít i negativní dopad na kvalitu komprese, zejména pokud se příliš omezí vyhodnocování režimů, které mohou být relevantní pro zajištění vysoké kvality výsledného obrazu. Proto je nezbytné pečlivě vyvážit úroveň restrikce a potřebu optimalizace hardwaru, aby nedocházelo k nežádoucímu poklesu kvality.

Jaký je vliv barevných prostorů a komprese na efektivitu kódování videa?

Při hodnocení efektivity kódování videa je nezbytné pochopit různé aspekty barevných prostorů a metrik, které se používají pro měření kompresní efektivity. V této souvislosti je jedním z nejčastěji používaných barevných prostorů YCbCr, který se skládá ze tří komponent: luminance (Y), chrominance modré (Cb) a chrominance červené (Cr). Tento prostor se běžně používá v kompresi videa, protože odděluje informace o jasu (luminance) od barevných informací (chrominance), což umožňuje efektivnější zpracování dat.

Vzhledem k tomu, že lidský vizuální systém je citlivější na změny v jasu než v barvách, lze využít metody, které komprimují barevné informace s nižší přesností, aniž by došlo k významnému zhoršení vizuální kvality obrazu. Tuto techniku, známou jako subsamplování barev, používají videokodéry k úspoře dat. Například ve formátu 4:4:4, který zachovává stejné vzorkování pro luminanci a chrominanci, nedochází k žádné kompresi, ale obraz si udržuje svou kvalitu. Na druhé straně formát 4:2:0 používá pouze jeden vzorek pro každé barevné kanály na čtyři vzorky jasu, což vede k výraznému zmenšení velikosti souboru, přičemž ztráta kvality je téměř nepostřehnutelná pro lidské oko. Tento formát je v HEVC standardu používán jako výchozí, ale lze jej upravit na formáty 4:4:4 a 4:2:2 podle potřeby.

Když jde o měření efektivity komprese, existují dva hlavní přístupy: subjektivní a objektivní hodnocení. Subjektivní hodnocení se zakládá na vnímání diváků, kteří porovnávají originální a upravené video, zatímco objektivní metody používají matematické modely pro porovnání obou verzí videa. Mezi nejběžněji používané objektivní metriky patří Bitrate (bitová sazba) a PSNR (Peak Signal-to-Noise Ratio), ale pro komplexní hodnocení efektivity komprese jsou často používány specifické metriky, jako je BD-Rate a BD-PSNR.

BD-Rate měří procentuální změnu v bitové sazbě mezi dvěma testovanými případy při zachování stejné vizuální kvality. Pokud je BD-Rate kladné, znamená to, že pro dosažení stejné kvality obrazu je třeba zvýšit bitovou sazbu, což naznačuje nižší efektivitu komprese. Naopak negativní hodnoty BD-PSNR indikují, že pro zachování stejné bitové sazby dochází ke zhoršení kvality obrazu.

Pro efektivní hodnocení kompresních technik je zásadní použít standardizované podmínky testování, jako jsou ty, které doporučuje skupina JCT-3V. Tento dokument specifikuje testovací sekvence videa, které by měly být použity pro experimenty s referenčním softwarem 3D-HTM, a také určuje strukturu predikce mezi záběry (Inter-View prediction) a další parametry, jako je použití 8bitových vzorků pro texturu a hloubku a časové struktury s GoP (Group of Pictures).

Pokud jde o hodnoty kvantizačního parametru (QP), doporučuje JCT-3V pro testování čtyři hodnoty: 25, 30, 35 a 40. Tyto hodnoty jsou použity jak pro textury, tak pro jejich odpovídající mapy hloubky. Zvolená QP hodnota určuje úroveň komprese, přičemž nižší hodnota znamená vyšší kvalitu obrazu, ale větší bitovou sazbu.

Důležitým faktorem při hodnocení efektivity komprese je i správná volba testovacích podmínek a metod pro měření ztrát kvality. Použití metrik jako BD-Rate a BD-PSNR je zásadní pro získání objektivního porovnání mezi různými kódovacími technikami, a to i v situacích, kdy je rozdíl v bitové sazbě a kvalitě obrazu minimální.

Kromě těchto technických parametrů je klíčové si uvědomit, že v reálných aplikacích komprese videa často není cílem pouze maximalizovat kvalitu obrazu, ale také dosáhnout optimální rovnováhy mezi kvalitou a velikostí souboru. V tomto kontextu hraje efektivita kódování zásadní roli v širším spektru aplikací, od streamování videa až po uchovávání a přenos video dat v různých formátech a prostředích.