Intra-frame predikce v rámci 3D-HEVC je klíčovým nástrojem pro efektivní kódování hloubkových map. Při vývoji hardwarových řešení této technologie se uplatňují různé techniky optimalizace s cílem snížit výpočetní náročnost a energetickou spotřebu, aniž by došlo k výrazné ztrátě kvality výsledného obrazu.

V popsaném hardwarovém designu jsou využity menší moduly DIS a částečné výstupy SAD, které poskytují hodnoty podobnosti pro větší DIS moduly. Pro zlepšení energetické efektivity se uplatňuje technika clock-gating, tedy řízení hodinových pulsů v jednotlivých částech hardwaru – konkrétně v DIS modulech, SAD stromech a akumulátorech pro různé velikosti bloků (16 × 16, 32 × 32 a 64 × 64). Tyto techniky umožňují významné snížení spotřeby energie, protože části obvodu nejsou aktivní, pokud zrovna nepracují.

Porovnávací modul vybírá nejlepší hodnotu SAD (Sum of Absolute Differences) z několika predikčních módů a tím volí nejvhodnější predikci pro každý zpracovávaný blok (CU). Celý proces kódování jednoho bloku 8 × 8 vyžaduje 13 hodinových cyklů. Využití datového opakování a řízení hodin zajišťuje zvýšení efektivity i rychlosti zpracování.

Při syntéze tohoto hardwaru pro ASIC technologii bylo dosaženo provozních frekvencí přesahujících 550 MHz, což umožňuje reálné zpracování videa v rozlišení UHD 2160p při 60 snímcích za sekundu, a to i při zpracování pěti pohledů zároveň. Srovnání dvou verzí architektury – neoptimalizované a optimalizované – ukázalo, že implementace datového opakování a clock-gatingu vedla k výraznému snížení spotřeby energie až o 23 % při vysokých rozlišeních, přičemž celkové využití hardwarových zdrojů zůstalo téměř nezměněné, s nárůstem pouze o 1,09 %.

Použití SAD jako kritéria podobnosti navíc zjednodušuje proces oproti nákladnější metodě SVDC, která by vyžadovala složitější renderingové výpočty. Tím je celkový hardwarový návrh nejen efektivnější z hlediska rychlosti a spotřeby energie, ale i jednodušší na implementaci.

V rámci hloubkové intra-frame predikce byla provedena rozsáhlá statistická analýza využití jednotlivých predikčních módů a velikostí bloků. Ukázalo se, že nástroj DIS pokrývá více než 81 % pixelů hloubkových map, zatímco zbylé módy dohromady tvoří necelých 19 %. Mezi další významné predikční módy patří Planar, DMM-4, DMM-1, DC, Vertical a Horizontal, které dohromady pokrývají přes 72 % pixelů mimo DIS. Nejčastěji využívané velikosti bloků jsou velké bloky 32 × 32 a 64 × 64, zatímco menší 4 × 4 bloky jsou v praxi zcela marginální.

Na základě těchto zjištění byla navržena heuristika omezující zpracování pouze na sedm nejvýznamnějších módů a čtyři nejpoužívanější velikosti bloků, což představuje zpracování více než 94 % pixelů hloubkových map. Tím je výrazně snížena výpočetní náročnost, což zároveň přispívá k další úspoře energie a zrychlení celého procesu.

Důležitým faktorem je rovněž skutečnost, že i když DIS dominuje v pokrytí pixelů, ostatní módy nejsou méně důležité, protože zvládají lépe ostřejší hrany a směrové struktury, které jsou zásadní pro správnou syntézu obrazu z více pohledů.

Významné je také porozumění tomu, že optimalizace hardwaru pro 3D-HEVC Intra-frame predikci není jen o snížení spotřeby a zrychlení, ale i o zachování kompatibility se standardem a o vyvážení mezi kvalitou obrazu a náklady na výpočetní výkon. Zvolená strategie omezení počtu módů a velikostí bloků na nejvýznamnější položky je kompromisem, který umožňuje efektivní implementaci bez zásadních ztrát ve vizuálním výsledku.

Navíc, použití technik jako datové opakování a řízení hodinové frekvence, spolu s výběrem jednodušších metrik podobnosti, představuje komplexní přístup k návrhu low-power systémů, které mohou být využity v široké škále aplikací vyžadujících real-time zpracování obrazových dat s vysokým rozlišením.

Jak efektivně navrhnout hardwarové architektury pro 3D-HEVC kódování využívající MVD

Cílené zaměření na kódování MVD (Motion and Disparity Vector Difference) je zásadní pro vývoj vysoce výkonných a energeticky efektivních architektur v oblasti 3D videa, konkrétně u standardu 3D-HEVC. V této oblasti byla vyvinuta řada architektur a systémů, které zohledňují nejen charakteristiky samotného kódování, ale také optimalizují paměťové a výpočetní nároky s cílem minimalizovat energetickou náročnost při zachování vysoké kvality obrazu a kompresního výkonu.

Vývoj probíhal ve třech klíčových oblastech: evaluace referenčního softwaru 3D-HEVC, architektury pro intra-frame predikci a architektury pro inter-frame a inter-view predikci. Celkem bylo navrženo šest různých architektur, přičemž čtyři se zaměřily na intra-frame nástroje a dvě na inter-frame/inter-view predikci. Každý krok návrhu byl podrobně simulován s využitím referenčního softwaru 3D-HEVC, aby bylo možné vyhodnotit energetické nároky a identifikovat nejvýznamnější nástroje z hlediska doby zpracování a dopadu na kvalitu obrazu.

Analýza ukázala, že největší časovou náročnost i energetickou zátěž představují nástroje používané pro kódování textur i hloubkových map. Optimalizace zahrnovala omezení podporovaných velikostí bloků a selekci nástrojů s největším vlivem na kompresní efektivitu, což umožnilo snížit výpočetní nároky bez výrazného zhoršení kvality obrazu. Důležitou součástí optimalizace byla také analýza přístupů k paměti během kódování a návrh adaptivního řízení přístupu k on-chip i off-chip paměti, které významně přispěly ke snížení spotřeby energie.

Jedním z významných přínosů je hardwarový návrh pro Depth Intra Skip (DIS) kódovací nástroj, který nahradil složité metody podobnosti (SVDC) jednodušším a efektivnějším kritériem SAD (Sum of Absolute Differences), čímž se snížil počet aritmetických operací o více než 71 % a eliminoval nákladný renderingový proces. Tato architektura byla schopna zpracovat pět UHD 2160p pohledů při 60 snímcích za sekundu a představuje první dedikované hardwarové řešení tohoto nástroje.

Další důležitý systém pro intra-frame predikci hloubkových map byl založen na odstranění méně důležitých predikčních režimů a velikostí bloků a na optimalizaci specifických algoritmů jako DMM-1, včetně modifikace Bresenhamova algoritmu pro efektivní reprezentaci wedgeletů bez nutnosti ukládání předpovědí. Tento systém podporuje jak nástroje 3D-HEVC, tak konvenční HEVC intra predikci a zvládá zpracování devíti HD 1080p pohledů při 30 fps.

Další inovace přináší 6WR algoritmus a jeho hardwarová implementace, která využívá hraniční gradienty pro výrazné snížení počtu vyhodnocovaných wedgeletů a zkrácení doby běhu DMM-1 až o 97 %, přičemž dopad na kompresní efektivitu je minimální (mezi 1,2 až 2,8 %). Výsledná architektura dosahuje nejvyššího výkonu ve srovnání s obdobnými řešeními, dokáže zpracovat až devět HD 1080p pohledů při 30 fps a zároveň má nejnižší spotřebu energie.

Celkový hardwarový design pro intra-frame predikci 3D-HEVC využívá flexibilní pořadí kódování textury a hloubkových map, což umožňuje využití heuristik orientovaných na hardware ke snížení výpočetního úsilí a spotřeby energie. Použití heuristik jako IPHOC a LC-ICDSD přináší výrazné snížení doby zpracování s mírným nárůstem BD-Rate (měřítko kompresní efektivity), přičemž architektura zpracovává tři HD 1080p pohledy při 30 fps s příkonem 384,6 mW.

Systém pro odhad pohybu a disparity byl navržen s adaptivní hierarchií paměti, která využívá techniky jako přednačítání dat v okně, opětovné použití dat, subsampling a dynamické řízení napětí, což vedlo k průměrnému snížení spotřeby energie o 79 % oproti tradičním řešením. Tento systém je prvním reálným řešením ME/DE pro 3D-HEVC schopným zpracovat tři HD 1080p pohledy v reálném čase.

Další optimalizace zahrnuje architekturu pro disparity estimation využívající algoritmus iUDS, který se zaměřuje na horizontální vyhledávání, jelikož horizontální disparity jsou častější. Tato metoda minimalizuje dopad na kvalitu a poskytuje dostatečnou propustnost pro kódování pěti UHD 2160p pohledů při 40 fps.

Všechny navržené algoritmy a architektury úzce spolupracují s paměťovými a výpočetními aspekty 3D-HEVC a zohledňují specifika nástrojů MVD přístupu. Významným prvkem je flexibilní pořadí kódování mezi texturou a hloubkovou mapou, což umožňuje navzájem ovlivňovat a zjednodušovat kódovací procesy v jednotlivých kanálech, například využitím analogií mezi úhlovými módy HEVC a DMM-1 módy 3D-HEVC.

Kromě samotných technických inovací je důležité porozumět tomu, že efektivní hardwarové návrhy v oblasti 3D-HEVC kódování vyžadují hluboké propojení mezi charakteristikami videoobsahu, algoritmickou komplexitou a architekturou paměťových systémů. Optimalizace v jedné oblasti má přímý dopad na energetickou náročnost a výkon celého systému. Pro čtenáře je rovněž zásadní uvědomit si, že dosažení vysoké kvality obrazu a současně nízké spotřeby energie je výsledkem kompromisů a precizního vyvažování mezi kompresní efektivitou, rychlostí zpracování a hardwarovými omezeními. Navíc, adaptivní strategie a flexibilita v pořadí zpracování dat se ukazují jako klíčové faktory pro optimalizaci v reálném čase, zejména při práci s vysokým počtem pohledů v UHD rozlišení.

Jak se mění BD-rate v závislosti na konfiguracích a technikách 3D videa?

V éře zrychleného vývoje mobilních zařízení a rozmachu platforem podporujících sdílení multimediálního obsahu dochází ke zvýšenému zájmu o pohlcující a vysoce kvalitní videozážitky. Technologie jako 3D video, virtuální a rozšířená realita dnes představují klíčové pilíře této transformace. Třídimenzionální video umožňuje divákovi vnímat hloubku scény a přináší tak výrazně realističtější vizuální dojem než tradiční 2D video. Právě kvůli těmto vlastnostem se 3D video stalo jedním z hlavních cílů vývoje multimediálních systémů.

Zejména průmyslový úspěch filmového fenoménu „Avatar“ v roce 2009 podnítil masivní investice do vývoje a komercializace zařízení schopných 3D videa. Vznikla tak rozsáhlá nabídka produktů, od televizorů přes Blu-ray přehrávače až po kapesní kamery, z nichž většina byla založena na stereoskopickém zobrazení. Tento přístup se opírá o zachycení dvou pohledů na scénu – levého a pravého – které jsou následně prezentovány odděleně každému oku diváka a tím vytvářejí iluzi hloubky.

Přestože se komerční vlna 3D zařízení později zpomalila kvůli nedostatku kvalitního 3D obsahu a technickým omezením, výzkum a vývoj v oblasti 3D videokódování nadále pokračuje. V tomto kontextu sehrává zásadní roli parametr označovaný jako BD-rate (Bjøntegaard Delta rate), který se používá k porovnávání účinnosti různých kompresních metod. BD-rate udává rozdíl v bitrate mezi dvěma kompresními schématy při zachování srovnatelné kvality videa – nižší hodnota BD-rate tedy znamená efektivnější kompresi.

Analýzy napříč různými konfiguracemi ukazují, jak výrazně se BD-rate mění v závislosti na použitých metodách. Například základní konfigurace All-Intra (AI) a Random Access (RA) slouží jako referenční rámce pro porovnávání algoritmických přístupů. V rámci těchto konfigurací byly zkoumány nové algoritmy jako 6WR DMM-1, IPHOC, kombinace IPHOC + ICDSD, a dále rozšířené varianty zahrnující i LC-ICDSD. V každé z těchto kombinací se pozorovaly odlišné vlivy na BD-rate, přičemž některé metody přinesly výrazné zlepšení v účinnosti, zatímco jiné vedly naopak k nárůstu bitrate.

Zajímavou dimenzi přináší i restrikce na velikosti bloků v rámci predikčních a transformačních jednotek. Omezení na pevně dané blokové rozměry, například 8×8 nebo 32×32, vedla ve většině případů k nárůstu BD-rate. Tento efekt lze vysvětlit omezením flexibility predikce a snížením schopnosti přesně modelovat prostorové či temporální korelace.

V dalších experimentech se zkoumal dopad progresivního omezování predikčních kroků – odstranění TZS prediktorů, rasterového kroku, nebo zpřesnění predikce. Výsledky ukazují, že i malé úpravy v predikčním rámci mohou mít znatelný dopad na výslednou kompresní efektivitu. Tento postupný útlum složitosti nakonec vyústil v tzv. B-Encoder konfiguraci a hierarchii označovanou jako Base Memory Hierarchy (BMH), kde se navíc zavádí horizontálně orientované disparity a omezení podobnostních metrik na jednoduché kritérium SAD.

Dalším krokem bylo použití subsamplingu hloubky, kdy se z hloubkových map odstraňovaly méně nebo více signifikantní bity – nebo dokonce jen liché či sudé – což výrazně ovlivnilo celkový BD-rate, často negativním směrem. Přesto tyto varianty přinášejí důležité poznatky pro vývoj tzv. adaptivních hierarchií (například RSH či RAH), které vyvažují kompromis mezi výpočetní náročností a kvalitou výsledného zobrazení.

Závěrem lze konstatovat, že rozsah BD-rate napříč různými metodami a konfiguracemi výrazně kolísá a jeho optimalizace zůstává klíčovým úkolem pro budoucnost 3D videokódování. Nejlepší výsledky často přináší kombinace více technik – například IPHOC + ICDSD + LC-ICDSD – které synergicky snižují redundanci ve videu při zachování požadované kvality.

Při návrhu efektivního 3D videokodéru je třeba uvažovat nejen o kvalitě rekonstrukce, ale také o výpočetní složitosti, spotřebě energie a latenci zpracování. Mnohé z pokročilých metod vykazují výborné hodnoty BD-rate, avšak za cenu zvýšených požadavků na paměťovou hierarchii nebo paralelizaci. Dále je nezbytné pečlivě analyzovat, jak různé strategie fungují napříč typy sekvencí – scény s vysokou hloubkovou komplexitou nebo rychlými pohyby mohou reagovat odlišně než statické či jednoduché výjevy. Významnou výzvou je i přenos těchto poznatků do prostředí reálného času, kde je potřeba nalézt rovnováhu mezi přesností a efektivitou.