Jak funguje 3D-HEVC a jaké nástroje používá pro kódování 3D videí?

3D-HEVC (High Efficiency Video Coding pro 3D videa) vznikl v roce 2011 jako odpověď na rostoucí poptávku po efektivních standardech pro kódování 3D videí, která by dokázala udržet vysokou kvalitu obrazu i při kompresi. Tento standard je rozšířením HEVC (High Efficiency Video Coding), který se stal základem pro kódování 2D videí. Cílem 3D-HEVC bylo především vyvinout standard pro kódování videí s více pohledy a s cílem dosažení vysoké efektivity komprese a zachování kvality obrazu.

Ve světle tohoto vývoje vznikl v roce 2012 pracovní tým JCT-3V, složený z odborníků skupin VCEG (Video Coding Experts Group) a MPEG (Moving Picture Experts Group), které spolupracovaly na standardizaci HEVC. Tento tým měl za úkol vyvinout rozšíření pro kódování 3D videí, které by vycházelo z HEVC a zároveň by bylo schopné efektivně pracovat s více než dvěma zobrazeními.

Jeden z hlavních důvodů pro vznik 3D-HEVC spočívá v tom, že algoritmy, používané pro kódování 2D videí, nejsou efektivní v kontextu 3D videí, zvláště pokud jde o větší počet zobrazení. I rozšíření MVC (Multiview Video Coding) standardu H.264/AVC, které se zaměřovalo na kódování více zobrazení, nedokázalo uspokojivě pokrýt potřeby pokroku v oblasti 3D technologií. To se týkalo zejména rostoucího požadavku na ultra-vysoké rozlišení a nástup autostereoskopických displejů, které nevyžadují brýle pro zobrazení 3D obrazu.

Významným krokem v této oblasti byla publikace první verze 3D-HEVC standardu v únoru 2015. Tento standard začal používat koncept hloubkových map (depth maps) pro kódování 3D videí a zavádí nové nástroje pro kódování videa, které umožňují dosáhnout vysoké kompresní efektivity.

Hloubkové mapy jsou klíčovým prvkem, který umožňuje generování syntetických pohledů z několika původních zobrazení. Z těchto základních pohledů – obvykle dvou nebo tří – se vytvářejí další zobrazení, která představují mezilehlé pozice, přičemž se zachovává kvalita obrazu. Tento přístup pomáhá udržet vysokou kvalitu i při kompresi, což je zásadní pro moderní aplikace v oblasti 3D videí a virtuální reality.

Pro správné pochopení technologie 3D-HEVC je nutné mít přehled o základních principech kódování videa. Digitální video se skládá z několika snímků, které jsou zachyceny v určité časové sekvenci. Tyto snímky jsou tvořeny pixely, které představují jednotlivé body obrazu. Každý pixel obsahuje informace o jasu a barvě. V rámci kódování je video často rozděleno na bloky, jejichž velikost se může během procesu kódování měnit, což umožňuje optimalizovat efektivitu komprese.

V 3D-HEVC je využívána struktura bloků, která zahrnuje jednotky kódování (CU), predikční jednotky (PU) a transformační jednotky (TU). Tato struktura je flexibilní a umožňuje efektivní kódování na různých úrovních. Zatímco u starších standardů, jako je H.264/AVC, byly bloky pevně stanovené, 3D-HEVC umožňuje dynamickou změnu velikosti bloků během procesu kódování. Velikost bloků se může pohybovat od 4x4 až po 64x64 pixely, což zajišťuje efektivní využití nástrojů pro predikci, transformaci a kvantizaci obrazu.

V rámci 3D-HEVC se snímky rozdělují do čtvercových bloků nazývaných Coding Tree Units (CTU). Každý CTU může být rozdělen do několika menších bloků – Coding Units (CU). CU jsou čtvercové bloky, jejichž velikost se může pohybovat v mocninách čísla 2, tedy 4, 8, 16 nebo 32. Tyto CU mohou být dále dělena na menší bloky v rámci predikce nebo transformace obrazu.

Jedním z klíčových vylepšení v 3D-HEVC je rozdělení bloků do různých typů, což umožňuje lepší přizpůsobení struktury kódování skutečným hranicím objektů v obraze. Predikční jednotky (PU) mohou mít nejen čtvercový, ale i obdélníkový tvar, což umožňuje optimální dělení obrazu podle potřeb pro efektivní kódování.

Je také důležité zmínit, že pro 3D videa, která mají vysoké nebo ultra vysoké rozlišení (například UHD 2160p), je zapotřebí vyšší frekvence snímání – alespoň 50-60 snímků za sekundu, aby bylo zajištěno plynulé a přirozené zobrazení pohybu. Tato požadavky jsou klíčové pro efektivní zobrazení na moderních displejích, které nabízejí vysoké rozlišení a prostorový zážitek.

V souhrnu 3D-HEVC přináší důležitá vylepšení v kódování 3D videí a vyplňuje mezeru v oblasti efektivní komprese a zpracování více zobrazení. Standard nabízí pokročilé nástroje pro generování a přenos 3D videí s vysokým rozlišením, a to při zachování vysoké kvality obrazu a efektivní kompresi dat.

Jaké jsou klíčové aspekty vývoje hardwarových architektur pro 3D-HEVC?

V oblasti kódování 3D videa, konkrétně s využitím standardu 3D-HEVC, je jedním z hlavních cílů optimalizace hardwaru pro predikce vnitřních (intra-frame), mezi-rámových (inter-frame) a mezi-výhledových (inter-view) obrazů. Tento proces zahrnuje nejenom návrh efektivních hardwarových architektur, ale i aplikaci heuristik, které zajišťují efektivní využití prostředků, snížení spotřeby energie a optimalizaci šířky pásma paměti. Různé navržené architektury pro predikce, jako je Depth Intra Skip (DIS) nebo Depth Modeling Mode 1 (DMM-1), představují konkrétní implementace, které zohledňují potřebu snížit výpočetní nároky a nároky na šířku pásma, a to při zachování požadované kvality kódování.

Architektury pro predikci intra-frame, které jsou založeny na technologiích jako DIS a DMM-1, jsou navrženy s ohledem na minimalizaci spotřeby energie a šířky pásma, což je klíčové pro zařízení s omezenými energetickými a výpočetními kapacitami. U těchto nástrojů byly vyvinuty specifické heuristiky, které hodnotí různé kombinace parametrů pro optimalizaci výkonu a spotřeby energie. Například architektura DIS využívá nízkoenergetické přístupy, které zahrnují vynechání některých výpočtů v závislosti na distorční metrice, což má za následek snížení nároků na výpočetní výkon bez významného ovlivnění kvality výsledného obrazu.

Pokud se podíváme na predikce inter-frame a inter-view, zde jsou výzvy o něco složitější, protože tyto predikce zahrnují širší spektrum nástrojů s vysokými výpočetními nároky a potřebami pro šířku pásma paměti. Zde se vyvinuly heuristiky pro každý z hlavních nástrojů, což umožňuje návrh hardwaru, který efektivně zpracovává složité výpočty, přičemž stále optimalizuje spotřebu energie. Významným příkladem je architektura pro odhad disparity v rámci predikce mezi-výhledových obrazů, která je navržena pro minimalizaci výpočetní náročnosti pomocí specifických heuristik pro hledání disparity, které snižují nároky na výpočetní prostředky a šířku pásma.

Systémy predikce, jak intra-frame, tak inter-frame, jsou navrženy pro různé konfigurace, přičemž CCO a FCO představují základní rozdělení, které umožňuje flexibilitu v optimalizaci jak pro kvalitu kódování, tak pro spotřebu energie. Zatímco konfigurace CCO se zaměřuje na klasické zpracování, konfigurace FCO přináší možnost nastavení různých operačních bodů, které umožňují jemně ladit rovnováhu mezi kvalitou obrazu a energetickou efektivitou.

Významným aspektem těchto návrhů je skutečnost, že byly vyvinuty nejen pro konkrétní aplikace v rámci 3D-HEVC, ale jejich principy mohou být adaptovány i na jiné encodéry 3D videa. Výsledky těchto studií, i když zaměřené na specifickou implementaci 3D-HEVC, dávají cenné náhledy na to, jak navrhovat hardwarové systémy pro efektivní zpracování 3D obsahu obecně. To otevírá možnosti pro přenos těchto inovativních přístupů do širší oblasti kódování 3D videa, což je klíčové pro budoucí vývoj v této oblasti.

Kromě technologických aspektů návrhu hardwarových architektur pro 3D-HEVC je nutné vzít v úvahu i širší výzvy a trendy v oblasti kódování 3D videa. Optimalizace nejen pro energetickou efektivitu, ale i pro adaptabilitu na různé hardwarové platformy a jejich specifické požadavky, je stále jedním z hlavních směrů vývoje. Zároveň je důležité sledovat pokrok v oblasti algoritmů a nástrojů pro predikce, které se stále vyvíjejí a umožňují vylepšení kvality kódování při nižších nárocích na výpočetní výkon a šířku pásma.

Jak FCO a CCO přístupy ovlivňují efektivitu predikce a komprese v 3D-HTM?

V oblasti komprese a predikce obrazu v 3D-video sekvencích se odlišnosti mezi různými přístupy k výběru predikčních bloků (PU) mohou výrazně projevit v účinnosti komprese a následně ve výpočetní složitosti celého procesu. V rámci analýzy predikčních nástrojů 3D-HTM je kladeno důraz na odlišnosti mezi dvěma konfiguracemi – CCO a FCO, které představují základní metody pro enkódování textur a hloubkových map v 3D-videoch. Tyto konfigurace se liší v tom, jakým způsobem organizují pořadí enkódování textur a hloubkových map, což má za následek různé výsledky v predikci a kompresi.

Podle provedených experimentů při použití FCO (First-Coded-Order) konfigurace, která zakódovává textury dříve než související hloubkové mapy, je patrné, že u hloubkových map je použití menších predikčních bloků PUs vyšší než u textur. To vede k tomu, že hloubkové mapy představují 54,45 % všech kódovaných PUs, zatímco textury pouze 45,55 %. Tento rozdíl v rozdělení velikostí PU bloků je významný pro zjednodušení složitosti výpočtu a efektivitu predikce při použití FCO přístupu.

V rámci analýzy predikčních nástrojů pro textury a hloubkové mapy je také zřejmé, že v FCO konfiguraci je predikce Inter (meziobrazová a mezirozhledová predikce) dominantní. U textur je 97,62 % pixelů kódováno pomocí Inter-predikce, zatímco pouze 2,38 % pixelů je kódováno pomocí Intra-predikce (predikce v rámci jednoho snímku). U hloubkových map je tento poměr rovněž vysoce převažující – 82,1 % pixelů je kódováno pomocí Inter-predikce, zatímco Intra-predikce kóduje 17,9 %. Tento trend ukazuje, jak důležité je v rámci FCO přístupu správně zvolit nástroje predikce pro dosažení optimální komprese, kde predikce meziobrazová a mezirozhledová hrají klíčovou roli.

Při podrobné analýze Intra-predikce v rámci FCO přístupu je možné pozorovat, že u textur je 93,74 % pixelů kódováno pomocí bloků o velikosti 2N × 2N, zatímco pouze 6,26 % pixelů je kódováno menšími bloky (N × N). Tato distribuce velikostí bloků je důležitá pro efektivitu komprese, protože větší bloky umožňují lepší predikci a tedy i vyšší kompresní poměr. Kromě toho analýza ukázala, že mezi různými predikčními režimy v rámci Intra-predikce, jako jsou Planární, DC, a Angulární režimy, existují významné rozdíly v jejich využití. Planární režim, který kóduje 24,30 % pixelů, je nejvíce využívaný, následován DC režimem (17,68 %), Vertikálním režimem (10,35 %) a Horizontálním režimem (5,96 %). Tento rozložení režimů ukazuje, jak se různým charakteristikám textur přizpůsobují specifické predikční nástroje.

U hloubkových map v rámci FCO přístupu je dominantní využití DIS módu (Disparity Estimation), který pokrývá 86,68 % Intra-predikovaných pixelů. Tento režim je zvláště důležitý pro hloubkové mapy, protože umožňuje efektivní modelování disparity mezi pohledy. Pokud se DIS režim vynechá, využívají se jiné Intra-módy, z nichž N × N bloky mají menší význam, ale stále představují 6,06 % pixelů. Důležité je také pozorovat rozdíl v distribuci velikostí bloků u hloubkových map, kdy u FCO přístupu je rozdělení mezi různými úrovněmi CU (Coding Unit) hloubkových map rovnoměrnější ve srovnání s CCO přístupem, kde dominují větší bloky.

Důležité je také si uvědomit, že predikce hloubkových map má specifické požadavky na přesnost modelování disparity, což ovlivňuje výběr vhodných predikčních nástrojů. Proto je nezbytné správně vyvažovat mezi Intra a Inter predikcí, aby byla dosažena optimální komprese s minimálními nároky na výpočetní složitost. Při návrhu energeticky efektivních hardware systémů pro 3D-video kompresi by měl být zohledněn tento aspekt výběru predikčních nástrojů, aby se snížily nároky na výpočty při zachování vysoké kvality obrazu. V závěru lze říci, že rozdíly mezi FCO a CCO přístupy hrají klíčovou roli při optimalizaci komprese v 3D-HTM, což se musí brát v úvahu při navrhování nových kompresních algoritmů a zařízení.

Jak ovlivňuje odstranění bitů při subsamplingu hloubky BD-rate pro 3D-video sekvence?

Výsledky měření BD-rate podle techniky subsamplingu hloubky v 3D-video sekvencích ukazují, jak různé metody manipulace s bitovou hloubkou ovlivňují kompresní účinnost při kódování 3D-video. Subsampling hloubky je klíčovým nástrojem v moderních technologiích zpracování 3D videí, přičemž důraz je kladen na optimalizaci požadavků na šířku pásma, aniž by došlo k příliš výraznému zhoršení vizuální kvality.

Při odstranění čtyř méně významných bitů (RSH – Reduced-Size Hierarchy) se zvýšení BD-rate pohybuje v rozmezí od 6,87 % (u sekvence „Balloons“) až po 62,68 % (u sekvence „Shark“). Tento efekt je významně ovlivněn charakteristikami samotných sekvencí, přičemž nejvíce ovlivněné jsou složitější scény, které obsahují dynamické pohyby nebo vysokou variabilitu textur a hloubkových informací. Sekvence jako „GT_Fly“ vykazují výrazný nárůst BD-rate, což může být výsledkem složitého pohybu a detailů scény, které vyžadují více informací pro přesné zobrazení hloubky.

Stejně tak odstranění čtyř významnějších bitů vykazuje podobné tendence. Například u sekvence „Shark“ je nárůst BD-rate stále vysoký, což ukazuje na potřebu zachovat větší množství detailů pro správné zobrazení složitých scén. U některých sekvencí, jako je „Balloons“, je nárůst poměrně nízký, což ukazuje, že pro určité scénáře není nutné udržovat vysokou bitovou hloubku k dosažení přijatelných výsledků.

Dalším způsobem, jak ovlivnit BD-rate, je odstranění sudých nebo lichých bitů. Tato technika vedla k mírnému snížení požadavků na šířku pásma, zejména v případě složitějších sekvencí. Nicméně, i zde se objevuje variabilita, kdy některé sekvence, jako „Kendo“ nebo „Poznan_Hall2“, vykazují výrazné rozdíly v nárůstu BD-rate v závislosti na konkrétní aplikované metodě.

Pokud jde o metody, které využívají všechny navrhované techniky včetně RAH (Run-Time Adaptive Hierarchy), výsledky ukazují, že k zajištění efektivního kompresního poměru je důležité kombinovat různé přístupy. Tento komplexní přístup nejen že optimalizuje šířku pásma, ale také umožňuje přizpůsobit kompresní techniky v závislosti na dynamice a složitosti konkrétní sekvence. Sekvence jako „Shark“ zde stále vykazují značný nárůst BD-rate, což naznačuje, že pro složitější a dynamické scény je zapotřebí sofistikovanějšího přístupu ke kompresi.

V rámci testu s použitím iUDS (inteligentní subsampling) bez kroků vylepšení a s plným vylepšením byly pozorovány významné rozdíly v BD-rate mezi jednotlivými testovacími případy. Například u testovacího případu 1 bez vylepšení bylo dosaženo velmi nízké změny BD-rate pro některé sekvence, zatímco u testovacích případů s plným vylepšením byly výsledky signifikantně zlepšeny, zejména u jednodušších sekvencí jako „Balloons“.

Je důležité si uvědomit, že každá sekvence reaguje odlišně na změny v subsamplingu bitů, a proto je třeba volit správné metody pro konkrétní obsah videa. Zatímco některé metody vedou k lepším výsledkům u jedné skupiny videí, u jiných mohou způsobit větší nárůst požadavků na šířku pásma, což se může projevit na zhoršení kvality nebo zvýšení nároků na hardware pro dekódování.

Složitost a dynamika 3D-video sekvencí zůstává klíčovým faktorem při rozhodování o vhodné technice pro subsampling hloubky. Využití různých kombinací technologií, jako jsou HC4, RSH, nebo iUDS, může poskytnout optimální výsledky pro specifické potřeby aplikací, jako jsou virtuální realita, 3D filmy nebo simulace.

Jak jsou přizpůsobeni k životu pod zemí a ve vodě: stavba těla a chování krtků, slonů a bobrů
Jak minulost ovlivňuje naši schopnost být obhájcem
Jak hyperbolické stromy zlepšují vizualizaci hierarchií a jaké mají výhody a nevýhody?
Jak správně modelovat hydrodynamické a environmentální zatížení pro plovoucí větrné turbíny?
Jak modelování příčinných vztahů ovlivňuje investiční strategie