Jak efektivně zlepšit kompresi a kódování 3D obrazů: Význam intra- a inter-předpovědi v 3D-HEVC

Pro analýzu efektivity kompresních nástrojů 3D-HEVC bylo kladeno důraz na reprezentativnost pixelů kódovaných různými metodami. V tomto kontextu je rozhodující, jaký podíl pixelů je kódován pomocí inter-předpovědi, zejména pro textury a mapy hloubky. Z výsledků experimentů vyplývá, že inter-předpověď dominuje ve většině případů jak pro texturové snímky, tak pro mapy hloubky, zatímco intra-předpověď hraje roli pouze v určitých specifických situacích.

U texturových snímků bylo zjištěno, že 97,54 % pixelů je kódováno pomocí inter-předpovědi, zatímco intra-předpověď je odpovědná za kódování pouze 2,46 %. U map hloubky tento poměr činí 92,76 % pro inter-předpověď a 7,24 % pro intra-předpověď. Je důležité zdůraznit, že intra-kódování je nezbytné pro zajištění referencí při kódování dalších snímků, což zajišťuje konzistenci během celého procesu. Tento přístup má klíčový význam pro syntézu texturálních snímků a pro zajištění vysoké kvality kódování map hloubky, což je zvláště důležité při syntéze mezisnímků v rámci pokročilých 3D technologií.

Inter-předpověď, i když je nákladnější na výpočetní prostředky, je ve 3D-HEVC stále dominantním nástrojem pro většinu pixelů. Naopak, intra-předpověď hraje důležitou roli při zajištění kvality kódování okrajů objektů a především při práci s ostřejšími hranami v kontextu MVD (Multi-View Depth) kódování. V některých případech, zejména u kódování hran objektů, může intra-předpověď přinést značné zisky v kompresi.

Přestože inter-předpověď je náročná na výpočetní čas, intra-předpověď rovněž představuje důležitou složku složitosti kódování. Podle studií (Sanchez et al., 2018b) je až 34,51 % času kódování map hloubky způsobeno intra-předpovědí. Tento faktor je významný, protože ve specifických podmínkách, kdy je nutné kódovat mapy hloubky s vysokou přesností, může intra-předpověď zlepšit výslednou kompresní efektivitu.

Pokud jde o intra-předpověď u texturových snímků, experimenty ukázaly, že největší podíl pixelů (93,73 %) je kódován pomocí 2N × 2N bloků, což je nejefektivnější metoda pro textury. Pouze malý podíl pixelů (6,27 %) je kódován pomocí N × N bloků, přičemž tyto bloky jsou používány v nižších úrovních kvadratických stromů (quad-tree). Je však třeba poznamenat, že zjednodušení intra-předpovědi, například vypnutí určitého typu partition nebo úrovně kvadratického stromu, může mít významný dopad na kvalitu obrazu a úroveň komprese. V rámci 35 různých kódovacích režimů jsou některé režimy, jako například Planar mode, odpovědné za většinu kódovaných pixelů. Režim Planar je zodpovědný za kódování 24,03 % pixelů, následován režimem DC (17,43 %) a vertikálním (11,07 %) a horizontálním (5,92 %) režimem.

V případě kódování map hloubky, intra-předpověď zahrnuje různé nástroje, mezi nimiž vyniká DIS mód (Depth Image-Based Rendering). Tento režim je extrémně důležitý, protože umožňuje efektivní kódování map hloubky. Podle experimentálních výsledků DIS mód kóduje 81,13 % pixelů map hloubky v rámci 2N × 2N partition, což ukazuje na jeho zásadní roli v procesu kódování. I když DIS mód představuje většinu, zbytek pixelů je kódován pomocí dalších 37 kódovacích režimů.

Pokud se zaměříme pouze na ostatní režimy (kromě DIS módu), zjistíme, že kódování s N × N bloky má minimální vliv na kódování map hloubky, kde je kódováno pouze 1,48 % pixelů. Naopak větší bloky, jako například 64×64, mají mnohem větší podíl při kódování map hloubky. Tento jev je ještě výraznější při použití DIS módu, který výrazně preferuje větší bloky pro efektivní kompresi.

V neposlední řadě je důležité pochopit, že zatímco intra-předpověď je zásadní pro zajištění kvalitní komprese v některých specifických oblastech, jako jsou okraje objektů nebo hloubkové mapy, inter-předpověď zůstává základním nástrojem pro většinu scén. Systémy 3D-HEVC stále čelí výzvám v oblasti výpočetní složitosti, a proto se vyžaduje neustálé zdokonalování a optimalizace jak pro inter- tak pro intra-předpověď. Důležitým směrem jsou i techniky snižování složitosti, které mohou přinést výrazné zlepšení v efektivitě kódování a komprese bez ztráty kvality obrazu.

Jaký je rozdíl mezi FCO a CCO přístupem při kódování 3D videa a proč na tom záleží?

Při porovnávání dvou dominantních přístupů v rámci 3D-HEVC – Full-Coding Order (FCO) a Coding-Order-Constrained (CCO) – se ukazuje, že volba strategie zásadně ovlivňuje výběr režimů predikce, velikostí bloků i výpočetní nároky. FCO a CCO přístupy se liší nejen svým pořadím zpracování obrazových a hloubkových dat, ale zejména vnitřní logikou, jak využívají jednotlivé nástroje predikce a jak optimalizují výkon.

V CCO přístupu dominují módy DMM-4 a DMM-1, které pokrývají 17,22 % a 13,95 % pixelů hloubkových map. V FCO přístupu se však pořadí mění – DMM-1 je druhý nejčastěji používaný mód s 21,80 %, zatímco DMM-4 se posouvá až na páté místo s pouhými 3,36 %. Tato změna je očekávatelná, neboť DMM-4 závisí na kolokovaných texturových vzorcích, což je v případě FCO přístupu, který zpracovává závislé pohledy nezávisle, prakticky nepoužitelné.

U inter predikce texturových obrazů je výběr velikosti bloků velmi podobný pro oba přístupy. Převažují čtvercové bloky 8×8 a 16×16, zatímco bloky 32×32 a 64×64 jsou nejreprezentativnější z hlediska zakódovaných pixelů. Odlišnosti se však ukazují při kódování hloubkových map – FCO přístup klade větší důraz na menší bloky, přičemž 8×8 a 16×16 bloky dohromady pokrývají téměř 48 % případů. V obou přístupech však minimálně tři čtvercové velikosti zůstávají jak nejčastěji volenými, tak nejvíce reprezentativními.

Pohybová predikce (ME) má v obou přístupech zásadní roli – přes 80 % inter-predikovaných jednotek v CCO a více než 90 % ve FCO přístupu využívá právě tento typ predikce. Disparitní predikce (DE) je také významná, ačkoliv její zastoupení v FCO přístupu klesá – z 20,62 % v CCO na 10,7 % ve FCO. Tento pokles souvisí se změnou pořadí zpracování závislých pohledů, které v FCO preferují intra režimy před slučováním (Merge) a DE. Přesto zůstává DE zásadní pro oblasti s okluzemi a de-okluzemi.

V oblasti texturového kódování je v CCO přístupu ještě patrné použití režimu DBBP, jenž pokrývá 4,34 % pixelů. Ve FCO je tento režim téměř zanedb

Jak efektivně optimalizovat systém pro odhad pohybu a disparity v 3D-HEVC kódování s nízkou spotřebou energie?

S výzvami spojenými s výpočetními a paměťovými nároky na odhad pohybu (ME) a disparity (DE) byly v průběhu let publikovány různé návrhy hardwarových řešení zaměřených na optimalizaci spotřeby energie v těchto oblastech. Některé návrhy se soustředí na minimalizaci výpočetní náročnosti (Kim et al. 2014), jiné se zaměřují na navrhování energeticky efektivních hardwarových architektur (Ding et al. 2010). Další studie se zaměřují na efektivní organizaci a správu paměti (Zatt et al. 2011a; Sampaio et al. 2013; Song et al. 2015). Některé práce kombinují návrh paměti a výpočetních jednotek, což vede k navrhování komplexních systémů pro ME a DE (Zatt et al. 2011b).

Ačkoli existuje mnoho důkladných a inovativních hardwarových řešení zaměřených na energetickou efektivitu, většina dosavadních studií týkajících se 3D-HEVC se zaměřuje především na algoritmická řešení, přičemž pouze několik z nich se soustředí na hardwarovou implementaci, která by dokázala efektivně zvládat formát MVD (Afonso et al. 2019a). Mnoho publikovaných prací se omezuje pouze na texturové a hloubkové kanály, což jsou základní součásti formátu 3D-HEVC, a to jak pro ME, tak pro DE.

V rámci 3D-HEVC se používá nástroj Flexible Coding Order (FCO) (Gopalakrishna et al. 2013), který umožňuje kódování hloubkových map před jejich asociovanými texturovými snímky, což může přinést užitek při optimalizaci spotřeby energie. Tento nástroj je použit pro návrh systému ME/DE zaměřeného na nízkou spotřebu energie. Systém je navržen s hierarchií paměti, která je schopná se adaptovat v reálném čase. Procesorová jednotka používá FCO v kombinaci s optimalizacemi, které snižují výpočetní náročnost pomocí pozorování chování dat a redundancí mezi kanály a pohledy.

Jednou z hlavních inovací je návrh metody Hardware-Oriented Test Zone Search (HOTZS), která je hardwarově přátelskou verzí tradičního algoritmu rychlého odhadu pohybu HEVC/3D-HEVC. Tato metoda je navržena pro vysoký výstupní výkon ME architektury. Další novinkou je technika Horizontal Disparity Search (HDS), která eliminuje vertikální vyhledávání na základě horizontálního posunu kamery, čímž přispívá k zjednodušení a efektivitě návrhu hardwaru pro odhad disparity.

Navrhovaný systém využívá distribuované on-chip paměti spojené s výpočetními jednotkami. Každá paměť je optimalizována pro opětovné použití dat pomocí okna a je rozdělena na více sektorů, což umožňuje nezávislou kontrolu prostřednictvím Dynamic Voltage Scaling (DVS). Paměti pro hloubkové mapy jsou sub-vzorkovány, přičemž HDS umožňuje snížení velikosti paměti. Algoritmus Depth-Based Dynamic Search Window Resizing (DSWR) dynamicky zkracuje hledací okno během odhadu pohybu/ disparity na základě informací o hloubce, což umožňuje dynamické řízení spotřeby energie prostřednictvím DVS u nevyužívaných oblastí paměti. Další technikou je Texture-Based Motion Vector Inheritance (TMVI), která využívá chování ME/DE a korelaci mezi kanály pro snížení spotřeby energie.

K vývoji systému byl také definován Baseline Encoder (B-Encoder), který sloužil jako základ pro testování a implementaci výše popsaných optimalizací. Výběr hardwarových orientovaných omezení byl proveden na základě rozsáhlých testů provedených s použitím referenčního softwaru 3D-HTM. V rámci těchto experimentů byly použity různé video sekvence a analyzovány dopady různých omezení na kódování. Výsledky ukázaly, jak lze v praxi upravit konfiguraci kódování tak, aby bylo dosaženo optimálního kompromisu mezi energetickou účinností a kvalitou výsledného videa.

Při analýze těchto parametrů bylo provedeno testování vlivu různých hardwarových omezení na kódovací efektivitu. Degradace efektivity kódování byla měřena pomocí metriky BD-Rate, která vyjadřuje procentuální změnu v bitové sazbě při zachování stejné kvality obrazu. Při této analýze bylo důležité zaměřit se na efektivní nastavení velikostí bloků (Prediction Unit, PU) pro ME/DE proces, kdy byl výběr bloků omezen na pouhé dvě velikosti z celkových 24 možných. Tento krok výrazně zjednodušil výpočetní náročnost a zlepšil energetickou efektivitu.

Důležitým krokem bylo také optimalizování konfigurace hardwaru pro zajištění nejlepšího možného kompromisu mezi výpočetní složitostí a bitovou sazbou. Taková optimalizace je klíčová pro vývoj vysoce efektivních systémů pro 3D video kódování, které jsou schopné vyvážit energetickou náročnost a výkon.

Jak přežít a najít naději uprostřed největšího zoufalství?
Elektrické úložné zařízení založené na 2D polovodičových materiálech: Vlastnosti, aplikace a výzvy
Jak Donald Trump přetvořil americký sen?
Jak dokáží zvířata spolupracovat a co z toho vyplývá pro přežití celého druhu?