V oblasti multimediálních technologií, zejména při práci s trojrozměrným (3D) videem, se stále více setkáváme s technologiemi, které umožňují uživatelům prožívat obsah ve vyšší míře ponoření do virtuálního prostoru. 3D video se dnes stává stále běžnějším v různých oblastech, od zábavy a videoher po vědecký výzkum a průmyslové aplikace. Jedním z klíčových formátů pro reprezentaci tohoto typu obsahu je Multiview Plus Depth (MVD), který umožňuje efektivní zachycení a zobrazení 3D videa pomocí texturálních a hloubkových informací.

MVD formát kombinuje informace o textuře pořízené konvenčními kamerami s hloubkovými mapami, které poskytují dodatečnou informaci o vzdálenosti objektů od kamery. Tato technologie umožňuje dekodéru generovat syntetické zobrazení mezi původními záznamy, čímž se zlepšuje kvalita vizuálního zážitku a efektivita zobrazení. Avšak i přesto, že MVD formát představuje zásadní pokrok v oblasti 3D videa, jeho aplikace naráží na několik technických výzev, zejména v oblasti zpracování dat a náročnosti výpočtů.

Jedním z hlavních problémů spojených s kódováním a dekódováním 3D MVD obsahu je obrovská množství dat, která musí být zpracována. Kromě tradičních texturálních dat, která se využívají při 2D kódování, je nutné pracovat s mnohem širším souborem informací. To znamená, že při kódování a dekódování je třeba zpracovávat nejen textury, ale i mapy hloubky, což podstatně zvyšuje nároky na výpočetní výkon.

K tomu, aby bylo možné efektivně pracovat s těmito náročnými daty, je nezbytné použít specializovaný hardware. V současnosti se intenzivně vyvíjejí nové algoritmy a architektury, které jsou schopné zpracovávat 3D video v reálném čase s nízkou spotřebou energie, a zároveň s vysokou propustností pro potřeby multiview plus depth kódování. Tento pokrok je možné pozorovat zejména u moderních hardwarových akcelerátorů, které výrazně zvyšují efektivitu kódování 3D videí.

Pro efektivní kódování MVD obsahu se široce používá standard 3D High-Efficiency Video Coding (3D-HEVC), který je rozšířením známého HEVC standardu. Tento standard, vyvinutý v rámci pracovní skupiny JCT-3V (Joint Collaborative Team on 3D Video Coding Extension Development), přináší několik nových nástrojů a technik pro zpracování texturálních dat i map hloubky. 3D-HEVC je navržen tak, aby poskytoval vyšší kompresní poměr při zachování kvality obrazu, což je klíčové pro efektivní přenos a ukládání 3D obsahu.

Pro analýzu chování tohoto standardu je nezbytné provést rozsáhlé experimentální hodnocení, které zahrnuje testování časového profilování a přístupu k paměti při predikci mezi snímky a mezi pohledy. Taková hodnocení jsou nezbytná pro hlubší pochopení chování nástrojů 3D-HEVC a pro optimalizaci hardwaru, který bude tento standard podporovat. Dále je nutné hodnotit různé konfigurace kódování, jako je konvenční (CCO) a flexibilní (FCO) kódovací pořadí, které mají vliv na výkonnost a účinnost kódování.

Vývoj hardware pro kódování 3D videa musí brát v úvahu nejen efektivitu výpočtů, ale také potřebu snížit spotřebu energie, která je často problematická v případě vysokého výpočetního zatížení. Nové přístupy v návrhu architektur pro 3D video kódování tak zahrnují nejen optimalizaci výpočetní náročnosti, ale také nová řešení v oblasti ukládání a přenosu dat.

Je rovněž nutné podpořit vývoj nových algoritmů, které umožní efektivnější využívání dostupného hardware a zjednoduší některé procesy kódování, čímž se sníží nároky na výpočetní výkon a šířku pásma paměti. Takové přístupy jsou klíčové pro rozvoj 3D video kódování a pro zajištění jeho uplatnění v širokém spektru aplikací, od komerčních produktů až po odborné vědecké aplikace.

Je důležité si uvědomit, že i když jsou moderní technologie pro 3D video stále na vzestupu, zůstává tu řada problémů, které je třeba vyřešit, než budou široce dostupné pro běžného uživatele. Optimální hardware pro zpracování těchto technologií se tedy stále vyvíjí, přičemž výzvy v oblasti komprese dat a zajištění výkonu zůstávají klíčovými faktory pro jejich efektivní implementaci.

Jak 3D-HEVC optimalizuje kódování pro závislé pohledy

V technologii 3D-HEVC (High Efficiency Video Coding) byly zavedeny nové nástroje pro kódování, které výrazně zlepšují efektivitu při zpracování video sekvencí, kde jsou využívány víceúhlové záběry. Tyto nástroje mají za cíl lépe zvládat závislé pohledy, což je klíčové pro správné kódování a dekódování 3D videí. Uvedené metody v této kapitole se zaměřují na predikci, která těží z redundancí mezi jednotlivými pohledy (nebo kamerovými úhly).

Při analýze bloků pro novou komparaci, jak je ukázáno na Obrázku 2.18, jsou v jednotlivých čtvercích znázorněny hodnoty od 1 do 48, které představují vzorek každého nového frakcionálního bloku. Šedé čtverce označují vzorky s přesností na půl-pixel, zatímco bílé čtverce označují vzorky s přesností na čtvrt-pixel. Čím více frakcionálních bloků použijeme, tím jemnější bude rozlišení a detailnost predikce. Výpočet těchto frakcionálních pozic probíhá za pomoci FIR filtrů s 7 nebo 8 koeficienty (ITU-T 2015). Je důležité zdůraznit, že počet nových bloků pro porovnání (48 frakcionálních bloků) nezávisí na velikosti predikční jednotky (PU).

Při predikci závislých pohledů je rovněž zásadní pochopit, jakým způsobem se kódují a dekódují pohybové vektory. V rámci HEVC, stejně jako v H.264/AVC, je k dispozici režim Skip, který je aktivován v případě, kdy je PU velmi podobný referenčnímu bloku v sousedním snímku. Hlavní charakteristika bloků kódovaných pomocí režimu Skip je, že encoder neodesílá žádné informace, které by reprezentovaly PU. Tento režim však nebyl pro 3D-HEVC dostatečný, a tak byl zaveden režim Merge. V režimu Merge jsou pohybové parametry pro kódovanou PU získávány ze sousedních PU v prostorovém a časovém rámci. Tento režim vyžaduje, aby pro každý PU byly přenášeny pohybové vektory a index referenčního snímku. To znamená, že při použití režimu Merge je analyzován index, který odkazuje na seznam kandidátů, ze kterého je vybrána odpovídající pohybová informace.

Seznam kandidátů pro Merge je omezen na maximální počet, který závisí na sousedních blocích v referenčním rámci. V prostorových sousedních blocích se vybírá až čtyři kandidáty z pěti možných. Pro časové sousední bloky je vybírán pouze jeden kandidát z dvou možných. V případě, že počet kandidátů neodpovídá maximálnímu počtu uvedenému v Slice Headeru, jsou generováni další kandidáti.

Všechna tato zlepšení v oblasti predikce jsou klíčová pro efektivní kódování 3D videí. Umožňují optimálně využívat redundance mezi jednotlivými pohledy a výrazně zlepšují kvalitu kódování i při nízkých bitových tocích.

Kromě samotné predikce je rovněž důležité pochopit, jak se v 3D-HEVC upravuje konstrukce Merge Candidate List. Tento seznam kandidátů je modifikován, aby bylo možné lépe využít korelace mezi informacemi z různých pohledů. Takové úpravy jsou nezbytné pro dosažení vyšší efektivity při predikci s pohybovými vektory, zejména v závislých pohledech. Optimalizace v tomto směru nejen že zvyšuje účinnost, ale také snižuje složitost kódování, což je zvlášť důležité pro zpracování 3D videí v reálném čase.

V případě závislých pohledů se v 3D-HEVC používají dva různé typy predikcí – Inter-temporální predikce a Inter-pohledové predikce. Pro Inter-temporální predikci se používají snímky z předchozích časových okamžiků, zatímco pro Inter-pohledové predikce jsou referenční snímky z předchozích pohledů ve stejné časové jednotce. Tento přístup zaručuje efektivnější kódování a umožňuje lepší kompresi textur a hloubkových map, což je klíčové pro 3D zobrazení.

Jako u všech technologií kódování videa je také v 3D-HEVC důležité správně vyvážit mezi kvalitou kódování a výpočetní náročností. Disparitní kompenzovaná predikce (DCP), která využívá odhady disparity mezi pohledy, je náročnější než běžná pohybová kompenzace, protože vyžaduje širší vyhledávací okna a větší výpočetní výkon. I přesto, že DCP zvyšuje efektivitu kódování, musí být pečlivě optimalizováno tak, aby nedocházelo k přetížení výpočetních kapacit.