Jak efektivně využít partition wedgelet pro kódování hloubkových map v 3D-HEVC

V rámci pokročilých metod komprese obrazu, zejména v oblasti kódování hloubkových map, hraje klíčovou roli metoda DMM-1, která se zaměřuje na hledání optimálního rozdělení bloků pomocí tzv. "wedgelet partition" (rozdělení na klínové části). Tento přístup je součástí implementace 3D-HEVC, která přináší výrazné zlepšení v oblasti komprese prostorových dat, včetně hloubkových map a textur.

DMM-1 mode je navržen tak, aby pro každý blok hledal nejlepší možné rozdělení pomocí klínových částí. Pro dosažení tohoto cíle se používají původní hodnoty hloubky aktuálního bloku jako referenční signál. Pro každý blok se provádí hledání optimálního rozdělení přes několik různých možných "wedgelet" partií. Výběr té nejvhodnější partie je závislý na minimalizaci zkreslení vůči původnímu signálu hloubky. Poté jsou informace o vybraném rozdělení přeneseny do bitového toku pro následné dekódování.

Klíčovým krokem je generování a ukládání těchto wedgelet partií, které jsou předem připraveny na základě velikosti bloků. Pro každý blok jsou vytvořeny specifické sady wedgeletů, které jsou následně použity při predikci bloků odpovídající velikosti. Celý tento proces je realizován ve dvou fázích: počáteční generování wedgeletů mezi sousedními a protilehlými hranami a jejich následné vylepšení v refinovacím kroku.

Důležitým aspektem je, že pro různé velikosti bloků se používají různé vzorkovací postupy, které určují výchozí a koncové body pro generování wedgeletů. U menších bloků, například 4x4 nebo 8x8, jsou výchozí a koncové body definovány na základě jednotlivých vzorků, zatímco u větších bloků (například 16x16 nebo 32x32) jsou použity vzorky s většími odstupy, což vede k různému počtu generovaných wedgeletů.

Po vygenerování těchto partií jsou neefektivní nebo podobné wedgelet partie odstraněny. Tento krok je nezbytný pro snížení výpočetní náročnosti a optimalizaci úložiště. Pro každou vytvořenou wedgelet partii je spočítána průměrná hodnota (CPV) pro danou oblast na základě binární masky. Tento průměrný signál je pak použit k rekonstrukci predikovaného bloku. Následuje fáze výpočtu zkreslení, kde se aktualizují hodnoty zkreslení a provádí se výběr nejlepšího výsledku.

Konečná fáze zahrnuje refinování vybraného wedgeletu, kde jsou generovány nové vzory, které pokrývají osm možných případů kolem původního výběru. Tento krok pomáhá dosažení ještě přesnějšího prediktivního modelu. Po všech těchto krocích jsou konečně získané výsledky ve formě residue (zbytkových hodnot) připojeny k predikovanému bloku a výsledkem je rekonstruovaný hloubkový blok.

Přestože proces kódování DMM-1 vykazuje velmi vysokou přesnost při hodnocení velkého množství wedgeletů, což je velmi výpočetně náročné, dekódování je naopak značně zjednodušeno. Při dekódování je nutné pouze získat index vybraného wedgeletu a použít ho k rekonstrukci původního bloku. Tento přístup znamená, že při dekódování je požadováno pouze minimální množství přístupů do paměti, což výrazně zlepšuje efektivitu dekódovacího procesu.

Navzdory výhodám této metody, DMM-1 stále představuje určitý výpočetní úzký hrdlo, přičemž je vyžadováno značné množství paměti pro uložení všech potřebných wedgelet partií. Tento problém je částečně řešen použitím optimalizačních technik, které snižují počet hodnocených partií a zajišťují efektivnější využití paměti.

Je důležité si uvědomit, že implementace této technologie, přestože výrazně zlepšuje kompresní schopnosti a přesnost predikcí, klade značné nároky na hardware. Vysoký výpočetní výkon a dostatečná paměť jsou klíčové pro dosažení optimálních výsledků, což může být pro některé aplikace výzvou.

V procesu kódování a dekódování je nezbytné správně nastavit parametry tak, aby bylo dosaženo maximálního výkonu, a to jak z hlediska komprese, tak i z hlediska časové efektivity. Tato metoda představuje jeden z nejpokročilejších přístupů k analýze a kompresi hloubkových map v 3D-HEVC, a její efektivní implementace může výrazně přispět k rozvoji různých aplikací v oblasti počítačového vidění a 3D grafiky.

Jaký vliv má výběr velikosti bloků na kódování v predikci Inter pro textury a mapy hloubky?

Analýza výběru velikosti predikčních jednotek (PU) ve fázi Inter predikce ukazuje zajímavé trendy a rozdíly v kódování obrazů s využitím různých velikostí bloků. Na základě výsledků získaných z testování s metodami FCO a CCO je možné odhalit, které velikosti bloků jsou nejčastěji vybrány a jaký vliv mají na celkovou kvalitu kódování textur a map hloubky.

Obrázek 3.34 zobrazuje průměrný procentuální podíl výběru velikosti PU v predikci Inter, pokud jde o textury a přístup FCO. Výsledky jsou prezentovány pro všech 24 velikostí PU podle úrovně hloubky CU. Pokud se zaměříme na kroky ME/DE a Merge (a režim DBBP pro textury), tedy pokud ignorujeme režim Skip, zjistíme, že blok o velikosti 8×8 je nejčastěji vybraný s podílem 15,03 %. Na druhém místě se nachází velikost 16×16 s 11,96 %. Další dvě čtvercové bloky, 32×32 a 64×64, jsou v tomto kontextu vybírány méně často, přičemž 32×32 je čtvrtá nejčastěji vybraná velikost s podílem 6,91 %, zatímco 64×64 je až na 13. místě s podílem 3,02 %. I když větší PU bloky nejsou tolik frekventované, vykazují větší reprezentativnost v obraze, což naznačuje, že větší bloky pokrývají větší část pixelů v obraze.

Výběr velikosti PU však nezávisí pouze na frekvenci, ale i na reprezentativnosti daného bloku pro kódování obrazu. V tomto kontextu byla provedena analýza, která zohledňuje podíl pixelů, které byly zakódovány pomocí jednotlivých velikostí PU. Výsledky ukazují, že větší bloky jako 64×64 a 32×32 jsou výrazně reprezentativnější, i když jsou vybírány méně často. Blok o velikosti 64×64 je považován za nejvíce reprezentativní, pokrývající 24,64 % pixelů, a blok 32×32 se umisťuje na druhém místě s podílem 14,06 %.

V rámci analýzy map hloubky (depth maps) byla také provedena podobná studie výběru velikosti PU, jak je znázorněno na obrázku 3.36. I zde jsou čtvercové bloky nejvíce zastoupené, přičemž 8×8 je nejčastěji vybraný s podílem 32,02 %, následovaný 16×16 (15,98 %) a 32×32 (10,22 %). Velikost 64×64 je pátá s 8,34 %. Tento trend potvrzuje, že čtvercové bloky jsou nejen častěji vybírány, ale mají také vyšší reprezentativnost v kódování, a to jak pro textury, tak pro mapy hloubky.

Analýza reprezentativnosti velikostí PU, jak je ukázáno na obrázku 3.37, ukazuje, že pro mapy hloubky jsou nejreprezentativnější velikosti 64×64 (57,06 % pixelů), 32×32 (17,49 %) a 16×16 (6,84 %). Blok 8×8 je na pátém místě s podílem 3,43 %. Čtvercové velikosti bloků tak pokrývají 84,82 % zakódovaných pixelů ve mapách hloubky. Tento výsledek ukazuje, že i když jsou menší bloky (například 8×8) často vybírány, jejich reprezentativnost ve vztahu k celkovému pokrytí obrazu je menší.

Při porovnání metod CCO a FCO se ukazuje několik klíčových rozdílů, zejména v kódování map hloubky. Zatímco v metodě CCO je pouze 6,61 % PU zakódováno pomocí nástrojů pro intra-predikci hloubky, v přístupu FCO tento podíl vzrůstá na 23,31 %. To vede k výraznému nárůstu podílu pixelů zakódovaných intra nástroji, což je způsobeno změnou v pořadí kódování, kdy mapy hloubky jsou kódovány před texturami. Tento rozdíl ukazuje, že přístup FCO preferuje intra-predikční kandidáty místo inter-predikčních, což má vliv na celkovou efektivitu kódování.

Další významný rozdíl mezi těmito dvěma přístupy spočívá v používání N×N dělení v kódování map hloubky. V přístupu CCO je tento způsob dělení prakticky nevyužíván (méně než 1 % pixelů), zatímco v přístupu FCO se podíl zakódovaných pixelů s využitím N×N dělení zvyšuje na 6,06 %. Tento trend ukazuje, že v přístupu FCO je využívání N×N dělení pro mapy hloubky výrazně důležitější.

Výběr a reprezentativnost velikostí bloků v predikci Inter hraje klíčovou roli v efektivitě kódování jak pro textury, tak pro mapy hloubky. Čtvercové velikosti bloků, především 8×8, 16×16, 32×32 a 64×64, se ukazují jako nejvíce relevantní pro pokrytí a kódování obrazu. Při porovnání obou přístupů (FCO a CCO) je zřejmé, že přístup FCO nabízí vyváženější rozdělení kódovaných pixelů a efektivněji využívá intra-predikční nástroje, což vede k lepší kvalitě kódování, zejména pro mapy hloubky.

Jaký vliv má omezení velikosti bloků na zvýšení BD-rate v 3D-video sekvencích?

Analýza nárůstu BD-rate v závislosti na omezení velikosti bloků u různých 3D-video sekvencí pro HC1 ukazuje jasný trend, že redukce velikosti bloků na pevné rozměry vede k výraznému zvýšení BD-rate, což znamená zhoršení kompresní efektivity. Například omezení bloků na rozměry 8×8 a 32×32 způsobuje průměrné zvýšení BD-rate okolo 7,81 %, zatímco při rozšíření maximální velikosti bloku na 64×64 se nárůst zvyšuje na 10,49 %. To ukazuje, že větší bloky přinášejí lepší kompresi a omezování jejich velikosti degraduje výslednou kvalitu komprese.

Podobné závěry lze učinit i z dalších kombinací blokových velikostí, kde například omezení na 16×16 a 32×32 nebo 16×16 a 64×64 vykazuje průměrné nárůsty BD-rate mezi 6,78 % až 6,85 %. Omezení větších bloků, jako jsou 32×32 a 64×64, znamená ještě větší nárůst, až 10,75 %. Tyto výsledky jsou konzistentní napříč různými testovanými video sekvencemi, ačkoli individuální hodnoty BD-rate se liší podle charakteru sekvence a její složitosti.

Při detailním pohledu na konkrétní sekvence, jako jsou například „GT_Fly“ nebo „Shark“, je patrné, že některé scény jsou zvlášť citlivé na velikost bloků a jejich omezení může znamenat až několik desítek procent nárůst BD-rate, což značí výrazné zhoršení efektivity kódování.

Další krok v analýze představuje postupné omezování funkcí predikce a vyhledávání, jako je odstranění TZS prediktorů nebo Raster kroků v rámci HC2 konfigurace. Tyto zásahy vedou k ještě výraznějšímu zhoršení, s nárůsty BD-rate často přesahujícími 10 % a v některých případech, zejména u složitých scén, až přes 30 %. Nejextrémnější zhoršení je pozorováno při odstraňování více kroků v rámci HC2, kde BD-rate vzrůstá až na úrovně přes 37 % u průměrných hodnot.

V rámci HC3 a HC4 konfigurací, zahrnujících horizontální omezení disparity a další zjednodušení ME/DE, dochází k dalšímu nárůstu BD-rate. Například HC4, kde se používá pouze SAD jako kritérium podobnosti, deaktivuje bi-směrnou predikci a omezuje vyhledávání na jeden referenční rámec, vykazuje průměrný nárůst BD-rate až kolem 23 %, což ukazuje vysokou cenu těchto zjednodušení.

Tyto statistiky naznačují, že optimalizace blokových velikostí a složitosti vyhledávacích algoritmů má přímý dopad na kompresní efektivitu a kvalitu výsledného obrazu. Přílišná restrikce může znamenat značné zhoršení, které je zvláště patrné u složitějších video sekvencí a 3D-syntetizovaných obrazů.

V závěru je důležité uvědomit si, že při návrhu kompresních algoritmů a architektur pro 3D-video kódování je nutné pečlivě zvážit kompromis mezi složitostí výpočtů, spotřebou energie a dosaženou kvalitou komprese. Eliminace nebo zjednodušení prediktorů a vyhledávacích kroků sice může snižovat nároky na hardware a spotřebu energie, avšak vede k výraznému nárůstu BD-rate a tedy ke ztrátě kvality.

Důležité je také pochopit, že různé video sekvence reagují odlišně na tyto změny. Statistické průměry poskytují obecný přehled, ale detailní analýza jednotlivých sekvencí umožňuje lépe porozumět, kde a jaké úpravy jsou přijatelné. Některé scény s méně složitými strukturami si mohou dovolit větší omezení bez dramatického zhoršení, zatímco u komplexnějších scén je třeba zachovat vyšší flexibilitu v kódování.

Významné je rovněž uvažovat o syntetizovaných videích, kde se kumulativní vliv omezení ještě více projevuje. Proto se při implementaci těchto metod musí brát v úvahu nejen samotná data, ale i výsledný efekt na 3D-syntézu a celkový vizuální zážitek.

Jak lépe porozumět jemným nuancím v mezilidských vztazích?
Jak komunikovat v arabské nemocnici: Jaké fráze znát a co očekávat
Jak somatická cvičení mění naše tělo a mysl: cesta k uvolnění a vědomému pohybu
Jakým způsobem lidé ovlivňují vymírání druhů a co s tím můžeme dělat?