Zpracování 3D videí ve vysokém rozlišení v reálném čase představuje extrémní nároky na výpočetní výkon, přičemž jedním z klíčových úzkých míst je přístup k paměti. Pohybové odhady (ME) v rámci komprese podle standardu 3D-HEVC vyžadují častý přenos dat mezi pamětí a zpracovatelskými jednotkami – například při práci se třemi kamerovými pohledy je nutné načíst až 92 GB/s dat jen pro porovnání kandidátních bloků.

Kritickým aspektem je tedy návrh systému tak, aby umožňoval opakované využívání dat bez nutnosti přenosu z externí paměti. Jedním z efektivních řešení je tzv. Level-C schéma pro znovupoužití dat, které využívá překryv mezi sousedními vyhledávacími okny (Search Windows, SW). Jelikož sousední bloky často sdílejí stejnou část SW, je možné část těchto dat uchovat v on-chip paměti. Při požadavku na nové SW se tak přenáší pouze exkluzivní část nového bloku, zatímco překryvová oblast zůstává zachována. Tato metoda se ukázala jako vysoce efektivní i z pohledu energetické náročnosti, neboť eliminuje nadbytečné operace se sběrnicí a přenosy z externí paměti.

Navzdory svému stáří je Level-C dodnes standardním řešením v hardwarových implementacích ME díky své jednoduchosti a efektivitě. Současné práce navrhují různá vylepšení tohoto přístupu, ale zároveň jej často používají jako základ pro srovnání.

Při samotném pohybovém odhadu dochází ke srovnání aktuálního bloku se sadou referenčních bloků z jiných časových nebo prostorových pozic. Cílem je nalézt co nejpodobnější blok a následně určit vektor pohybu, který popisuje jeho posun vůči aktuálnímu bloku. Díky tomu není nutné uchovávat celý blok, ale pouze rozdíl a jeho polohu vůči referenčnímu bloku.

Aby byla zachována výpočetní efektivita, BMA (Block Matching Algorithm) se neprovádí v celém poli možných kandidátů, ale jen v předem definovaném vyhledávacím okně. V referenční implementaci HEVC (software HM) je použit algoritmus TZS (Test Zone Search), který nabízí kompromis mezi rychlostí a kvalitou výsledku. TZS je rychlý algoritmus, jenž testuje pouze malý počet kandidátů ve vyhledávacím okně, ale přitom si zachovává podobný vizuální výstup jako nákladnější Full Search metoda.

Algoritmus TZS je strukturován do čtyř fází: Prediction, First Search, Raster a Refinement. V predikční fázi se testuje pět předvolených prediktorů, které na základě statistické pravděpodobnosti určují nejlepší výchozí bod. První vyhledávání a následné zpřesňování pak probíhá formou expanzivního vyhledávání – nejprve v okolí výchozího bodu a poté se postupně rozšiřuje ve specifickém geometrickém vzoru (např. diamantovém).

První vyhledávání končí, pokud dosáhne hranic SW nebo pokud tři po sobě jdoucí expanze nenajdou lepší blok. Refinement fáze se od první liší tím, že v případě nenalezení lepšího bloku pokračuje z nejlepšího nalezeného bodu novou iterací. To vede k nelineárnímu a obtížně předvídatelnému chování TZS algoritmu.

Mezi těmito dvěma fázemi může být zařazena ještě Raster

Jak ovlivňuje výběr velikosti bloků predikci v CCO Inter a FCO přístupech?

V predikci mezi snímky (Inter prediction) ve video kompresi, je velikost bloků klíčovým faktorem pro dosažení efektivního kódování. Když se podíváme na reprezentativnost různých velikostí bloků, zjistíme, že každá velikost bloků nabízí specifické výhody, které závisí na charakteristice dat, jakými jsou textury nebo hloubkové mapy. Tento výběr bloků, ať už v rámci CCO Inter predikce nebo FCO přístupu, má významný vliv na kvalitu komprese a výkon samotného kódování.

Při zohlednění textur (obrázky), predikce Inter přístupu v CCO ukazuje, že určité velikosti bloků jsou více reprezentativní než jiné. Například, když jsou použity menší bloky, dochází k lepšímu zachycení jemnějších detailů, což je efektivní v případech, kdy jsou textury vysoce proměnlivé. Na druhé straně větší bloky mohou nabídnout lepší kompresní poměr při méně komplexních texturních prvcích. Tento efekt je přítomen také při použití hloubkových map, kde je volba velikosti bloků rovněž klíčová pro efektivitu predikce a dosažení co nejlepších výsledků komprese.

Pokud se zaměříme na FCO přístup, je třeba si uvědomit, že tento metodický rámec zahrnuje širší výběr typů predikcí jak pro mezi-snímkou (Inter-frame) predikci, tak pro intra-snímkou (Intra-frame). FCO přístup je flexibilní v tom, že umožňuje variabilitu velikosti predikčních jednotek (PU), které jsou vybrány v závislosti na specifických potřebách kódování, přičemž se používají různé režimy (např. režim přeskočení, typy dělení a hloubková úroveň CU). Výběr správné velikosti PU pro textury a hloubkové mapy může výrazně ovlivnit jak kvalitu, tak i rychlost kódování, zejména při použití složitějších režimů.

Důležitou součástí analýzy tohoto výběru je i zohlednění vlivu na časovou složitost a výkonnost. V případě, že se rozhodneme pro menší bloky, kódování může vyžadovat více výpočtů, což může zhoršit výkon systému. Naopak větší bloky mohou výrazně snížit potřebný výpočetní výkon, ale na úkor jemnosti zachycení detailů.

Dalším aspektem, který by měl čtenář mít na paměti, je, že volba velikosti bloků není univerzální pro všechny typy scén a dat. Když se používají textury s komplexními detaily, menší bloky mohou poskytnout lepší reprezentaci těchto detailů. U scén, kde jsou dominantní větší oblasti s menšími změnami, větší bloky mohou nabídnout vyšší efektivitu.

Pro přechod na hloubkové mapy je rovněž zásadní zvážit specifické vlastnosti dat, jakými jsou například změny v hloubce mezi snímky. S rostoucí složitostí scén s více detaily a různými hloubkovými hodnotami se opět ukazuje výhodnost volby menších bloků pro přesnější predikci.

Významně je třeba si uvědomit i faktory jako je typ použitých predikčních režimů, například režimy jako DIS nebo různé metody dělení bloků. Tyto režimy mohou ovlivnit jak velikost bloků, tak i jejich predikční schopnosti. Například použití DIS režimu na hloubkové mapy často přináší specifické výhody, pokud jde o kvalitu predikce a snížení chybovosti, přičemž velikost bloků hraje v těchto metodách velmi důležitou roli.

Celkově je rozhodování o velikosti bloků v predikci CCO Inter a FCO přístupech složitým procesem, který zahrnuje nejenom efektivitu kódování, ale i kvalitu výsledného obrazu. Uživatelé těchto technologií musí pečlivě analyzovat charakteristiku vstupních dat a na základě toho optimalizovat výběr bloků pro dosažení nejlepšího kompromisu mezi kompresí a výkonností.