Jak optimalizovat výkon 3D-HEVC kódování pro vysoké rozlišení?

Při kódování 3D videí ve formátu 3D-HEVC, která zahrnují tři pohledy (textury plus jejich odpovídající mapy hloubky), je nutné efektivně vyřešit problémy související s vysokými nároky na šířku pásma paměti a výpočetní výkon. V tomto kontextu se používají různé techniky, jako je statické plánování HOTZS (Hardware-Oriented TZS) a rychlý algoritmus HDS (Horizontal Disparity Search) pro hledání bloků, jak je podrobně popsáno v kapitole 5.1. V této práci byly přijaté hledací vzory výrazně jednodušší než u původního algoritmu TZS, přičemž se zvažovaly pouze velikosti bloků 32x32 a 16x16.

Pokud není použita žádná on-chip SRAM paměť, tedy pokud jednotka ME/DE komunikuje přímo s externí pamětí, požadavky na komunikaci při reálném kódování dosahují 92 GB/s, jak ukazuje obrázek 3.2. To je neproveditelné, protože současné technologie pamětí, jako jsou vestavěné nízkovýkonné paměti, poskytují maximálně 25,6 GB/s v ideálních podmínkách (Micron 2014). Tato výkonnost je tedy neuskutečnitelná. Použití on-chip SRAM paměti pro přednačítání a ukládání SW používaného pro hledání bloků (360 kB) však snižuje komunikaci na 9,3 GB/s. Pokud je navíc použit schéma Level-C (viz Sect. 2.1.2.2.1), šířka pásma paměti se sníží na 3,1 GB/s, což vede k celkovému snížení komunikace o 96%, jak je zobrazeno na obrázku 3.2. I přes toto zlepšení zůstávají vysoké nároky na energetickou spotřebu související s komunikací s externí pamětí a dynamickým i statickým spotřebováním energie on-chip SRAM, což stále brání implementaci 3D reálných systémů, zejména zaměřených na přenosné zařízení.

Kromě toho bylo v práci (Afonso et al. 2019a) odhadnuto množství paměťových operací DE/ME pro kódování HD 1080p MVD videí s 24 možnými velikostmi PU (plné RDO náklady). V tomto případě bylo definováno množství kódovaných pohledů s cílem vytvořit systém schopný poskytnout devět pohledů po dekódování. 3D-HEVC vyžaduje 1,13 × 10^9 zápisů do paměti a 361 × 10^9 čtení paměti za sekundu při kódování tří HD 1080p pohledů (textura plus mapy hloubky). Ačkoliv je to proveditelné, spotřeba energie související s paměťovou hierarchií zůstává vysoká kvůli komunikaci s externí pamětí a spotřebě energie on-chip SRAM. Proto je nezbytné mít paměťovou hierarchii, která zahrnuje on-chip SRAM pro ukládání dat, ale stále je potřeba minimalizovat komunikaci s externí pamětí, zredukovat velikost on-chip SRAM (aby se snížila spotřeba statického/úniku) a efektivně spravovat celou paměťovou hierarchii.

Výpočetní nároky spojené s kroky ME/DE v rámci 3D-HEVC jsou dosud v literatuře málo prozkoumány. Některé práce, jako (Afonso et al. 2016), hodnotily výpočetní nároky ME v rámci 2D přístupu s HEVC Reference Software (HM - HEVC Test Model) podle běžných testovacích podmínek pro standard HEVC (2D videa; Bossen 2013). Výsledky těchto studií však nelze extrapolovat pro chování ME/DE v kontextu 3D-HEVC spolu s formátem MVD. Tento text přináší hodnocení výpočetní náročnosti ME a DE kroků a ukazuje vztah mezi ME, DE a Intra-předpovědí rámců a dalšími nástroji používanými v 3D-HTM. Experimenty byly provedeny na konfiguraci RA (Random-Access) (Bossen 2013), přičemž byly použity dvě video sekvence (Balloons a Undo Dancer) definované v CTC (Müller et al. 2014) se dvěma hodnotami QP (30 a 39), rovněž definovanými v CTC.

Při použití konfigurace RA jsou dostupné nástroje pro predikci Inter-rámců, Inter-pohledů a Intra-rámců pro kódování textury a map hloubky. Jak ukazuje obrázek 3.3, čas strávený u každého z kanálů (textura a mapy hloubky) je podobný při použití kódovacího procesu, který zahrnuje kroky ME/DE. Textura využívá 51,1% kódovacího času, zatímco mapy hloubky spotřebovávají 48,9% času. Pokud se podíváme na kanál textury, podstatná část výpočetního úsilí je vynaložena na kroky ME/DE, kde ME odpovídá za 40,95% času, DE za 10,58%, a ostatní kódovací nástroje (Intra HEVC, transformace, kvantizace atd.) za zbytek času (48,47%). Pokud jde o mapy hloubky, podíl výpočetního úsilí na ME/DE je výrazně menší: ME využívá pouze 6,33% času, DE 2,29% a ostatní nástroje (Intra HEVC, DMM-1, DMM-4, DIS, transformace, kvantizace, SDC atd.) 91,38%. Tento chování je očekávané, protože Intra-předpovědní nástroje jsou k dispozici a mapy hloubky jsou efektivněji kódovány pomocí nových Intra-předpovědních nástrojů navržených právě pro tento typ informací.

Výsledky týkající se času kódování ME/DE a Intra-předpovědí ukazují, že kroky ME/DE zvyšují složitost kódování textury a nové intra-kódovací nástroje pro 3D-HEVC zvyšují složitost kódování map hloubky. Čas strávený na predikcích je tedy významný ve všech kódovacích procesech. Krok ME/DE predikcí spotřebuje 29,84% času, zatímco Intra-predikce rámců 12,52% času. Zbývajících 57,64% času je věnováno ostatním kódovacím nástrojům.

Výsledky týkající se paměti a výpočetní náročnosti ukazují na nutnost vývoje strategií pro snížení složitosti a návrhů VLSI zaměřených jak na Intra-předpovědi 3D-HEVC, tak na Inter-rámcové a Inter-pohledové predikce.

Jaké jsou výzvy a řešení v návrhu hardwaru pro intra-frame predikci v 3D-HEVC?

Pro efektivní zpracování 3D videí v reálném čase je nezbytný vývoj hardwarových řešení, která zvládnou náročné výpočetní úlohy intra-frame predikce, zejména u formátu 3D-HEVC. Intra-frame predikce podle CCO a RA profilu vyžaduje přibližně 12,5 % celkového výpočetního úsilí při kódování, přičemž nové predikční módy specifické pro 3D-HEVC se zaměřují na hloubkové mapy a představují zhruba 6 % celkového času kódování. Tento fakt ukazuje, že redukce složitosti intra-frame predikce má zásadní význam pro zajištění reálného času s nízkou spotřebou energie.

Výsledky výzkumu a syntéz hardwarových návrhů ukazují, že klíčovým problémem není pouze dosažení vysokého průtoku dat, ale také optimalizace spotřeby energie a rozměrů čipu. Například navržený hardware dosahuje frekvence téměř 200 MHz a výkonové spotřeby 66,7 mW pro zpracování jednoho pohledu HD1080p videa při 30 fps, což vede k energetické efektivitě 1,072 nJ na vzorek. To představuje významné zlepšení oproti srovnatelným návrhům, které vykazují vyšší spotřebu energie a větší hardwarovou náročnost, především kvůli nutnosti rozsáhlých paměťových bloků pro ukládání wedgeletů.

Analýza ukazuje, že některé přístupy vyžadují velké množství dedikované paměti (až několik milionů bitů), což výrazně zvyšuje oblast čipu a spotřebu energie. Naopak implementace algoritmu Bresenham v navrženém hardwaru umožňuje eliminaci potřeby této paměti, čímž se značně šetří hardwarové zdroje. Navržený systém také umožňuje paralelní zpracování až devíti pohledů najednou při zachování reálného času, což je významný krok vpřed oproti řešením zaměřeným pouze na jeden či několik málo pohledů.

Součástí práce je také důkladná analýza rozložení módů intra-frame predikce a jejich výpočetních nároků v kontextu konfigurace Flexible Coding Order (FCO). Tato analýza umožnila definovat hardwarově orientované heuristiky, které využívají korelaci mezi kanály textury a hloubkových map pro snížení celkové složitosti zpracování bez podstatné ztráty kvality obrazu. Takový přístup otevírá novou cestu k efektivnímu využití redundancí mezi kanály a nabízí významnou úsporu výpočetních prostředků.

3D-HEVC využívá několik nových intra-frame módů (DMM-1, DMM-4, DIS), které jsou navrženy speciálně pro zachování charakteristických rysů hloubkových map – například ostrých hran objektů a hladkých ploch uvnitř objektů. Tyto módy doplňují standardní HEVC predikční módy DC, Planar a Angular, které nejsou pro hloubkové mapy ideální. Hardware vyvinutý v rámci této práce podporuje kompletní sadu intra-frame módů pro všechny typy kanálů (luminance, chrominance, hloubkové mapy) a je schopen zpracovat celé přístupové jednotky obsahující více pohledů.

Přes vysokou komplexitu a široké spektrum podporovaných funkcí, návrh dosahuje nízké spotřeby energie a vysokého průtoku, což jej činí vhodným pro implementace v ASIC technologiích s výrobními procesy od 40 nm a dále. Při porovnání s existujícími návrhy je zřejmé, že optimalizace paměťových požadavků a využití paralelního zpracování jsou klíčovými faktory úspěchu. Zároveň se ukazuje, že pouhá replikace hardwaru starších návrhů není efektivní cesta, protože výrazně navyšuje plochu a spotřebu, aniž by byla zachována požadovaná energetická efektivita.

Důležité je také zmínit, že všechny uvedené výsledky byly ověřeny podle standardních testovacích podmínek JCT-3V, které zahrnují různé video sekvence a kvantizační parametry, což zajišťuje relevantnost a použitelnost těchto řešení v reálných aplikacích.

Z hlediska čtenáře je zásadní pochopit, že vývoj hardwaru pro 3D video kódování není jen o rychlosti zpracování, ale především o nalezení rovnováhy mezi výpočetní složitostí, energetickou náročností a kvalitou výsledného obrazu. Každý krok v návrhu musí brát v úvahu vzájemné vazby mezi datovými strukturami, algoritmy predikce a fyzickou implementací na čipu. Schopnost efektivně využít korelace mezi texturou a hloubkou nejen snižuje potřebu výpočetních zdrojů, ale zároveň otevírá prostor pro další optimalizace a rozšíření funkcionality.

Jak optimalizovat spotřebu energie a efektivitu kódování v 3D-HEVC odhadu disparit

V oblasti kódování videa pro 3D-HEVC se nedávno vyvinula architektura, která zlepšuje jak efektivitu kódování, tak energetickou náročnost, přičemž využívá novou metodu iUDS, jež nahrazuje dřívější TZS algoritmus. Tato nová architektura, která dokáže zpracovávat UHD 2160p 3D videa při 60 snímcích za sekundu, se ukazuje jako efektivnější než starší implementace, zejména v kontextu využití hardwarových prostředků. Hlavním rozdílem je právě výměna TZS za iUDS, která nejen zlepšuje výkon zařízení, ale také výrazně snižuje požadavky na paměť a spotřebu energie.

iUDS, na rozdíl od TZS, potřebuje ke zpracování vzorků pouze tři řádky dat pro každý blok CTU (Coding Tree Unit). Tato redukce v potřebách na paměť je významná, neboť v případě použití TZS musí být uchovány všechny možné kandidátní bloky v paměti, což činí velikost požadované on-chip paměti třikrát větší než při použití iUDS. Jak ukazuje srovnání, paměťová náročnost TZS ve srovnání s iUDS znamená pro iUDS snížení až o 65,62 %, což je kladné pro optimalizaci spotřeby energie i celkovou velikost hardwarového zařízení.

Tento pokrok v architektuře je také podporován optimalizací čtení a zápisu do paměti, kde algoritmus iUDS vykazuje nižší spotřebu energie při operacích spojených s paměťovým systémem. Jak bylo ukázáno v testech, spotřeba dynamické energie při použití iUDS může klesnout až o 62,1 % v porovnání s TZS. Tento pokles je způsoben nejen menším počtem hodnocených kandidátních bloků, ale také optimalizací paměťových operací, které jsou klíčové pro efektivitu systému.

Důležitým aspektem je i vliv na spotřebu statické energie, která se také snižuje, což je přímo spojeno s menší velikostí on-chip paměti. To má přímý vliv na celkovou energetickou náročnost, kdy snižování velikosti paměti vede k nižší spotřebě energie i na úrovni hardware. V rámci hodnocení dynamické spotřeby energie při různých scénářích, kdy je počet kandidátních bloků hodnocen na základě obsahu videa, se ukázalo, že přechod na iUDS přináší značné úspory.

Dalším klíčovým faktorem je schopnost nové architektury podporovat všechny 24 možných velikostí predikčních jednotek (PU), které jsou potřebné pro zpracování UHD 2160p 3D videí při 60 snímcích za sekundu. Tato vysoká propustnost je nezbytná pro zvládnutí složitosti a rozsahu dat, které musí být kódovány a dekódovány v rámci 3D-HEVC. S použitím iUDS algoritmu dosahuje architektura vysokého výkonu při nízké spotřebě energie, což je zvláště důležité pro zařízení s omezenými energetickými a paměťovými prostředky, jako jsou mobilní zařízení.

Z hlediska optimalizace výkonu a efektivity, výběr operačních bodů s ohledem na vertikální refinování umožňuje flexibilitu v řízení spotřeby energie a efektivity kódování. Testování a analýza operačních bodů ukázaly, že iUDS poskytuje lepší vyvážení mezi kódovací efektivitou a spotřebou energie, což je zásadní pro nasazení ve skutečných aplikacích. Tento přístup nejen že zajišťuje lepší výsledky z hlediska zpracování videa, ale také pomáhá snížit potřebu komplexních hardwarových řešení, což vede k úsporám na vývoj a implementaci.

Pro čtenáře je důležité si uvědomit, že vývoj v oblasti kódování videa, zejména u pokročilých formátů jako 3D-HEVC, je silně ovlivněn potřebou optimalizovat jak výpočetní nároky, tak spotřebu energie. Nové algoritmy, jako je iUDS, představují krok směrem k efektivnějšímu využívání zdrojů v embedded systémech. Tento pokrok umožňuje rozšíření aplikací v oblasti multimediálních služeb a 3D videa, kde je kombinace vysoké kvality obrazu a nízké spotřeby energie zásadní. Optimální architektura pro takové systémy musí zahrnovat jak nízkou energetickou náročnost, tak dostatečný výkon pro zpracování komplexních datových struktur, jakými jsou například depth maps a texture frames.

Jak instalovat Apache pomocí nástrojů pro správu konfigurace: Puppet, Chef, Ansible, SaltStack
Jak využít knihovnu Pandas pro analýzu a manipulaci s daty
Jaké bylo rozhodující rozhodnutí pro Blue Steele?
Jak zlepšit výkon klasifikačních modelů pomocí náhodných lesů a gradientního boostingu?
Jak vytvořit vyvážený jídelníček pro úspěšné hubnutí?