W ostatnich latach generacja obrazów oparta na tekstach zyskała ogromną popularność, przyciągając uwagę zarówno badaczy, jak i praktyków. Kluczowym wyzwaniem w tej dziedzinie jest osiągnięcie wysokiej jakości odwzorowania scen, które będą zarówno spójne, jak i realistyczne, zwłaszcza w kontekście bardziej złożonych i dynamicznych środowisk. Mimo że modele takie jak StyleGAN3 czy InfinityGAN obiecuje rewolucję w generowaniu obrazów o nieskończonej rozdzielczości, ich wydajność w zakresie utrzymania globalnej spójności sceny pozostaje ograniczona. Wiele z tych metod ma trudności w generowaniu realistycznych scen na wysokich rozdzielczościach, szczególnie gdy trzeba uwzględnić subtelności w detalach, które stają się widoczne przy większym powiększeniu.

Generacja obrazów z tekstu opiera się na wykorzystaniu parowanych zbiorów danych tekst-obraz, które pozwalają na trenowanie modeli na bazie informacji o tym, jak dany tekst odpowiada wizualnej reprezentacji. W ostatnich latach model CLIP otworzył nowe możliwości generowania obrazów opartych na tekstach, eliminując potrzebę stosowania parowanych danych. Choć ta technika umożliwia generowanie obrazów na podstawie opisów tekstowych, nadal pozostaje wyzwaniem, aby precyzyjnie powiązać semantykę opisaną słowami z wizualnymi detalami, szczególnie w kontekście bardziej skomplikowanych scen.

W kontekście fotorealistycznych renderów, kluczowym elementem jest uchwycenie szerokiego zakresu dynamiki światła (HDR), co ma fundamentalne znaczenie dla realistycznych obrazów przedstawiających prawdziwe środowiska. Odwrócone mapowanie tonów (inverse tone mapping) stanowi jedną z metod przekształcania obrazów o niskiej rozdzielczości tonalnej (LDR) w ich odpowiedniki HDR. Choć proponowane techniki konwolucyjne radzą sobie w większości przypadków, napotykają trudności w przypadku obrazów o różnych skalach. Opracowane podejście, oparte na reprezentacji panoram HDR jako ciągłych pól na powierzchni sferycznej, pozwala na skuteczne odwzorowanie HDR z LDR przy użyciu sieci typu MLP.

Wykorzystanie panoramicznych obrazów 360° jako reprezentacji sceny jest wyjątkowo efektywne w aplikacjach VR oraz filmowych. Inaczej niż tradycyjne obrazy, panoramiczne fotografie oferują pełne pole widzenia, co czyni je idealnymi do odwzorowywania środowisk trójwymiarowych. Reprezentacja taka pozwala na mapowanie scen na jednostkową sferę, gdzie każdy piksel obrazu przypisany jest do punktu na tej sferze. Przekształcenie takie pozwala na odwzorowanie 3D w sposób spójny z rzeczywistością, zapewniając lepsze uchwycenie informacji przestrzennych.

Aby skutecznie uchwycić geometrię przestrzenną 3D, zaprezentowano podejście wykorzystujące kodowanie pozycyjne sferyczne (SPE), które zapewnia zachowanie zgodności przestrzennej i uwzględnia informacje o pozycji w trakcie generowania sceny. Dzięki zastosowaniu kodowania Fourier'a, model może lepiej uchwycić szczegóły wysokiej częstotliwości, które są kluczowe w początkowych etapach generowania sceny, a jednocześnie uwzględniać priorytety przestrzenne w dalszych etapach.

Nasza propozycja generowania szczegółowych scen 3D na podstawie opisów tekstowych stanowi próbę rozwiązania wielu z tych wyzwań. Proces ten podzielony jest na dwa główne etapy. Pierwszy z nich, generacja sceny LDR z tekstu, obejmuje wykorzystanie podejścia hierarchicznego, które umożliwia tworzenie panoram o niskiej rozdzielczości i niskim zakresie dynamicznym. W tym etapie wykorzystywane są dwa oddzielne zestawy kodów: kod globalny, który odpowiada za ogólne cechy sceny, oraz kod lokalny, który zajmuje się szczegółami tekstur w poszczególnych częściach obrazu. Dzięki temu możliwe jest uzyskanie spójnej i szczegółowej reprezentacji sceny.

Drugim etapem jest przekształcenie wyników z etapu pierwszego na sceny HDR o wysokiej rozdzielczości, które mogą być użyte w aplikacjach VR czy renderingu. Nasze podejście wykorzystuje sieci neuronowe do rozdzielania procesu generacji na dwa poziomy: szerokie, globalne cechy sceny oraz szczegóły lokalne, co zapewnia bardziej efektywne odwzorowanie przestrzeni.

Ważnym aspektem tego procesu jest wykorzystanie modelu CLIP, który umożliwia generowanie obrazów z tekstu w sposób zero-shot, czyli bez konieczności dostosowywania modelu do konkretnych danych wejściowych. W praktyce jednak, modele te mają trudności z generowaniem pełnych, spójnych scen, zwłaszcza w kontekście bardziej złożonych środowisk, gdzie subtelności w semantyce opisów tekstowych mogą prowadzić do niezgodności między treścią opisu a finalnym obrazem. Rozwiązanie tego problemu wymaga zaawansowanego podejścia do modelowania i algorytmów generujących, które potrafią skutecznie przełożyć tekst na szczegółowy obraz 3D, zachowując wysoką spójność sceny.

Endtext

Jak działa wykrywanie obiektów w otwartym słowniku przy użyciu Transformerów?

Wykrywanie obiektów w otwartym słowniku (ang. Open-Vocabulary Object Detection) to technika, która umożliwia identyfikowanie i lokalizowanie obiektów z nieograniczonego zbioru kategorii. Jest to duża zmiana w porównaniu do tradycyjnych algorytmów wykrywania obiektów, które opierają się na zamkniętym zestawie kategorii. W klasycznym podejściu, algorytmy wykrywają tylko te obiekty, które zostały wcześniej zdefiniowane i uwzględnione w zbiorze danych, na którym zostały wytrenowane, takim jak Pascal VOC czy COCO. Na przykład, model wytrenowany na danych COCO będzie w stanie wykrywać tylko 80 kategorii obiektów, takich jak „osoba”, „kot” czy „pies”. Jednak co, jeśli model chciałby rozpoznać inne obiekty, których nigdy wcześniej nie widział?

Wykrywanie obiektów w otwartym słowniku stara się rozwiązać ten problem, umożliwiając modelom rozpoznawanie obiektów spoza wcześniej zdefiniowanych kategorii, bazując na ich nazwach klas lub obrazach przykładów, które mogą zostać dostarczone przez użytkownika. To otwiera nowe możliwości w interakcji człowiek-komputer, gdzie użytkownik może podać dowolną nazwę obiektu lub obrazek, a model będzie w stanie go zidentyfikować i wskazać jego położenie na obrazie.

Wyzwania związane z wykrywaniem obiektów w otwartym słowniku

Przy adaptacji klasycznych algorytmów wykrywania obiektów, takich jak DETR (Detection Transformer), dla zadań wykrywania obiektów w otwartym słowniku pojawia się poważne wyzwanie: brak dostępu do obrazów z etykietami dla nowych klas, które mają zostać wykryte. Z tradycyjnego podejścia, które polega na dopasowywaniu kosztów klasyfikacji do etykietowanych obrazów, trzeba zrezygnować. Dla klas, których model nigdy wcześniej nie widział, niemożliwe jest obliczenie tego kosztu bez dostępu do danych uczących. Jak więc nauczyć model rozpoznawania nowych klas, gdy nie mamy pełnych zbiorów danych z etykietami?

Jednym ze sposobów rozwiązania tego problemu jest przekształcenie zadania w zadanie dopasowania binarnego, w którym model stara się dopasować zapytania wejściowe (tekstowe lub obrazowe) do obiektów na obrazie. Dzięki temu, nawet w przypadku nowych klas, model jest w stanie efektywnie nauczyć się właściwego dopasowania, co pozwala na skuteczną generalizację do zapytań, które pojawiają się podczas testowania.

Zastosowanie w praktyce

Jednym z pionierskich podejść w tym zakresie jest OV-DETR (Open-Vocabulary Detection Transformer), które stanowi pierwszy w pełni oparty na Transformerze model wykrywania obiektów w otwartym słowniku. Kluczowym elementem OV-DETR jest jego zdolność do pracy z danymi wejściowymi w postaci nazw klas obiektów lub obrazów przykładów, które mogą być dostarczone przez użytkownika w czasie rzeczywistym. Zamiast tradycyjnych etykietowanych danych, model opiera się na wcześniejszym wytrenowaniu z użyciem modeli językowo-wizualnych, takich jak CLIP (Contrastive Language-Image Pretraining). Dzięki temu model jest w stanie wykrywać obiekty z szerokiego zakresu kategorii, nawet jeśli nigdy wcześniej nie widział ich w zbiorach treningowych.

Trening modelu polega na dopasowywaniu zapytań, które mogą pochodzić z tekstu lub obrazu, do odpowiadających im obiektów na obrazach. Zastosowanie CLIP jako źródła wstępnie wytrenowanych osadzeń wizualno-językowych umożliwia modelowi skuteczne rozpoznawanie obiektów na podstawie zapytań tekstowych i obrazowych. Dzięki temu OV-DETR jest w stanie wykrywać obiekty, których klasy nie były obecne w zbiorach treningowych, co czyni go bardzo elastycznym narzędziem do szerokiego zakresu zastosowań.

Wyniki eksperymentalne

W badaniach przeprowadzonych na popularnych zbiorach danych, takich jak LVIS i COCO, OV-DETR wykazał znaczną przewagę nad tradycyjnymi metodami wykrywania obiektów, które opierały się na zamkniętym zbiorze klas. Model ten okazał się w stanie skutecznie identyfikować obiekty spoza treningowego zestawu klas, osiągając lepsze wyniki w porównaniu z dotychczasowymi bazowymi metodami wykrywania obiektów.

OV-DETR, jako pierwszy na świecie detektor oparty na Transformerze, jest przykładem nowatorskiego podejścia w dziedzinie sztucznej inteligencji, które pozwala na wyjście poza granice tradycyjnych zbiorów danych i klas, oferując znacznie szersze możliwości wykrywania obiektów. Dzięki wykorzystaniu zaawansowanych technik dopasowania zapytań oraz modelów językowo-wizualnych, detekcja obiektów w otwartym słowniku staje się bardziej uniwersalna, efektywna i dostosowana do potrzeb użytkowników.

Co warto dodać?

Pomimo imponujących wyników, które osiąga OV-DETR, ważne jest, aby zauważyć, że wykrywanie obiektów w otwartym słowniku wiąże się z pewnymi ograniczeniami. Modele oparte na tej technologii mogą napotkać trudności w rozpoznawaniu obiektów, które są zbyt nietypowe lub których cechy wizualne są zbliżone do innych, znanych obiektów. Ponadto, nie każde zapytanie tekstowe lub obrazowe może być w pełni reprezentatywne dla wszystkich możliwych wariacji obiektów, co może prowadzić do problemów w niektórych specyficznych przypadkach. W związku z tym, aby zapewnić pełną skuteczność wykrywania obiektów w otwartym słowniku, konieczne jest dalsze doskonalenie metod kalibracji oraz wykorzystywanie różnych podejść do dostosowywania modeli do nowych kategorii w bardziej zróżnicowanych kontekstach.

Jak zwiększyć zdolności denoisingowe architektury U-Net w modelach dyfuzji?

Współczesne modele dyfuzji, szczególnie te oparte na architekturze U-Net, stały się fundamentem w zadaniach związanych z generowaniem obrazów. Ich zdolność do skutecznego oczyszczania danych (denoising) pozwala na generowanie realistycznych obrazów z szumów Gaussa. Jednak, jak wskazuje praktyka, optymalizacja celu w procesie treningu może prowadzić do zjawiska niezamierzonego przyspieszenia konwergencji do predykcji szumu, co może utrudniać rekonstrukcję danych wejściowych. Efektem tego może być osłabienie pierwotnych zdolności denoisingowych samej architektury U-Net, co z kolei może obniżyć jakość generowanych danych w procesie wnioskowania.

Różnica między procesem treningowym a procesem inferencji jest kluczowa. Podczas gdy w treningu celem jest jak najwierniejsze odwzorowanie danych wejściowych, w inferencji celem jest generowanie danych wyjściowych z losowego szumu, co wymaga szczególnego wzmocnienia zdolności denoisingowych modelu. To właśnie podczas inferencji zdolności generatywne modeli dyfuzji, manifestujące się poprzez denoising, są decydujące dla jakości wygenerowanych danych. W związku z tym, aby zapewnić wysoką jakość generowanych obrazów, konieczne jest wzmocnienie zdolności denoisingowych U-Net.

Aby sprostać temu wyzwaniu, zaprezentowano metodę "FreeU", której celem jest poprawa zdolności denoisingowych architektury U-Net bez konieczności dodatkowego trenowania czy dostrajania modelu. FreeU wykorzystuje mocne strony obu składników architektury U-Net, wprowadzając jednocześnie istotne zmiany w skalowaniu cech kręgosłupa (backbone scaling) oraz w funkcjonowaniu cech przeskokowych (skip features).

W przypadku skali cech kręgosłupa, zaproponowano metodę „scale aware scaling”, która dynamicznie dostosowuje współczynnik skalowania do specyficznych cech próbek. W klasycznym podejściu stosuje się stały współczynnik skalowania, który jest jednolity dla wszystkich próbek. W metodzie FreeU, skala jest dostosowywana na podstawie średniego mapy cech wzdłuż kanału. Wartość mapy cech jest obliczana na podstawie średniej w danym kanale, co pozwala na uwzględnienie strukturalnych informacji w cechach kręgosłupa. W rezultacie wzmocnione cechy mogą lepiej współgrać z charakterystyką strukturalną obrazów, co wpływa na ich jakość. W przypadku testów ekspermentalnych, zauważono, że nadmierne wzmocnienie wszystkich kanałów może prowadzić do wygładzenia tekstur, przez co obrazy stają się mniej szczegółowe. Dlatego FreeU wprowadza ograniczenie, które stosuje skalowanie tylko do połowy kanałów cech, co pozwala uniknąć nadmiernego wygładzania i zachować detale w generowanych obrazach.

W przypadku cech przeskokowych, FreeU stosuje modulację spektralną w dziedzinie Fouriera, która umożliwia selektywne wygładzanie komponentów niskiej częstotliwości. Jest to realizowane za pomocą maski Fouriera, której celem jest zmniejszenie wpływu niskoczęstotliwościowych komponentów na generowane obrazy. Operacja ta przyczynia się do poprawy szczegółów obrazu, gdyż niski poziom częstotliwości nie wnosi istotnych informacji, szczególnie przy generowaniu tekstur i detali.

Bez konieczności dostrajania czy dodatkowego trenowania, FreeU wprowadza istotne zmiany w procesie inferencji, dzięki czemu możliwe jest osiągnięcie znacznej poprawy jakości generowanych obrazów. Proces implementacji tej metody jest stosunkowo prosty, a jej włączenie do istniejących modeli dyfuzji nie wiąże się z dodatkowymi kosztami obliczeniowymi, co czyni ją niezwykle efektywną w zastosowaniach praktycznych. FreeU można zintegrować z popularnymi metodami generowania obrazów, takimi jak Stable Diffusion, ModelScope czy Dreambooth, i uzyskać znaczną poprawę jakości generowanych wyników bez konieczności stosowania kosztownych i czasochłonnych procesów trenowania.

Co warto dodać do tego, by w pełni zrozumieć zastosowanie FreeU i podobnych metod? Przede wszystkim warto pamiętać, że proces generowania obrazów nie jest jedynie kwestą techniczną – ma on również wymiar estetyczny. Zwiększenie jakości obrazów dzięki wzmocnieniu denoisingu nie polega tylko na poprawie szczegółów, ale także na uchwyceniu subtelnych niuansów, które mogą mieć kluczowe znaczenie w kontekście percepcji wizualnej. Istotne jest również zrozumienie, że różne techniki, takie jak modulacja spektralna czy dynamiczne skalowanie cech, mają swoje ograniczenia i wymagają starannego doboru parametrów. Bez odpowiedniej kalibracji, mogą one prowadzić do efektów ubocznych, takich jak nadmierne wygładzanie, co w konsekwencji obniża jakość detali. Finalnie, choć metody takie jak FreeU stanowią krok ku uproszczeniu i poprawie jakości generowania obrazów, to wciąż pozostają wyzwaniem w kontekście utrzymania równowagi między jakością a wydajnością obliczeniową.