W procesie usuwania szumów, MotionDiffuse przewiduje termin szumowy εθ (xt , t, text), który należy do przestrzeni F×D R, gdzie F oznacza liczbę klatek, a D reprezentuje wymiarowość każdej postawy. Ten termin szumowy odpowiada za kierunek usuwania szumów dla całego ciała. Zainspirowany interpolacją kodów latentnych, MotionDiffuse wprowadza metodę „interpolacji szumów”, która pozwala na niezależną kontrolę różnych części ciała. Podczas każdego kroku usuwania szumów obliczany jest termin szumowy εj = εθ (xt , t, Text∗,j ), dla każdej części ciała, gdzie j ∈ [1, NS]. Terminy te są następnie łączone zgodnie z równaniem:

εpart=j=1NS(εpartjMj)+λ1εpartjεpartεpart = \sum_{j=1}^{NS} (εpart_j · M_j) + λ_1 · ∇ ‖ εpart_j − εpart ‖

gdzie M_j to wektor binarny, który określa interesującą część ciała, a λ1 jest hiperparametrem równoważącym oba składniki. Celem tej korekcji jest zapewnienie spójności w nakładających się obszarach.

Podobnie jak w przypadku niezależnej kontroli części ciała, MotionDiffuse najpierw oblicza εtime_i = εθ (xt , t, Texti,∗) dla każdego segmentu czasowego, a następnie interpoluje te terminy szumowe z korekcją:

εtime=i=1NT(εtimei+λ2εtimeiεi)εtime = \sum_{i=1}^{NT} (εtime_i + λ_2 · ∇ ‖εtime_i − ε_i‖)

gdzie λ2 jest kolejnym hiperparametrem, który wpływa na skuteczność tej interpolacji.

Podczas fazy testowej, metoda drobno-skalowanej generacji MotionDiffuse potrafi wytwarzać płynne ruchy w prostych scenariuszach, zachowując spójność semantyczną różnych części ciała w odniesieniu do podanych promptów. Niemniej jednak, podejście zero-shot wprowadza dodatkowe trudności. Jego mechanizm korekcji stosuje wygładzanie jedynie dla wymiarów współrzędnych, co może prowadzić do nagłych zmian w prędkości i przyspieszeniu, skutkując suboptymalnymi wynikami w praktycznych zastosowaniach. Aby rozwiązać ten problem, FineMoGen wprowadza niezależne modelowanie przestrzenno-czasowe w ramach modułu uwagi.

Moduł SMA w ReMoDiffuse, bez gałęzi pobierania danych, jest połączeniem efektywnej uwagi wewnętrznej i efektywnej uwagi międzysekwencyjnej. Załóżmy, że sekwencje cech ruchu i tekstu są oznaczone jako X Nm×Lm i X Nt×Lt, odpowiednio, gdzie Nm i Nt to długości sekwencji ruchu i tekstu, a Lm i Lt odpowiadają ich wymiarowościom. Te wektory cech są następnie liniowo projektowane za pomocą wag WV Lm×(H·Lg) i WV Lt×(H·Lg). W wyniku tych operacji tworzony jest matrix V ∈ (Nm + Nt) × H × L. Aby uzyskać najlepsze wyniki, system przeprowadza operację softmax na macierzy K, uzyskując macierz K̂, która wskazuje znaczenie poszczególnych elementów.

Jednym z kluczowych elementów tego podejścia jest wprowadzenie uwagi Spatio-Temporal Mixture Attention (SAMI), która zawiera dwie gałęzie: czasową i przestrzenną. Wyniki tych gałęzi są następnie łączone jako ostateczny rezultat. Gałąź czasowa koncentruje się na interakcjach między różnymi interwałami czasowymi, podczas gdy gałąź przestrzenna modeluje interakcje między różnymi częściami ciała. SAMI skutecznie radzi sobie z wymaganiem modelowania niezależności czasowej i przestrzennej, wprowadzając osobne projekcje dla globalnych wzorców czasowych i przestrzennych.

Dzięki temu systemowi możliwe staje się generowanie bardziej precyzyjnych i spójnych animacji, które uwzględniają zarówno czasową, jak i przestrzenną niezależność ruchów ciała. Metoda ta pozwala na płynniejsze przejścia i bardziej naturalne odwzorowanie ludzkich postaci w ruchu. Kluczowe jest zrozumienie, że w zastosowaniach praktycznych system ten nie tylko pozwala na precyzyjne generowanie poszczególnych sekwencji ruchów, ale także umożliwia dostosowywanie tych ruchów do kontekstu i semantyki danego opisu tekstowego.

Ważnym aspektem, który warto podkreślić, jest umiejętność dostosowywania parametrów, takich jak λ1 i λ2, w zależności od specyfiki generowanego ruchu. Użycie odpowiednich wartości tych hiperparametrów pozwala na lepszą kontrolę nad zachowaniem generowanej animacji, zwłaszcza w przypadkach, gdzie zależy nam na większej płynności ruchów bądź lepszym odwzorowaniu szczegółów. Ponadto, kluczowe jest również odpowiednie dobranie danych treningowych, które stanowią podstawę do dalszej generacji ruchów, ponieważ jakość tych danych wpływa na finalny rezultat.

Jak wykorzystać adaptery cech do poprawy klasyfikacji obrazów w modelach językowo-wizualnych?

Model CLIP (Contrastive Language-Image Pretraining), który łączy obrazy z tekstami, osiągnął dużą popularność dzięki swojej wyjątkowej zdolności do generalizowania w klasyfikacji obrazów. Został zaprojektowany tak, by efektywnie działać na różnych zbiorach danych bez konieczności intensywnego trenowania modelu. Jednakże, mimo tej potężnej wydajności, na niektórych zadaniach wysoce specjalistycznych, jego wyniki mogą pozostawiać wiele do życzenia, głównie przez obecność luk semantycznych między danymi wizualnymi a tekstowymi. Z tego powodu wprowadzono rozwiązania, które pozwalają na lepsze dopasowanie modelu do specyficznych zadań.

Jednym z podejść, które zostało zaprezentowane w odpowiedzi na te ograniczenia, jest zastosowanie adapterów cech, które umożliwiają poprawę wydajności w klasyfikacji obrazów przy ograniczonym dostępie do danych treningowych. Koncepcja ta opiera się na zaadoptowaniu niewielkich, dodatkowych warstw do istniejącego modelu, które pozwalają na skuteczną adaptację do nowych danych, nie zmieniając całkowicie oryginalnej struktury modelu. Jednym z przykładów takiego podejścia jest model CLIP-Adapter.

Adaptery cech stanowią nowoczesne podejście do problemu transferu wiedzy. Zamiast całkowicie przekształcać istniejący model, jak to ma miejsce w klasycznym fine-tuningu, CLIP-Adapter dodaje tylko niewielką liczbę parametrów, które są trenowane na nowych danych. Struktura tego adaptera jest prosta, ale efektywna: wprowadza się dwie warstwy liniowe po ostatniej warstwie wizualnego lub językowego backbonu modelu CLIP. Takie podejście minimalizuje ryzyko przeuczenia (overfitting) w przypadku ograniczonych danych, zachowując przy tym wysoką efektywność obliczeniową. Dodatkowo, w modelu tym zastosowano mechanizm łączenia rezydualnego, który pozwala na integrację wiedzy zawartej w oryginalnych embeddingach CLIP z nowymi informacjami pochodzącymi z przykładów few-shot.

Pomimo tego, że CLIP-Adapter wykazuje wysoką efektywność w przypadku klasyfikacji obrazów przy użyciu niewielkiej liczby przykładów, wymaga on dodatkowego trenowania nowych parametrów, co wiąże się z większymi wymaganiami obliczeniowymi i czasowymi. Istnieje jednak alternatywa, która nie wymaga żadnego procesu treningowego: Tip-Adapter. Tip-Adapter to metoda, która pozwala na adaptację modelu CLIP bez potrzeby dodatkowego trenowania parametrów. Zamiast tego, wykorzystuje on tzw. cache model, który jest zbudowany na podstawie dostępnych przykładów.

W przypadku Tip-Adaptera, proces adaptacji polega na wyodrębnieniu cech wizualnych przy użyciu pretrenowanego enkodera wizualnego CLIP, a następnie przekształceniu odpowiadających im etykiet na reprezentacje one-hot. Stworzenie modelu pamięci podręcznej (cache) pozwala na powiązanie tych cech z etykietami, które są wykorzystywane podczas inferencji. Gdy model otrzymuje obraz testowy, porównuje on jego cechy z tymi przechowywanymi w pamięci podręcznej, a następnie agreguje odpowiednie wartości etykiet. Dzięki temu, nawet w przypadku braku procesu trenowania, model osiąga wysoką dokładność, integrując wiedzę zawartą w pretrenowanych embeddingach CLIP oraz w przykładach few-shot.

Metoda Tip-Adapter jest szczególnie interesująca, ponieważ pozwala na osiągnięcie wysokiej jakości wyników bez potrzeby długotrwałego trenowania, co jest typowe dla klasycznych metod fine-tuningu. Dodatkowo, dzięki zastosowaniu mechanizmu łączenia rezydualnego, ta adaptacja pozwala na wykorzystanie pełnej mocy CLIP do klasyfikacji obrazów bez konieczności modyfikowania jego parametrów.

Warto zauważyć, że choć te metody, takie jak CLIP-Adapter i Tip-Adapter, umożliwiają znaczące poprawienie wyników w klasyfikacji obrazów przy ograniczonej liczbie przykładów treningowych, to jednak nie zastępują one konieczności odpowiedniego przygotowania danych i przemyślanej konstrukcji modeli. Efektywność takich metod zależy od jakości wstępnie przetworzonych danych oraz ich zgodności z zadaniem, które model ma rozwiązać.

Zatem, oprócz wprowadzenia nowych metod adaptacji, takich jak adaptery cech, niezbędne jest także zrozumienie, że każdy model wizualno-językowy, nawet najnowocześniejszy, wymaga odpowiedniego dostosowania do konkretnego zadania. Niezależnie od tego, czy mówimy o klasyfikacji obrazów, wykrywaniu interakcji między obiektami, czy generowaniu opisów do obrazów, w każdym przypadku kluczowe znaczenie ma jakość danych oraz odpowiednie zarządzanie procesem adaptacji modelu. Ostatecznie, skuteczność technologii takich jak CLIP i jego warianty zależy nie tylko od zaawansowanej architektury, ale także od strategii, jakie zostaną zastosowane w celu wykorzystania pełni ich potencjału w kontekście rzeczywistych problemów.