Wprowadzenie do dyskretnej transformacji falkowej (DWT) oraz splotowych sieci neuronowych (CNN) w kontekście przetwarzania obrazów jest kluczowe dla zrozumienia, jak te dwie techniki współpracują w nowoczesnych architekturach sieci neuronowych. DWT jest stosowane do rozkładu sygnałów na różne skale, co pozwala na ich wieloskalową dekompozycję, a CNN — do ekstrakcji cech i późniejszej rekonstruowania obrazu. W tej części przedstawimy, jak można połączyć te dwa podejścia w celu osiągnięcia lepszych wyników w zadaniach takich jak fuzja danych czy pan-sharpening.

W ramach wieloskalowej dekompozycji, pojęcie przestrzeni l2(Z)l_2(Z) pozwala na wprowadzenie transformacji falkowej. Możemy obliczyć różne poziomy dekompozycji sygnału, używając takich elementów jak c0c_0, LL i HH (np. poprzez równania (4.2) i (4.3)). Zastosowanie filtrów takich jak fLLf_{LL}, fLHf_{LH}, fHLf_{HL}, i fHHf_{HH}, które odpowiadają za różne pasma częstotliwościowe, umożliwia przeprowadzenie transformacji DWT w przestrzeni l2(Z×Z)l_2(Z \times Z). Dzięki temu można uzyskać cztery różne składowe sygnału, co daje pełny obraz struktury sygnału w różnych skalach.

Punktem wyjścia dla rekonstrukcji oryginalnego sygnału c0c_0 po dekompozycji jest proces odwrotnej transformacji falkowej (IDWT). Wykorzystuje się tu odpowiednią sekwencję współczynników dekompozycji, takich jak cMc_M i dMd_M, które po przeprowadzeniu odwrotnej transformacji pozwalają na odzyskanie pierwotnego sygnału. Proces ten jest realizowany za pomocą specjalnych wyrażeń matematycznych, które umożliwiają iteracyjne dodawanie cech i ich rekonstrukcję na poziomach m=M,M1,,0m = M, M-1, \dots, 0.

Jednym z kluczowych aspektów jest to, że operacje dekompozycji i rekonstrukcji są realizowane przy pomocy filtrów, których jądra są stałe, co oznacza, że nie są one dostosowywane w procesie nauki, jak ma to miejsce w klasycznych sieciach CNN. Warto pamiętać, że filtr fLLf_{LL} jest odpowiedzialny za przesądzanie informacji o niskich częstotliwościach, a filtry fLH,fHL,fHHf_{LH}, f_{HL}, f_{HH} — o wysokich częstotliwościach.

Z drugiej strony, w kontekście CNN, sploty w sieci są realizowane na tensorach yy, które mają rozmiary M×N×DM \times N \times D. Filtr w warstwie CNN dobierany jest w sposób, który odpowiada liczbie kanałów wejściowych obrazu, a jego maska (jądro filtru) jest określona w sposób określony w równaniach (4.7) i (4.8). Konwolucje w tych sieciach mają na celu ekstrakcję cech z danych wejściowych, które następnie przechodzą przez różne operacje, takie jak dodanie biasu, subsampling czy aktywacje PReLU.

Połączenie DWT z CNN stwarza nową jakość w architekturach, które mają na celu łączenie różnych rodzajów danych, jak obrazy wieloskalowe (MS) i obrazy PAN. W tym kontekście, połączenie warstw splotowych z wynikami DWT pozwala na lepszą rekonstrukcję obrazu, zwłaszcza podczas procesu upsampling, co jest istotne w zadaniach takich jak fuzja obrazów. Przykładem może być sieć TIWNet, która stosuje takie podejście, wykorzystując zarówno CNN, jak i DWT, do uzyskania lepszych wyników w zadaniach związanych z pan-sharpeningiem.

Architektura sieci, składająca się z bloków enkodera, fuzji i dekodera, pozwala na przeprowadzanie wieloetapowego procesu przetwarzania obrazu. Każdy z tych bloków spełnia określoną rolę: enkoder odpowiada za ekstrakcję cech, blok fuzji za łączenie wyników, a dekoder za rekonstruowanie końcowego obrazu. Przykładem jest architektura T3IWNet, gdzie encoder przetwarza obrazy PAN i MS, które następnie trafiają do odpowiednich warstw fuzji i dekodera. W tym przypadku fuzja ma na celu łączenie wyników obydwu źródeł danych, co pozwala na uzyskanie bardziej precyzyjnych rezultatów.

Warto zauważyć, że przy stosowaniu takich architektur istotną rolę odgrywają także techniki optymalizacji, jak dobór odpowiednich filtrów, strategii paddingu w celu zachowania rozmiaru danych podczas konwolucji, oraz metod redukcji wymiarów, takich jak max-pooling. Dzięki nim możliwe jest nie tylko uzyskanie właściwych wyników podczas nauki sieci, ale także efektywne przetwarzanie dużych zbiorów danych.

Przy takich podejściu warto również pamiętać, że choć DWT w połączeniu z CNN może znacząco poprawić jakość rekonstruowanych obrazów, to jednak kluczowe jest dobranie odpowiednich parametrów architektury, jak liczba poziomów dekompozycji DWT czy liczba filtrów w warstwach splotowych. Ponadto, mimo że filtry falkowe nie są uczone, ich dobór ma istotny wpływ na finalny wynik. Dodatkowo, konieczne może być eksperymentowanie z różnymi funkcjami aktywacji, które mogą wpłynąć na jakość końcowego obrazu.

Jakie są strategie transferu wiedzy w klasyfikacji hiperspektralnej?

Transfer wiedzy (TL) w klasyfikacji obrazów hiperspektralnych (HSI) stanowi kluczowy element, umożliwiający wykorzystanie danych z różnych źródeł i modeli w celu poprawy wyników klasyfikacji. W szczególności, techniki te opierają się na dwóch głównych strategiach: strategii „cross-sensor” i „cross-model”. Obie strategie łączą naukę wyłącznie na danych HSI oraz na połączeniu danych HSI z danymi RGB. He i in. (2018) zaprezentowali warstwę mapującą, która rozwiązywała problemy związane z kanałami przy wykorzystaniu modelu GNet, wcześniej wytrenowanego. Dodali także mechanizm uwagi kanałowej, który kompensował różnice w heterogenicznych zbiorach danych. Lin i in. (2019) zaprezentowali podejście oparte na aktywnej nauce, które pomagało rozwiązywać trudności w transferze wiedzy z danych źródłowych do docelowych, przez wyodrębnienie i transferowanie złożonych cech dyskryminacyjnych dla danych HSI źródłowych i docelowych.

Otrzymane wyniki potwierdziły skuteczność tego podejścia zarówno dla heterogenicznych, jak i homogenicznych danych HSI. Z kolei hierarchiczny kaskadowy, oszczędny samodzielny enkoder nauczył mieszanych cech spektralno-przestrzennych, które następnie wykorzystywano w procesie transferu wiedzy.

Badania pokazują, że transfer wiedzy w przypadku danych HSI napotyka pewne ograniczenia. Jednym z największych wyzwań jest brak dostępnych, wytrenowanych modeli skoncentrowanych na HSI. Większość modeli TL opiera się na tradycyjnych pretrenowanych modelach, takich jak VGGNet i AlexNet, które jednak nie są wystarczające w przypadku danych HSI, ponieważ różnią się one w zakresie cech i charakterystyk długości fal w porównaniu do obrazów RGB. Transfer pretrenowanych cech RGB na mapy cech hiperspektralne nie zawsze jest skuteczny, co wynika z różnicy w liczbie pasm spektralnych i charakterystyce długości fal. W kontekście transferu wiedzy w różnych domenach często występują trudności w przenoszeniu cech przestrzenno-spektralnych na docelową domenę, co jest spowodowane zmiennością liczby pasm spektralnych oraz różnicami w długości fal.

Proponowany model T-HyC (Transfer Learning-based Homogeneous Classification) stanowi skuteczne i odporne podejście oparte na transferze wiedzy w kontekście klasyfikacji obrazów hiperspektralnych. Jego głównym celem jest poprawa klasyfikacji w scenariuszach, gdzie dostępnych jest jedynie ograniczona liczba danych oznakowanych. Model T-HyC obejmuje szereg innowacyjnych rozwiązań. Po pierwsze, zaproponowano model głębokiej klasyfikacji oparty na transferze wiedzy, który umożliwia skuteczną klasyfikację nawet w przypadku ograniczonej liczby danych oznakowanych. Po drugie, do realizacji transferu wiedzy zaprojektowano sieć M3D-CNN (Multi-scale 3D Convolutional Neural Network), której podstawową rolą jest wyodrębnianie cech przestrzenno-spektralnych. Wykorzystanie tego podejścia zmniejsza ograniczenia związane z lokalnym przetwarzaniem charakterystycznym dla tradycyjnych sieci CNN. Po trzecie, sieć SS-CNN (Spatial-Spectral CNN) wykorzystuje szereg 2D-CNN, które mają za zadanie dalsze dostosowanie wyuczonych cech na zestawie danych docelowych.

Ważnym aspektem modelu T-HyC jest strategia redukcji wymiarowości, która transformuje dane HSI źródłowe i docelowe do standardowych wymiarów spektralnych, zachowując spójność danych. Takie podejście zapewnia stabilność procesu klasyfikacji, umożliwiając transferowanie cech w sposób, który minimalizuje różnice między zbiorami danych.

W kontekście danych hiperspektralnych, istotnym elementem jest ich złożona struktura. Obrazy HSI stanowią przestrzeń 3D, której wymiary są określone przez rozdzielczość przestrzenną (M, N) oraz spektralną (D). Takie dane mają wysoką wymiarowość, co może prowadzić do tzw. „klątwy wymiarowości” – zjawiska, które wprowadza trudności w analizie i przechowywaniu danych. Często wymaga to zastosowania technik redukcji wymiarowości, które umożliwiają skuteczniejszą obróbkę i klasyfikację. W tym kontekście wyodrębnianie cech spektralnych i przestrzennych za pomocą zaawansowanych algorytmów, takich jak CNN czy 3D-CNN, staje się kluczowym elementem w analizie obrazów hiperspektralnych.

Oprócz samego modelu transferu wiedzy T-HyC, niezwykle ważnym aspektem jest również rola danych hiperspektralnych w różnych dziedzinach, takich jak rolnictwo, monitorowanie środowiska, identyfikacja minerałów czy analiza pokrycia terenu. Dzięki zastosowaniu odpowiednich technik analizy, HSI pozwalają na uzyskanie dokładniejszych i bardziej zróżnicowanych informacji o powierzchni Ziemi. Współczesne narzędzia, takie jak zaawansowane sieci neuronowe oraz algorytmy uczenia maszynowego, pozwalają na wyodrębnienie istotnych cech z tych danych, co umożliwia lepsze zrozumienie procesów zachodzących w naturze i lepsze zarządzanie zasobami.

Jednak mimo obiecujących wyników, wciąż istnieją wyzwania związane z dokładnością klasyfikacji oraz potrzebą dalszego udoskonalania technik redukcji wymiarowości i algorytmów uczenia. W związku z tym, istotnym kierunkiem przyszłych badań jest dalszy rozwój i optymalizacja modeli, które będą w stanie lepiej radzić sobie z heterogenicznymi i homogenicznymi danymi HSI oraz minimalizować problemy związane z wymiarowością i różnorodnością pasm spektralnych.