In de context van hyperspectrale beeldanalyse (HSI) speelt grafenclustering een belangrijke rol bij het extraheren van gedetailleerde en robuuste kenmerken uit beelddata. Het gebruik van contrastief leren in combinatie met grafgebaseerde structuren maakt het mogelijk om de prestaties van clusteringmethoden te verbeteren door de structuur en relaties tussen datapunten effectief te benutten. Dit hoofdstuk introduceert een geavanceerde benadering voor het verbeteren van HSI-clustering, door gebruik te maken van een contrastief verliesmechanisme en een graffilter dat de ruis onderdrukt en de structuur behoudt.

Het proces begint met de constructie van een graf G = (V, E), waarbij V de verzameling van knopen is en E de verzameling van verbindingen tussen deze knopen vertegenwoordigt. Elk van de knopen in de graf komt overeen met een zogenaamde superpixel, die een groep van aangrenzende pixels in het hyperspectrale beeld voorstelt. Door deze aanpak wordt de dimensionale complexiteit van het probleem aanzienlijk verminderd, omdat de hoeveelheid informatie per knoop (superpixel) veel kleiner is dan de oorspronkelijke pixelinformatie. Dit betekent dat de verwerkingstijd en rekenkracht voor verdere analyse sterk worden verminderd, zonder dat de waardevolle spatiale en spectrale informatie verloren gaat.

De tweede belangrijke component is het gebruik van een contrastief verliesmechanisme. Dit type verliesfunctie wordt gebruikt om de semantische coherentie tussen de verschillende augmented weergaven van de graf te versterken, wat leidt tot robuustere en meer onderscheidende kenmerken voor clustering. In plaats van alleen te vertrouwen op traditionele clusteringmethoden zoals K-means, die alleen afstandsmetingen gebruiken, leert het contrastieve model de onderliggende structurele kenmerken van de data. Dit helpt om redundantie te verminderen en zorgt ervoor dat de kenmerken meer relevant zijn voor de uiteindelijke clustering.

Een andere cruciale stap in het proces is de graffiltertechniek. Hierbij wordt gebruikgemaakt van een low-pass filter om ruis in de gegevens te onderdrukken. Dit zorgt ervoor dat alleen de belangrijkste laagfrequente structuren behouden blijven, wat de clustering verder versterkt. Het gebruik van adaptieve graffilters maakt het mogelijk om specifieke grafkenmerken te behouden die belangrijk zijn voor de analyse, terwijl irrelevante details worden verworpen. Hierdoor wordt de kwaliteit van de geëxtraheerde kenmerken verhoogd en wordt de nauwkeurigheid van de uiteindelijke clustering verbeterd.

Het contrastieve leren zelf maakt gebruik van zogenaamde Siamese netwerken, waarbij twee gelijke netwerken (met verschillende gewichten) worden gebruikt om twee verschillende representaties van dezelfde gegevens te vergelijken. In dit geval is het doel om een functie te leren die gelijke (positieve) paren van gegevens dichter bij elkaar plaatst en ongelijke (negatieve) paren verder uit elkaar. Het resultaat is dat de netwerkmodellen in staat zijn om meer discriminerende en robuuste representaties van de gegevens te leren, wat de kwaliteit van de clustering aanzienlijk verbetert.

De SLCGC-structuur, die deze technieken combineert, omvat vier belangrijke componenten: het genereren van homogene regio's (superpixels), het behoud van lage-frequentie spectrale kenmerken, grafgebaseerd contrastief leren en uiteindelijk het fuseren van de representaties voor clustering. Deze vier fasen werken samen om iteratief de prestaties van de clustering te verbeteren. De integratie van de verschillende technieken zorgt voor een efficiënte en nauwkeurige verwerking van hyperspectrale beeldgegevens.

De belangrijkste uitdaging in deze benadering is het handhaven van de balans tussen de mate van detail (door het behoud van lage frequenties in de graf) en de rekenkundige efficiëntie. Het gebruik van superpixelsegmentatie biedt een aanzienlijke vermindering van de computationele belasting door de beelddata te representeren als een set van superpixels in plaats van individuele pixels. Dit zorgt voor een snellere verwerking en maakt het mogelijk om de complexiteit van het probleem te beheren zonder verlies van cruciale informatie. Bovendien wordt de nauwkeurigheid van de uiteindelijke clustering verbeterd door de consistente representatie van de beelddata, wat essentieel is voor toepassingen die afhankelijk zijn van een gedetailleerde beeldanalyse, zoals milieumonitoring of landbouwtoepassingen.

Naast de besproken technieken, kan het verder verbeteren van de efficiëntie van deze benadering door middel van fine-tuning van de parameters van de graffilters of het aanpassen van de netwerkinstellingen in het contrastieve leerproces bijdragen aan een nog grotere nauwkeurigheid. Het gebruik van grotere of meer complexe datasets kan de flexibiliteit van het model verder testen en kan leiden tot nieuwe inzichten in hoe het contrastieve leren het beste kan worden toegepast op hyperspectrale data.

Hoe kan laagfrequente ruis in grafen worden gefilterd voor efficiënte clustering van hyperspectrale beelden?

De correlationele matrix QRhw×NQ \in \mathbb{R}^{hw \times N}, geïntroduceerd door SLIC, speelt een cruciale rol in de representatie van gegevens in grafen voor hyperspectrale beelden. Deze matrix wordt gedefinieerd als Qi,j=1Q_{i,j} = 1, indien de pixel xix_i behoort tot superpixel SiS_i, en anders is Qi,j=0Q_{i,j} = 0. Dit biedt een efficiënte manier om de oorspronkelijke pixelgegevens van hyperspectrale beelden (HSI) om te zetten in kenmerken van grafknooppunten op superpixel-niveau door middel van matrixvermenigvuldiging, wat kan worden uitgedrukt als:

V=TProjection(X;Q)=Q^Flatten(X)V = T_{\text{Projection}}(X; Q) = \hat{Q} \, \text{Flatten}(X)

waarbij Q^\hat{Q} de genormaliseerde versie van QQ is, dat wil zeggen, Q^i,j=Qi,jQm,j\hat{Q}_{i,j} = \frac{Q_{i,j}}{Q_{m,j}}. De functie Flatten()\text{Flatten}(\cdot) betekent het afvlakken van de hyperspectrale afbeelding (HSI) volgens de ruimtelijke dimensies.

Laagfrequentie Graf Denoising

In de recente vooruitgangen op het gebied van grafenfilters is aangetoond dat deze filters een significante invloed hebben op de prestaties van grafconvoluties. Geïnspireerd door dit principe is een laagfrequent grafdenoise-mechanisme ontworpen om ruisinterferentie in de grafstructuur te filteren en een gladde grafstructuur te verkrijgen. Deze techniek maakt het mogelijk om hoogfrequente ruis uit de grafknooppunten te filteren.

De gladheid van een grafsignaal XX kan worden gemeten door de Rayleigh-quotient, zoals geïllustreerd in de volgende vergelijking:

R(L,X)=i,jX(xixj)2iVxi2R(L, X) = \frac{\sum_{i,j \in X} (x_i - x_j)^2}{\sum_{i \in V} x_i^2}

Deze formule meet de gelijkenis tussen de knooppuntkenmerken, waarbij een gladdere signaal een kleinere Rayleigh-quotient heeft. Het gebruik van filters die hoogfrequente basis-signalen elimineren, terwijl de laagfrequente basis-signalen behouden blijven, biedt een krachtige manier om een soepelere grafstructuur te verkrijgen, wat de clusteringprestaties ten goede komt.

Graf Structurele Contrastieve Leren

In plaats van gebruik te maken van grafconvolutionele neurale netwerken (GNN) voor het coderen van gesmoothde grafsignalen, stelt de voorgestelde methode een nieuwe benadering voor: graf structureel contrastief leren. Dit verschilt van eerdere methoden doordat de grafsignalen niet direct via een GNN worden gecodeerd, maar via twee parameteronafhankelijke MLP-encoders die de knooppuntkenmerken XtX_t eerst verwerken. Vervolgens wordt de 2-norm toegepast om de geleerde knooppuntkenmerken te normaliseren, wat kan worden uitgedrukt als:

Zl1=MLP1(Xt),Zl1=Zl1Zl12Z_{l1} = \text{MLP}_1(X_t), \quad Z_{l1} = \frac{Z_{l1}}{||Z_{l1}||_2}
Zl2=MLP2(Xt),Zl2=Zl2Zl22Z_{l2} = \text{MLP}_2(X_t), \quad Z_{l2} = \frac{Z_{l2}}{||Z_{l2}||_2}

Deze techniek maakt het mogelijk om verschillende semantische informatie te extraheren uit de twee vertakkingen, wat de kwaliteit van de contrastieve leer versterkt. De ruisinterferentie wordt verminderd door willekeurige Gaussiaanse ruis NN in te voeren in de eerste vertakking:

Zl1=Zl1+NZ_{l1} = Z_{l1} + N

waarbij NN een normaal verdeelde willekeurige ruis is, wat de robuustheid van het algoritme tegen interferentie verhoogt.

Feature Fusion en Clustering

Na het leren van de contrastieve knooppuntkenmerken worden de twee geaugmenteerde weergaven samengevoegd met een lineaire benadering, en de uiteindelijke clustering-georiënteerde knooppuntkenmerken ZZ worden berekend:

Z=Zl1+Zl22Z = \frac{Z_{l1} + Z_{l2}}{2}

Deze samengevoegde kenmerken worden vervolgens onderworpen aan een K-means clustering om de uiteindelijke clusteringresultaten te verkrijgen. Om de structurele consistentie van het netwerk te verbeteren en de training van het netwerk effectiever te maken, wordt een nieuw contrastief verlies op cross-view-niveau geïntroduceerd. Dit verlies minimaliseert de verschillen tussen de gelijkenismatrix SS en de zelf-lus adjacency matrix A^\hat{A}:

Sij=Zl1iZl2jTS_{ij} = Z_{l1_i} \cdot Z_{l2_j}^T
L=1N2i,j(SijA^ij)2L = \frac{1}{N^2} \sum_{i,j} (S_{ij} - \hat{A}_{ij})^2

waarbij de matrix A^\hat{A} de gelijkenis tussen knooppunten in dezelfde cluster meet. Dit verlies wordt geoptimaliseerd met de Adam-optimalisatie om de clusteringprestaties te verbeteren.

Rekenkundige Complexiteit

De rekenkundige complexiteit van het voorgestelde systeem wordt voornamelijk bepaald door de laagfrequente grafdenoise-mechanismen en de graf structurele contrastieve leercomponenten. De complexiteit van het grafdenoise-mechanisme is O(Nd2)O(N d^2), terwijl voor de graf structurele contrastieve leer de complexiteit O(2Ndd1+2Nd1d2)O(2N d d_1 + 2 N d_1 d_2) is. Bij TT iteraties tijdens de training is de totale complexiteit van het systeem O(Nd2+2Nd1(d+d2)T)O(N d^2 + 2 N d_1 (d + d_2) T). Deze analyse toont aan dat het voorgestelde netwerk hoge rekenkundige efficiëntie biedt.