Il framework di encoding di grafi si basa su una raffinazione iterativa degli embedding dei nodi, propagando le caratteristiche attraverso la struttura del grafo. Il processo può essere formalmente descritto come segue: ZS = FS( ̃AS , XS |FS ), (2.5) e ZP = FP( ̃AP, XP |FP ), (2.6), dove FS e FP denotano i parametri apprendibili dei due encoder del grafo. La matrice di adiacenza normalizzata è rappresentata da à ∈ M×M R. L'architettura dell'encoder di grafi sfrutta una rete migliorata di convoluzione su più strati, seguendo gli sviluppi metodologici da [17]. Questa rete serve come decoder D(·) per recuperare sia le caratteristiche spaziali che spettrali dei dati in input. Il meccanismo di ricostruzione delle caratteristiche avviene tramite la seguente formulazione: X̂S = DS( ̃AS , ZS |DS ), (2.7) e X̂P = DP( ̃AP, ZP |DP ), (2.8), dove X̂S e X̂P sono le caratteristiche ricostruite, e DS e DP denotano i parametri apprendibili dei due encoder del grafo. La funzione di perdita di ricostruzione a livello individuale può quindi essere definita come: L ∥ S rec = ∥∥X − X̂S∥2 + ∥∥ P − ∥ 2 F X X̂P∥ F , (2.9), dove ‖·‖F rappresenta la norma di Frobenius.

Per abilitare il trasferimento di conoscenze tra le rappresentazioni spaziali e spettrali, introduciamo l'apprendimento della coerenza allineata ai cluster. Questo framework è progettato per catturare le correlazioni intrinseche dei campioni attraverso le rappresentazioni di caratteristiche apprese, migliorando così le prestazioni del clustering delle immagini iperspettrali non supervisionato. L'approccio stabilisce una corrispondenza semantica misurando le somiglianze nodo a nodo tra gli spazi di embedding duali. In dettaglio, prima utilizziamo un metodo di fusione ponderata basato sull'attenzione per ottenere la caratteristica latente fusa ZF: ZF = W S 1  Z + W P 2  Z , (2.10), dove  è il prodotto di Hadamard e W1, W2 ∈ M×d ̂ R sono matrici di pesi addestrabili per controllare l'importanza delle caratteristiche spaziali e spettrali. Più precisamente, calcoliamo le caratteristiche fuse ZF dei rami duali e impieghiamo l'algoritmo K-means K(·) per determinare il centroide del clustering della caratteristica fusa: { ( ) µ, P} ← K ZF , (2.11), dove µ ∈ K×d̂ R è la matrice dei centri dei cluster e P ∈ M R sono le etichette pseudo del clustering. Successivamente, misuriamo la somiglianza tra l'embed di nodo i-esimo zi e il centroide del cluster k-esimo ck utilizzando la distribuzione t di Student, come segue:

∥ 1 + ∥∥zS ∥2 (− η+1 j /η) 2 ) qS i − µ ij = ( ∑ , (2.12)

K ∥ ∥ + ∥zS ∥2 (− η+1 2 ) j (1 i − µj /η) 2 +1 qPij = (1 + ‖zPi − µj‖ /η)(− η 2 ) ∑K 2 − η+1 , (2.13)

dove qij si riferisce alla probabilità di assegnare il nodo i-esimo al j-esimo cluster. Qui, η denota i gradi di libertà, e impostiamo η = 1 in tutti i nostri esperimenti. Sfruttando le distribuzioni di somiglianza provenienti dai domini spaziale e spettrale, imponiamo la coerenza cross-view per abilitare un efficace trasferimento di conoscenze e rinforzare reciprocamente le rappresentazioni delle caratteristiche. L'obiettivo dell'apprendimento della coerenza è formalmente espresso come:

M K 1 ∑ ∑( ( ) ( )) qPij = Lclu = KL qS 2M ij‖qP ij + KL qP ij‖qS ij , (2.14),

dove KL(·‖·) è la divergenza di Kullback-Leibler (KL). Durante l'addestramento, minimizziamo Lclu per ottimizzare il nostro SSGCC proposto e migliorare l'apprendimento auto-supervisionato.

Il processo di mining dei campioni difficili, che migliora ulteriormente l'apprendimento contrastivo, si distingue dalla formulazione tradizionale della perdita contrastiva. Quest'ultima infatti tratta tutti i campioni allo stesso modo, senza considerare i livelli di difficoltà variabili tra le istanze. Questo trattamento uniforme porta a una discriminazione subottimale delle caratteristiche. Per affrontare questa limitazione, proponiamo un framework di mining dei campioni difficili che sfrutta in modo strategico i campioni di riferimento ad alta confidenza Y, le etichette pseudo di assegnazione dei cluster Q e la metrica di somiglianza H per identificare e dare importanza alle istanze difficili durante l'apprendimento delle rappresentazioni. La funzione di perdita contrastiva basata sul mining dei campioni difficili è quindi espressa come segue:

∑M (i,i)·H(i,i) L 1 con = − eM log . (2.18)

A differenza degli approcci tradizionali di apprendimento contrastivo che assegnano la stessa importanza a tutti i campioni, il nostro metodo introduce una strategia di mining dei campioni difficili innovativa. Sfruttando gli indizi spettrali e spaziali, la rete dà priorità ai coppie di campioni difficili, aumentando la loro influenza durante l'addestramento. Nel frattempo, i pesi delle coppie di campioni più semplici vengono ridotti.

L'integrazione di tecniche di hard sample mining con l'apprendimento contrastivo basato su grafi rappresenta un'importante evoluzione nelle tecniche di clustering per immagini iperspettrali. L'ottimizzazione del modello, guidata dalla coerenza tra i domini spaziale e spettrale, permette di migliorare notevolmente l'accuratezza e la robustezza del clustering su grandi set di dati iperspettrali.

È fondamentale comprendere che, sebbene le tecniche descritte siano potenti, l'efficacia di questi metodi dipende fortemente dalla qualità e dalla variabilità dei dati di input. Un'altra considerazione importante è che, sebbene il clustering auto-supervisionato possa sembrare una soluzione universale, le prestazioni dipendono anche dalle specifiche caratteristiche delle immagini iperspettrali e dalla scelta dei parametri di rete. Inoltre, l'ottimizzazione dell'architettura e la regolazione dei pesi dinamici rappresentano passaggi cruciali per raggiungere i migliori risultati possibili in scenari complessi.

Come migliorare le performance del clustering multi-visione attraverso l'apprendimento contrastivo e la fusione attenta

Nel contesto del clustering, l'uso di diversi punti di vista sui dati ha un grande potenziale, ma richiede l'integrazione di schemi coerenti tra le diverse visualizzazioni per migliorare le performance complessive. A partire dall'architettura di Graph Convolutional Network (GCN), che ha già catturato rappresentazioni ricche provenienti da più visioni, possiamo denotare le caratteristiche dei nodi come zz per semplificare il processo successivo. Recenti sviluppi nell'apprendimento contrastivo hanno dimostrato una notevole efficacia per applicazioni di clustering, principalmente grazie alla sua capacità di preservare l'invarianza dei dati attraverso vincoli di distribuzione di somiglianza.

Il principio fondamentale su cui si basa l'apprendimento contrastivo consiste nel generare coppie di campioni positivi e negativi, minimizzando le distanze tra i campioni positivi e massimizzando la separazione tra quelli negativi, al fine di affinare ulteriormente le rappresentazioni delle caratteristiche. Una parte significativa della ricerca si è concentrata sull'ottimizzazione della costruzione delle coppie di campioni, poiché questa scelta ha un impatto cruciale sulle performance del modello. Nel nostro approccio, sfruttiamo coppie positive di alta qualità, che corrispondono ai nodi tra diverse visioni, mentre selezioniamo casualmente nodi inter-graph come campioni negativi. Per ogni nodo ii nel grafo, consideriamo la sua rappresentazione ziz_i in una visione come il punto di ancoraggio, e le rappresentazioni corrispondenti dei nodi nelle altre visioni, denotate come ziz'_i, formano i campioni positivi. Come già menzionato, desideriamo che ziz_i sia il più distante possibile dai campioni negativi e più vicino ai campioni positivi.

La funzione di perdita che guida questo processo si esprime nel seguente modo:

l(zi,zi)=log(k=1Nexp(sim(zi,zk)τ))+k=1Nexp(sim(zi,zk)τ)l(z_i, z'_i) = - \log \left( \sum_{k=1}^N \exp\left(\frac{\text{sim}(z'_i, z_k)}{\tau}\right) \right) + \sum_{k=1}^N \exp\left(\frac{\text{sim}(z_i, z_k)}{\tau}\right)

dove τ\tau è il parametro di temperatura, fissato a 1 in questo contesto, e sim()\text{sim}(\cdot) rappresenta la funzione di somiglianza coseno tra due vettori di caratteristiche. L'obiettivo complessivo di minimizzare la perdita è rappresentato dalla media della funzione di perdita sui campioni positivi per tutti i nodi, come indicato dalla seguente espressione:

lcon=12ni=1n[l(zi,zi)+l(zi,zi)]l_{\text{con}} = \frac{1}{2n} \sum_{i=1}^{n} \left[ l(z_i, z'_i) + l(z'_i, z_i) \right]

Dopo aver ottenuto le matrici di affinità YpY_p da Eq. (3.8), è necessario combinarle per costruire il grafo di affinità finale e applicare il clustering spettrale alla matrice di affinità risultante. Abbiamo utilizzato un modulo di fusione basato sull'attenzione per apprendere l'importanza di ciascuna visione, come segue:

ap=att(Yp)a_p = \text{att}(Y_p)

dove apRn×1a_p \in \mathbb{R}^{n \times 1} misura l'importanza di ogni visione. Per realizzare questa fusione, concatenando le matrici di affinità Y1,,YpY_1, \dots, Y_p, e introducendo una matrice di pesi SRpn×nS \in \mathbb{R}^{pn \times n}, possiamo catturare le relazioni tra le matrici di auto-espressione. La matrice SS è inizializzata con valori unitari, conferendo lo stesso peso a tutte le matrici di affinità all'inizio dell'addestramento, ma viene poi aggiornata durante il processo di apprendimento. Successivamente, applichiamo la funzione tanh al prodotto di Y1,,YpY_1, \dots, Y_p e SS per una trasformazione, per poi normalizzare i valori di attenzione con la funzione softmax e l'operazione L2, risultando nella matrice di pesi finale.

Il risultato finale della fusione si ottiene con il prodotto di Hadamard, come segue:

YF=i=1NaiYiY_F = \sum_{i=1}^{N} a_i Y_i

Questa matrice YFY_F rappresenta la matrice di affinità fusa che sarà successivamente utilizzata nel processo di clustering.

Nel contesto delle sperimentazioni, per valutare le performance del nostro modello, abbiamo eseguito esperimenti di clustering su quattro dataset di riferimento, confrontando il nostro metodo con diverse tecniche di clustering all'avanguardia. I dataset utilizzati sono rappresentativi di scenari iperspettrali diversi e includono Indian Pines, Pavia University, Houston-2013 e Xu Zhou. In queste esperimentazioni, i dati iperspettrali sono stati pre-elaborati per rimuovere le bande rumorose e concentrarsi sulle bande di qualità per una valutazione rigorosa.

I risultati sono stati analizzati utilizzando metriche quantitative consolidate, come la Precisione Complessiva (OA), l'Indice di Informazione Normalizzato (NMI) e il coefficiente Kappa, che misurano rispettivamente la precisione del clustering, la coerenza delle etichette di cluster e l'accordo di classificazione.

Oltre a questi aspetti, è fondamentale comprendere l'importanza di una corretta progettazione del modulo di fusione basato sull'attenzione, che gioca un ruolo cruciale nel migliorare l'integrazione delle informazioni tra le diverse visioni. Inoltre, la costruzione delle coppie di campioni positivi e negativi, e la scelta della temperatura del parametro τ\tau, influenzano significativamente l'efficacia complessiva del modello. La comprensione dei dettagli di questi passaggi può rivelarsi determinante per ottenere un clustering più preciso e robusto in scenari complessi.