L'uso delle immagini iperspettrali ha visto un notevole progresso negli ultimi anni grazie all'emergere di tecniche avanzate di clustering e classificazione. Tra queste, l'apprendimento contrastivo si è affermato come uno degli approcci più promettenti, con numerosi studi che ne dimostrano l'efficacia per migliorare l'accuratezza nella segmentazione e nel rilevamento dei cambiamenti. Tuttavia, nonostante il crescente interesse, alcune lacune rimangono, in particolare nella capacità di applicare l'apprendimento contrastivo a immagini iperspettrali in un contesto multivista. Questo gap è stato affrontato da un nuovo framework che propone l'uso di una combinazione innovativa di tecniche di apprendimento contrastivo e convoluzioni grafiche, permettendo una maggiore robustezza e discriminazione nelle fasi di clustering.

Il concetto centrale dell'approccio descritto si basa sulla costruzione di grafi multivista che catturano sia le caratteristiche spaziali che quelle spettrali, utilizzando tecniche avanzate di riduzione dimensionale come l'analisi delle componenti principali (PCA). Prima di procedere con la costruzione del grafo, viene affrontata la sfida intrinseca della ridondanza dei dati iperspettrali attraverso l'uso della PCA, che permette di comprimere le bande ad alta dimensione in uno spazio di dimensioni inferiori. Una volta ridotti i dati, si applica un approccio di finestra scorrevole per estrarre le caratteristiche spaziali e spettrali, ottenendo delle patch rappresentative per ogni pixel centrale. Questo passaggio è cruciale poiché preserva la corrispondenza uno a uno tra le patch e i pixel dell'immagine, permettendo di rappresentare in modo efficace le caratteristiche locali.

In parallelo, l'uso delle profili morfologici estesi (EMP) consente di trasformare i dati spettrali, mantenendo informazioni testurali vitali attraverso operazioni successive di erosione. Questa doppia elaborazione garantisce una rappresentazione completa delle caratteristiche necessarie per la successiva costruzione del grafo. Il risultato finale è una serie di grafi multivista che catturano la complessità spaziale e spettrale dei dati iperspettrali. Questi grafi vengono successivamente utilizzati per un'analisi di clustering che sfrutta le potenzialità delle reti neurali convoluzionali grafiche (GCN).

Un altro aspetto innovativo di questo framework è l'uso delle reti neurali convoluzionali grafiche per l'apprendimento della struttura topologica tra gli oggetti. A differenza delle tradizionali CNN, che non sono in grado di cogliere efficacemente le interdipendenze spaziali tra i dati, le GCN riescono a modellare le relazioni strutturali tra i nodi. Questo approccio consente di preservare e potenziare le relazioni spaziali e contestuali nei dati iperspettrali, migliorando così il clustering. L'apprendimento del grafo convoluzionale avviene attraverso la costruzione di una matrice di auto-espressione, che aiuta a ottenere una rappresentazione più chiara e robusta dei dati, necessaria per una segmentazione più accurata.

Le matrici di auto-espressione apprese attraverso le GCN vengono poi utilizzate per costruire le matrici di affinità, che sono fondamentali per il clustering finale. L'uso delle GCN consente di ottenere una rappresentazione più stabile delle affinità tra i punti dati, superando le limitazioni delle tecniche di clustering convenzionali. L'innovazione chiave di questo approccio è l'integrazione dell'apprendimento contrastivo, che promuove la consistenza delle caratteristiche tra viste differenti dei dati, mentre massimizza la similarità tra campioni appartenenti alla stessa categoria di copertura del suolo.

L'apprendimento contrastivo, quindi, gioca un ruolo cruciale nell'ottimizzazione del clustering multivista, in quanto consente di affinare la separazione tra le categorie e migliorare la robustezza del modello complessivo. La sfida principale in questo contesto risiede nel bilanciamento della quantità di informazioni estratte da ciascuna vista e nell'efficace combinazione delle stesse per un risultato finale ottimale. Grazie all'uso di tecniche di fusione basate sull'attenzione, i vari risultati parziali vengono combinati in un'unica matrice di affinità stabile, che alimenta il processo di clustering finale.

Questo approccio risulta particolarmente efficace nel migliorare la qualità del clustering delle immagini iperspettrali, soprattutto in scenari complessi dove le relazioni spaziali e spettrali giocano un ruolo fondamentale. La combinazione di tecniche di riduzione dimensionale, grafi multivista, GCN e apprendimento contrastivo fornisce una metodologia potente per l'analisi avanzata delle immagini iperspettrali, portando a risultati significativamente superiori rispetto alle tecniche convenzionali.

Infine, è fondamentale sottolineare che, sebbene il framework proposto rappresenti un significativo passo avanti nella ricerca sul clustering delle immagini iperspettrali, l'efficacia di tale approccio dipende in larga misura dalla qualità e dalla quantità dei dati disponibili, nonché dalla capacità di configurare correttamente i parametri del modello. La comprensione delle peculiarità dei dati iperspettrali e delle specificità del processo di clustering è essenziale per ottenere risultati ottimali in applicazioni reali.

Come ottimizzare la rappresentazione grafica in clustering non supervisionato: il modulo LGAT

Nel contesto del clustering non supervisionato su grafi, i metodi esistenti spesso affrontano limitazioni legate alla difficoltà di preservare informazioni locali multi-scala nei grafi. La maggior parte degli approcci tradizionali tende a concentrarsi solo sul miglioramento globale, trascurando le caratteristiche spaziali e spettrali nascoste a più scale. Questi approcci, pur essendo efficaci nel catturare segnali globali, non sono in grado di affrontare adeguatamente i compiti di clustering node-specifici che richiedono informazioni intermedie a livello di singolo nodo.

Per superare questi limiti, è stato proposto un modulo innovativo denominato LGAT (Layer-by-Layer Graph Attention), che permette di mantenere informazioni locali multi-scala attraverso un approccio di concatenazione. In questo metodo, le caratteristiche a livello di ciascun layer del grafo vengono concatenate, creando una rappresentazione ricca di informazioni per ogni nodo. Questo permette di preservare le informazioni locali e di esplorarle più in profondità durante il processo di clustering.

Il modulo LGAT lavora su ogni layer individualmente, ma successivamente applica un meccanismo di attenzione che consente di pesare l'importanza di ciascun layer in relazione ai compiti di clustering. Ciò avviene grazie a una funzione di attenzione, in cui i coefficienti di attenzione tra i nodi sono calcolati e utilizzati per adattare le informazioni dai vari livelli. La formula risultante consente di pesare le caratteristiche estratte dai diversi livelli in base alla loro rilevanza per il clustering.

La combinazione di queste informazioni permette di costruire una rappresentazione complessa e sfaccettata del grafo, utile per il clustering. A livello pratico, la concatenazione delle caratteristiche dai vari layer crea una rappresentazione più ricca che è più facilmente separabile durante la fase di clustering. Il coefficiente di attenzione a ciascun nodo influenza quindi la capacità del modello di concentrarsi sulle relazioni più rilevanti, rafforzando la qualità della rappresentazione finale.

Un altro elemento chiave di questo approccio è l'uso di un decodificatore di ricostruzione del grafo, che consente di ricostruire sia le caratteristiche del nodo che la struttura complessiva del grafo. Questa operazione viene effettuata tramite un decoder di prodotto interno che utilizza la matrice di adiacenza ricostruita per confrontare la struttura originale con quella predetta. La divergenza di Kullback-Leibler (KL) è poi impiegata per misurare la differenza tra queste due strutture, consentendo di ottimizzare la qualità del modello nel tempo.

A livello di clustering, il metodo proposto si distingue per l'integrazione di una strategia di autoapprendimento che sfrutta "etichette morbide" per supervisionare il processo di clustering. Questo approccio aiuta a superare una delle principali difficoltà del clustering non supervisionato, ovvero la mancanza di etichette durante la fase di addestramento. L'obiettivo è quello di affinare progressivamente la rappresentazione nascosta appresa dal grafo, facendo sì che i nodi all'interno della stessa classe siano più simili tra loro, mentre i nodi di classi diverse vengano separati efficacemente.

Un altro aspetto interessante riguarda l'ottimizzazione congiunta delle funzioni di embedding e di clustering. La funzione obiettivo finale è combinata tra la perdita di ricostruzione del grafo e la perdita di clustering auto-supervisionato. L'integrazione di queste due perdite consente di affinare progressivamente le rappresentazioni nascoste, mentre un coefficiente di ponderazione consente di regolare l'importanza relativa di ciascuna perdita. In questo modo, il modello può migliorare sia nella qualità della ricostruzione del grafo che nel clustering dei nodi.

La modalità di ottimizzazione richiede l'aggiornamento dei parametri tramite discesa del gradiente, affinché i pesi del grafo e i centri dei cluster vengano regolati durante l'addestramento. Le etichette target vengono aggiornate in modo dinamico, utilizzando il clustering k-means sui nodi embedded per determinare i centri iniziali, e successivamente affinando le etichette a seconda della distanza tra i nodi e i centri dei cluster.

Questa combinazione di tecniche di embedding grafico, autoapprendimento e ottimizzazione congiunta offre un approccio robusto ed efficace per il clustering non supervisionato su grafi complessi. L'uso di informazioni multi-scala a livello di layer e l'integrazione di tecniche di attenzione e autoapprendimento migliora significativamente le performance rispetto ai metodi tradizionali, offrendo una soluzione potente per compiti di clustering grafico in contesti complessi e ad alta dimensionalità.