L'OA, ovvero l'accuratezza complessiva, rappresenta uno degli indicatori più utilizzati per valutare le performance di clustering. Esso calcola la proporzione di campioni correttamente previsti su tutti i campioni. La formula dell'OA è espressa come:

OA=1Ni=1Nδ(yi,ci)\text{OA} = \frac{1}{N} \sum_{i=1}^{N} \delta(y_i, c_i)

dove NN è il numero totale di campioni, yiy_i è l'etichetta vera del campione, cic_i è l'etichetta predetta dall'algoritmo, e δ\delta è la funzione indicatore che assume valore 1 quando yi=ciy_i = c_i e 0 altrimenti. La funzione mapmap è utilizzata per riallineare le etichette ottenute al fine di ottenere il miglior accoppiamento con le etichette vere.

Un altro indice fondamentale è il NMI (Normalized Mutual Information), che misura la somiglianza tra due risultati di clustering:

NMI=I(yi,ci)H(yi)H(ci)\text{NMI} = \sqrt{\frac{I(y_i, c_i)}{H(y_i) H(c_i)}}

dove I(yi,ci)I(y_i, c_i) rappresenta l'informazione mutua tra le etichette vere e quelle predette. Un valore maggiore di I(yi,ci)I(y_i, c_i) indica una relazione più forte tra le due variabili, mentre H(x)H(x) rappresenta l'entropia dell'informazione, ovvero la quantità media di informazione che corrisponde alla distribuzione di probabilità dell'insieme di dati. La normalizzazione del valore ottenuto nell'intervallo [0,1] permette di confrontare risultati tra diversi dataset.

Il coefficiente Kappa è un altro indice significativo, che esprime la concordanza tra le classificazioni predette e quelle vere, tenendo conto della possibilità di accordo casuale. La formula per il calcolo del Kappa è la seguente:

Kappa=i=1mhiii=1m(hi+hi+)N2i=1m(hi+hi+)\text{Kappa} = \frac{\sum_{i=1}^{m} h_{ii} - \sum_{i=1}^{m} (h_i + h_i^+)}{N^2 - \sum_{i=1}^{m} (h_i + h_i^+)}

dove hiih_{ii} rappresenta il numero di campioni correttamente classificati nella categoria ii, hi+h_i^+ il numero totale di campioni della categoria ii, e hih_i il numero di campioni classificati come ii. Il Kappa è particolarmente utile per comprendere quanto l'accuratezza ottenuta vada oltre il semplice caso fortuito.

Le metriche di valutazione, come OA, NMI e Kappa, sono cruciali per il confronto tra diversi metodi di clustering. In particolare, i metodi moderni basati su reti neurali e apprendimento profondo, come il GR-RSCNet, sono in grado di ottenere prestazioni significativamente superiori rispetto ai metodi tradizionali, come il k-means, sfruttando trasformazioni non lineari per estrarre rappresentazioni ottimali dei dati complessi. L'introduzione della regolarizzazione tramite apprendimento contrastivo ha inoltre permesso un miglioramento significativo delle prestazioni.

Nei risultati sperimentali, è emerso che l'integrazione di dati multiview complementari, come nel caso della nostra proposta CMSCGC, ha contribuito a migliorare notevolmente la precisione del clustering. L'uso di reti neurali convoluzionali per l'estrazione delle caratteristiche, seguito da una fase di clustering tramite k-means, ha mostrato miglioramenti significativi in confronto ai metodi convenzionali. Inoltre, i metodi di clustering basati su sottospazi come il SSC e il l2-SSC, che preservano le relazioni spaziali, sono risultati più efficaci rispetto ai metodi tradizionali.

L'analisi qualitativa dei risultati del clustering, visualizzati su quattro dataset di benchmark, ha mostrato che, sebbene i metodi di clustering spettrale non supervisionati possano portare a variazioni nell'assegnazione dei colori per classi identiche, tali variazioni non compromettono la validità della comparazione dei metodi. Tuttavia, le tecniche di clustering basate su sottospazi presentano alcune limitazioni, soprattutto nella riduzione dimensionale, che può non essere sufficiente a preservare le relazioni spaziali e strutturali intrinseche nei dati.

In sintesi, il miglioramento delle tecniche di clustering è strettamente legato all'integrazione di approcci innovativi come la regolarizzazione, l'apprendimento contrastivo e l'uso di dati complementari da più visioni, oltre che all'adozione di tecniche moderne basate su reti neurali profonde e grafi convoluzionali.

Come migliorare l'apprendimento grafico per il clustering attraverso il filtro grafico a bassa frequenza

Nel contesto dell'elaborazione delle immagini iperspettrali, l'uso dei grafici per modellare la struttura dei dati è diventato un approccio fondamentale. Il grafico costruito tramite una matrice di correlazione Q, come introdotto da SLIC, permette di rappresentare efficacemente i dati, sfruttando i superpixel come nodi di un grafo. La matrice di correlazione Q è definita in modo tale che Qi,j=1Q_{i,j} = 1 se il pixel xix_i appartiene al superpixel SjS_j, e Qi,j=0Q_{i,j} = 0 altrimenti. Tale matrice può essere utilizzata per proiettare le caratteristiche di un’immagine iperspettrale a livello di pixel in caratteristiche a livello di superpixel tramite moltiplicazione matriciale, come descritto nell’equazione 4.8.

L'analisi grafica di queste caratteristiche avviene normalizzando la matrice Q per colonna, il che porta a una rappresentazione più stabile delle informazioni spaziali. Questo tipo di approccio permette di ridurre la complessità computazionale associata all’elaborazione delle immagini iperspettrali, poiché i nodi nel grafo risultante corrispondono a superpixel anziché a singoli pixel, riducendo il numero di nodi e migliorando l'efficienza dell'algoritmo.

Un aspetto cruciale per migliorare l’accuratezza del clustering in un grafo è il trattamento del rumore. Nelle reti grafiche, il rumore ad alta frequenza può distorcere i segnali e impedire l'apprendimento accurato. Per affrontare questo problema, viene proposto un meccanismo di denoising grafico a bassa frequenza. Questo approccio si basa sull'utilizzo dei filtri grafici, che permettono di "smussare" il segnale rimuovendo il rumore ad alta frequenza, preservando però le informazioni di bassa frequenza. Il filtro Laplaciano grafico, introdotto come H=IkLH = I - kL, è progettato per ridurre l'intensità delle alte frequenze nel grafo, mentre le basse frequenze rimangono intatte. L'effetto di questo filtro è evidente nell'equazione 4.16, dove LL rappresenta la matrice Laplaciana normalizzata, e kk è un parametro che controlla l'intensità della filtrazione.

L'uso di filtri grafici multipli consente di ottenere un segnale ancora più "liscio" e di ridurre ulteriormente il rumore ad alta frequenza. Applicando il filtro grafico su più livelli, come descritto nell'equazione 4.17, è possibile migliorare ulteriormente la qualità dei dati e facilitare il clustering tramite tecniche come il K-means.

Un ulteriore passo verso un miglioramento delle performance è l’introduzione di un apprendimento contrastivo strutturale. In questo caso, l'idea è quella di utilizzare due encoder MLP separati per apprendere due viste distinte delle stesse caratteristiche del nodo, che vengono poi confrontate tra loro. Il contrasto tra queste due rappresentazioni permette di rafforzare la capacità del modello di discriminare tra nodi simili e nodi dissimili. Inoltre, per migliorare la robustezza dell'algoritmo, viene introdotto del rumore gaussiano randomizzato, come descritto nell'equazione 4.19, per perturbare le rappresentazioni dei nodi e favorire un apprendimento più generalizzabile.

La fase finale dell'algoritmo prevede la fusione delle due rappresentazioni apprese in un’unica caratteristica di nodo, che viene poi utilizzata per il clustering finale. La matrice di similarità calcolata tra le due viste viene utilizzata per determinare la perdita contrastiva incrociata, che guida il modello verso una migliore separazione dei nodi. Questo approccio aiuta a mantenere la coerenza strutturale nel grafo, migliorando le performance complessive del clustering.

Infine, il processo di clustering viene completato tramite l'uso del K-means, che applica un algoritmo di clustering tradizionale sulle caratteristiche del nodo ottenute. La riduzione della complessità computazionale è un altro aspetto importante, poiché l'algoritmo proposto è efficiente, con una complessità computazionale che cresce in modo controllato rispetto al numero di nodi e dimensioni spettrali dell'immagine iperspettrale.

Nel complesso, l’approccio proposto non solo migliora l’accuratezza del clustering, ma garantisce anche una maggiore efficienza computazionale, un aspetto fondamentale nell’elaborazione di grandi volumi di dati iperspettrali. Il framework sviluppato fornisce una base solida per ulteriori ricerche nell’area dell'apprendimento grafico e del clustering in scenari complessi come quelli offerti dalle immagini iperspettrali.

Come migliorare l'analisi delle immagini iperspettrali attraverso il clustering non supervisionato?

Il clustering rappresenta una delle tecniche non supervisionate più potenti per il riconoscimento di pattern e l'estrazione di informazioni, ed è ampiamente utilizzato nell'interpretazione delle immagini iperspettrali (HSI). Questa metodologia raggruppa i pixel simili e separa quelli dissimili, con ciascun gruppo che rappresenta una classe distinta. Esplorando approfonditamente le proprietà strutturali dei dati iperspettrali, basandosi su criteri di similarità, il clustering consente l'identificazione e la categorizzazione di materiali e oggetti differenti all'interno dell'immagine.

Tuttavia, le immagini iperspettrali presentano una struttura interna molto più complessa rispetto alle immagini di testo, figure scritte a mano, immagini naturali e multispettrali. Le HSI, infatti, mostrano una variabilità spettrale notevole: i pixel appartenenti alla stessa classe possono avere firme spettrali differenti a causa della complessità dell'ambiente di acquisizione delle immagini. Di conseguenza, il clustering delle immagini iperspettrali è una sfida molto più difficile.

Il clustering delle immagini iperspettrali solitamente si articola in due compiti principali: stimare il numero di cluster e costruire un modello di clustering appropriato. Tuttavia, il primo compito non rappresenta il fulcro del clustering delle immagini iperspettrali e il suo studio è relativamente limitato. In pratica, il numero di cluster viene spesso impostato in base al numero noto di classi nel dato di verità di riferimento. Quanto al secondo compito, la ragionevolezza e l'efficacia del modello di clustering influenzano direttamente l'accuratezza finale del clustering. Di conseguenza, lo sviluppo e il perfezionamento delle metodologie e dei modelli di clustering sono stati al centro delle ricerche nel campo dell'elaborazione delle immagini iperspettrali.

I metodi tradizionali di clustering delle immagini iperspettrali sono stati ampiamente studiati e applicati grazie alla loro efficacia nel riconoscimento non supervisionato dei pattern e nell'estrazione delle informazioni. Tecniche come il K-means, che si basano su metriche di distanza tra coppie di punti, come la distanza euclidea, sono ampiamente utilizzate. Tuttavia, problemi come i pixel misti e le bande spettrali ridondanti rendono queste misurazioni poco affidabili, complicando notevolmente il clustering delle HSI. Il clustering nello spazio delle sottospecie è un altro approccio classico per il clustering delle immagini iperspettrali, grazie alla sua capacità di gestire dati ad alta dimensione e alla sua affidabilità. Questa tecnica mira a rappresentare i punti dati come combinazioni lineari di un dizionario autoespressivo all'interno della stessa sottospecie. La procedura comprende tipicamente due passaggi principali: l'auto-rappresentazione e il clustering spettrale. Per migliorare le prestazioni del clustering nelle sottospecie, numerosi studi si sono concentrati sulla costruzione di una matrice di affinità robusta utilizzando diverse tecniche.

Tuttavia, i modelli tradizionali di clustering nelle sottospecie si basano spesso su dati euclidei, ignorando così le informazioni strutturate a grafo presenti nei punti dati delle immagini iperspettrali. Inoltre, le informazioni spaziali contenute nelle HSI sono altrettanto fondamentali. Affidarsi esclusivamente alle informazioni spettrali delle immagini iperspettrali non è sufficiente per un'analisi accurata. Pertanto, per sfruttare appieno le informazioni spettrali e spaziali delle HSI e migliorare la precisione del clustering, sono stati sviluppati vari metodi di clustering spettrale-spaziale, che hanno mostrato prestazioni superiori rispetto a quelli che si basano esclusivamente sulle informazioni spettrali.

Un esempio tipico di queste tecniche è l'algoritmo di clustering spettrale-spaziale basato sulla sottomatrice sparsa (SSC). Questo approccio favorisce che i pixel target siano rappresentati da atomi altamente correlati tramite una strategia di ponderazione e incorpora le informazioni spaziali locali generando un modello di auto-rappresentazione integrato. Un ulteriore miglioramento è stato proposto con l'algoritmo SSC-3DEPF, che utilizza un filtro di preservazione dei bordi 3D per estrarre informazioni spettrali-spaziali dal matrice di coefficienti ottenuta tramite SSC, generando una matrice di coefficienti più precisa, utile per il clustering. Tuttavia, questi metodi si rivelano essere classificatori superficiali basati su spazi di caratteristiche predefiniti o non elaborati, che non sono in grado di apprendere le caratteristiche avanzate delle HSI, né di caratterizzare efficacemente la variabilità spettrale e la complessità interna dei dataset HSI.

Con i recenti progressi nel campo dell'apprendimento automatico, in particolare dell'apprendimento profondo, anche il clustering delle immagini iperspettrali ha visto miglioramenti significativi. Le reti neurali convoluzionali (CNN) sono state adattate per eseguire riduzione dimensionale e clustering direttamente sui dati iperspettrali. Questi metodi hanno dimostrato prestazioni notevoli nell'apprendere automaticamente le caratteristiche rilevanti dalle immagini iperspettrali grezze, superando spesso gli approcci tradizionali. Poiché non ci sono campioni etichettati disponibili, questi modelli sono generalmente ottimizzati in modo non supervisionato.

I metodi di clustering basati sull'apprendimento profondo possono essere suddivisi in tre categorie principali, a seconda del meccanismo di apprendimento non supervisionato utilizzato: clustering basato su autoencoder, clustering basato su reti generative e clustering basato su apprendimento contrastivo. I metodi di clustering basati su autoencoder comprendono un encoder per la rappresentazione dei dati e un decoder per la ricostruzione, addestrando minimizzando gli errori di ricostruzione. Un esempio prominente di questa categoria è la rete di clustering profondo (DCN), che impiega un autoencoder profondo per la riduzione dimensionale e l'estrazione di caratteristiche più compatibili con il clustering K-means, integrando la riduzione dimensionale e il clustering all'interno di un singolo framework.

Tuttavia, al di là di queste tecniche, è fondamentale comprendere che il clustering delle immagini iperspettrali è una sfida complessa e multidimensionale, che non riguarda solo l’accuratezza nell’identificare le classi, ma implica anche una continua riflessione sui modelli di rappresentazione dei dati. Inoltre, l’integrazione delle informazioni spaziali e spettrali si rivela cruciale non solo per migliorare la qualità delle previsioni, ma anche per garantire che il modello di clustering possa adattarsi alle caratteristiche specifiche dei dati iperspettrali, che sono per loro natura molto variegati e complessi.

Come l'apprendimento contrastivo spaziale-spettrale con il mining di campioni difficili può migliorare il clustering delle immagini iperspettrali

L'elaborazione delle immagini iperspettrali (HSI) ha ricevuto un'attenzione crescente negli ultimi anni, grazie alla sua capacità di catturare informazioni dettagliate su una vasta gamma di lunghezze d'onda spettrali. Tuttavia, la sfida principale nella segmentazione e nel clustering delle immagini iperspettrali risiede nella gestione della variabilità spettrale e nella complessità spaziale che caratterizzano queste immagini. La maggior parte degli approcci tradizionali non riesce a catturare correttamente questa ricca varietà di informazioni, risultando in performance di clustering insufficienti.

Una delle novità più promettenti in questo campo è l'adozione di tecniche di apprendimento contrastivo, che si concentrano sul miglioramento delle rappresentazioni semantiche, e in particolare l'introduzione di un meccanismo di mining di campioni difficili, che supera i limiti delle tecniche tradizionali. Questo approccio non solo migliora la qualità del clustering, ma offre una soluzione alle difficoltà specifiche delle immagini iperspettrali, come la variabilità spettrale e la complessità spaziale.

Il nostro approccio, che proponiamo con il termine SSGCC (Spatial-Spectral Graph Contrastive Clustering), si distingue per l'uso di un meccanismo di apprendimento contrastivo adattivo, che prima identifica campioni ad alta confidenza tramite il consenso tra domini, e successivamente applica una strategia dinamica di modulazione del peso per enfatizzare selettivamente i casi difficili. Questo processo si concentra particolarmente sui campioni positivi con bassa similarità e sui campioni negativi con alta similarità. Tale strategia permette di superare il trattamento uniforme dei campioni, affrontando in modo efficace le sfide specifiche delle immagini iperspettrali, ottenendo così una performance di clustering più discriminativa e affidabile.

Le principali innovazioni del nostro approccio includono:

  1. Integrazione di una nuova struttura di clustering HSI che incorpora sistematicamente il mining di campioni difficili, colmando un vuoto nelle metodologie esistenti.

  2. Una nuova tecnica di costruzione della vista spaziale-spettrale, che sfrutta la segmentazione in superpixel, e una funzione di perdita di coerenza innovativa per allineare efficacemente i risultati del clustering tra i domini spaziale e spettrale.

  3. Una strategia contrastiva mirata ai campioni difficili, che combina l'analisi delle caratteristiche spaziali e spettrali per migliorare significativamente l'apprendimento delle rappresentazioni per i casi più complessi.

L'efficacia di queste tecniche è stata validata tramite esperimenti esaustivi su quattro set di dati HSI di riferimento, dimostrando prestazioni superiori rispetto agli approcci tradizionali e stabilendo nuovi risultati all'avanguardia.

Per quanto riguarda il panorama più ampio delle tecniche di clustering delle immagini iperspettrali, esistono approcci che si distinguono per la loro capacità di gestire immagini a grande scala, dove la complessità computazionale diventa un ostacolo significativo. I metodi basati sui superpixel hanno mostrato di essere soluzioni efficienti, poiché segmentano le immagini in regioni di superpixel che, grazie alla loro omogeneità intrinseca, facilitano l'analisi delle caratteristiche spettrali. Tuttavia, la maggior parte di queste tecniche tende a sfruttare solo informazioni spettrali semplificate, trascurando la componente spaziale. Ad esempio, le reti neurali convoluzionali basate su grafi (GCN) hanno contribuito a migliorare il trattamento delle informazioni spaziali, ma rimangono limitate dalla loro incapacità di gestire adeguatamente la complessità spaziale e spettrale nelle immagini HSI.

Parallelamente, l'apprendimento contrastivo è emerso come una delle tecniche più promettenti per il clustering non supervisionato delle immagini HSI. In questo contesto, l'apprendimento contrastivo cerca di massimizzare la similarità tra coppie di campioni positivi, mentre minimizza la similarità tra coppie di campioni negativi nello spazio delle caratteristiche apprese. Questo approccio consente di affinare le rappresentazioni e migliorare la discriminazione tra le diverse categorie di pixel. Tuttavia, la maggior parte delle implementazioni tradizionali di apprendimento contrastivo tratta uniformemente tutti i campioni, senza considerare la difficoltà specifica di ciascun campione. L'introduzione di un meccanismo per il mining dei campioni difficili supera questa limitazione, dando priorità ai casi più complessi che sono fondamentali per definire i confini decisionali nel clustering.

Il mining dei campioni difficili, una tecnica che ha trovato ampio impiego in altri domini, come le immagini e i grafi, è particolarmente utile nel contesto delle immagini iperspettrali. L'adattamento di questa tecnica al nostro approccio risponde alle sfide specifiche delle immagini HSI, come le distorsioni spettrali dovute a variazioni stagionali o riflessioni da edifici, e le interferenze di fondo che contaminano l'estrazione delle caratteristiche. L'approccio che proponiamo identifica in modo dinamico e adattivo i campioni difficili e li enfatizza durante l'apprendimento, migliorando la capacità discriminativa del modello.

Il nostro approccio offre anche vantaggi significativi in termini di compatibilità con le architetture esistenti. Poiché integra il mining dei campioni difficili in un framework contrastivo spaziale-spettrale, può essere facilmente adattato a tecniche di apprendimento contrastivo già consolidate, migliorando le loro performance senza la necessità di modificare radicalmente le architetture preesistenti.

In sintesi, l'approccio SSGCC rappresenta un passo avanti significativo nel campo del clustering delle immagini iperspettrali, non solo superando le limitazioni degli approcci tradizionali, ma affrontando anche le sfide specifiche delle immagini HSI. L'integrazione di tecniche avanzate come il mining dei campioni difficili e l'apprendimento contrastivo adattivo fornisce una soluzione robusta e scalabile, in grado di migliorare notevolmente le prestazioni nei compiti di clustering delle immagini iperspettrali, ponendo così le basi per applicazioni più precise ed efficienti in scenari del mondo reale.