L’algoritmo Compressive Sampling Matching Pursuit (CoSaMP) rappresenta una tecnica iterativa di grande efficacia per il recupero e la ricostruzione di segnali sparsi, applicabile ai dati iperspettrali e multispettrali. La sua forza risiede nella capacità di individuare progressivamente i componenti più significativi del segnale a partire da un numero ridotto di misure, permettendo così un’acquisizione dati efficiente e una ricostruzione accurata. Il processo inizia con una stima iniziale del segnale, spesso un vettore nullo o una prima approssimazione basata su conoscenze pregresse. A ogni iterazione, CoSaMP identifica gli indici delle componenti più rilevanti residui, ne seleziona un sottoinsieme e ne aggiorna la stima tramite un’approssimazione ai minimi quadrati. La fase di potatura successiva mantiene solo i contributi più consistenti, garantendo che la ricostruzione rimanga aderente alla struttura sparsa prevista. L’algoritmo procede fino al soddisfacimento di criteri di arresto definiti, quali un numero prefissato di iterazioni o una soglia sul residuo.

L’applicazione di CoSaMP ai dati iperspettrali è particolarmente vantaggiosa per la natura intrinsecamente sparsa di tali segnali, dovuta alla presenza di firme spettrali specifiche che caratterizzano materiali e anomalie. Ciò consente di ricostruire efficacemente l’informazione essenziale a partire da un insieme ridotto di misure, ottimizzando sia l’acquisizione sia la successiva analisi. Anche nei dati multispettrali, sebbene caratterizzati da un numero minore di bande, CoSaMP si rivela utile nel recuperare componenti spettrali sparse, supportando attività come la classificazione del territorio e il rilevamento di cambiamenti ambientali.

Parallelamente, le tecniche basate sulla somiglianza non locale si fondano sull’assunzione che strutture o pattern simili possano essere trovati in diverse zone dell’immagine iperspettrale o multispettrale. Questi metodi iniziano estraendo patch sovrapposte dell’immagine, per poi misurare la somiglianza tra ciascuna patch e tutte le altre utilizzando metriche come la distanza euclidea, l’angolo spettrale o la correlazione. Una selezione ponderata delle patch più simili consente di aggregare informazioni ridondanti e condivise, migliorando così la qualità dei dati attraverso la riduzione del rumore e della ridondanza.

La ricostruzione avviene mediante la fusione delle patch elaborate, garantendo una transizione omogenea tra le regioni sovrapposte, e può essere ulteriormente raffinata tramite iterazioni successive. Questo approccio è particolarmente efficace nel ridurre il rumore causato da interferenze atmosferiche o limiti dei sensori, preservando l’integrità spaziale e spettrale dell’immagine. Per i dati multispettrali, la denoising non locale migliora la qualità dell’immagine, favorendo una più precisa classificazione e il rilevamento di cambiamenti.

L’elevata dimensionalità tipica dei dati iperspettrali, dovuta al gran numero di bande spettrali per pixel, viene affrontata efficacemente tramite queste tecniche di somiglianza, che consentono una riduzione della dimensionalità mantenendo le caratteristiche critiche. Anche se i dati multispettrali hanno meno bande, le metodologie non locali si dimostrano valide nel riconoscere pattern spettrali comuni, migliorando l’efficienza computazionale e riducendo la complessità del processamento.

È fondamentale comprendere che sia CoSaMP sia i metodi basati sulla somiglianza non locale presuppongono che il segnale o l’immagine presentino una struttura intrinseca che possa essere sfruttata per migliorare l’acquisizione e l’elaborazione. La scelta accurata dei parametri, come il livello di sparsitá atteso o la soglia di similarità, condiziona profondamente l’efficacia di questi algoritmi. Inoltre, la qualità della ricostruzione o della denoising dipende dalla natura dei dati, dalla presenza di rumore e dalla coerenza spettrale e spaziale delle scene analizzate. È quindi imprescindibile per il lettore acquisire una visione critica e approfondita degli scenari applicativi e delle limitazioni tecniche insite in questi metodi per un utilizzo consapevole e ottimale nel campo dell’elaborazione iperspettrale e multispettrale.

Quali sono le sfide e le soluzioni per la registrazione delle immagini iperspettrali nei bandi termici MWIR e LWIR?

La registrazione delle immagini iperspettrali (HS) in diverse bande spettrali è una sfida complessa, soprattutto quando si considerano le bande termiche, come quelle nel Medio Infrarosso (MWIR) e nel Lungo Infrarosso (LWIR). A differenza delle bande visibili e dell'infrarosso a onde corte (VNIR e SWIR), che si basano principalmente sulla riflessione della luce da oggetti nella scena, le bande termiche catturano segnali dominati dalle radiazioni termiche emesse dagli oggetti stessi, influenzate dalla loro temperatura e dalle proprietà di emissività dei materiali. Questo comportamento fa sì che la registrazione delle immagini iperspettrali termiche presenti sfide uniche rispetto alle bande visibili o SWIR.

Uno degli ostacoli principali è la variabilità termica tra i momenti di acquisizione delle immagini, che può portare a differenze significative nelle caratteristiche termiche degli oggetti, nonché al rumore termico, che è particolarmente dominante nelle bande termiche. Inoltre, le difficoltà derivano dalla limitata disponibilità di dati termici etichettati, che complica ulteriormente il processo di registrazione. Di conseguenza, gli studi sulla registrazione delle immagini iperspettrali termiche sono relativamente pochi rispetto a quelli focalizzati sulle bande visibili e SWIR.

Nel contesto della registrazione delle immagini iperspettrali in bande MWIR e LWIR, è stato proposto un metodo che segue il flusso di lavoro tradizionale di registrazione delle immagini HS, adattato però per affrontare le specificità delle bande termiche. In questo approccio, le coppie di immagini MWIR e LWIR vengono prima convertite in immagini bidimensionali. Successivamente, queste immagini vengono filtrate per ridurre il rumore e scalate per avere lo stesso intervallo di valori. La registrazione avviene quindi utilizzando un approccio basato sui punti di interesse, che implica l'individuazione di punti chiave stabili e comuni tra le due immagini per allinearle correttamente.

Un punto cruciale nello sviluppo di questi metodi è la selezione delle caratteristiche da utilizzare per la registrazione delle immagini tra bande MWIR e LWIR. Tra le possibili opzioni, le caratteristiche più promettenti sembrano essere quelle che possono essere estratte in modo efficace da entrambe le bande. Un esempio di tale caratteristica è la temperatura stimata dei pixel nelle bande MWIR e LWIR, che si può ottenere tramite un algoritmo di stima della temperatura di luminosità. Altre caratteristiche utili includono l'energia del pixel, ottenuta come norma L2 delle informazioni spettrali per ogni pixel, e l'emissività media, che può essere calcolata tramite l'algoritmo Temperature Emissivity Separation (TES).

Gli esperimenti condotti su coppie di immagini MWIR-LWIR hanno mostrato che alcune caratteristiche, come la temperatura del pixel, l'energia del pixel e il primo componente principale, sono fortemente correlate tra le due bande spettrali e portano a migliori risultati nella registrazione automatica. Al contrario, l'emissività e gli altri componenti principali hanno mostrato una correlazione inferiore, risultando meno efficaci per la registrazione. Questo dimostra che la scelta della caratteristica giusta è fondamentale per ottenere una registrazione di alta qualità.

Per quanto riguarda la valutazione delle prestazioni, i risultati ottenuti tramite il metodo proposto sono stati confrontati con quelli della registrazione manuale dei punti chiave. I risultati sono stati misurati in termini di informazione mutua tra l'immagine di riferimento e quella trasformata. È emerso che il metodo proposto ha superato la registrazione manuale in tutte le coppie di immagini esaminate, con una maggiore precisione nella selezione automatica dei punti chiave, che risulta particolarmente vantaggiosa nelle immagini termiche, dove il rumore termico rende difficile la selezione manuale dei punti.

Un altro aspetto importante riguarda le sfide legate alla differenza di scala tra le immagini multispettrali (MS) e quelle iperspettrali (HS). Questo gap di scala può ridurre il numero di punti di interesse estratti durante il processo di registrazione, ma un approccio basato sull'uso di reti neurali deep learning ha mostrato promesse nel migliorare la qualità della registrazione. Le reti sono progettate per estrarre caratteristiche stabili, come i bordi e i livelli di grigio, che sono comuni in entrambe le immagini MS e HS. Queste tecniche sono particolarmente utili quando la differenza di scala tra le immagini è significativa.

Per concludere, la registrazione delle immagini iperspettrali nelle bande MWIR e LWIR rappresenta una delle sfide più complesse nell'analisi delle immagini termiche. Nonostante i progressi fatti negli ultimi anni, il campo è ancora nelle fasi iniziali, e restano numerosi ostacoli da superare, come la scarsità di dati etichettati, le differenze nei sensori utilizzati per le varie gamme spettrali, il rumore termico e le condizioni di acquisizione che possono variare notevolmente nel tempo. Tuttavia, le tecniche basate su deep learning e l'uso di caratteristiche comuni tra le diverse bande spettrali stanno mostrando risultati promettenti, aprendo la strada a soluzioni più precise ed efficienti in futuro.

Come Funziona l’Immagine Iperspettrale e le sue Applicazioni

L’acquisizione di immagini iperspettrali rappresenta una delle tecnologie più avanzate nel campo del telerilevamento, basandosi sull’utilizzo di sensori come l’AVIRIS che permettono di catturare immagini non solo nel campo della luce visibile, ma anche nel dominio dell'infrarosso. Questi sensori acquisiscono immagini in diverse lunghezze d’onda, che vengono poi combinate per formare un "ipercubo", un termine che descrive graficamente le immagini acquisite in uno spettro iperspettrale. Un ipercubo iperspettrale è una rappresentazione tridimensionale in cui le due dimensioni spaziali corrispondono alle coordinate di una scena, mentre la terza dimensione rappresenta il dominio spettrale, ovvero l’intensità della luce riflessa per ciascuna lunghezza d'onda catturata.

Ogni pixel in un’immagine iperspettrale contiene un’intera serie di valori di riflettanza associati alle diverse lunghezze d'onda, che, insieme, formano la "firma spettrale" di quel punto specifico. Questa firma spettrale è unica per ogni materiale o composto e consente una classificazione molto più precisa rispetto ai tradizionali sensori di immagini a colori o a infrarossi. Le firme spettrali possono rivelare informazioni sulla composizione chimica e fisica degli oggetti osservati, fornendo dettagli che non sarebbero rilevabili tramite altre tecnologie di telerilevamento.

In particolare, l’imaging iperspettrale permette di osservare il comportamento di riflettanza dei materiali attraverso diverse lunghezze d’onda. Ad esempio, in un’immagine che copre sia l'infrarosso che la luce visibile, i diversi materiali (come vegetazione, suolo e acqua) riflettono la luce in maniera diversa, a seconda delle loro caratteristiche chimiche. Utilizzando queste informazioni, è possibile identificare con alta precisione la composizione e la distribuzione dei materiali in un’area monitorata.

Le caratteristiche principali dei sistemi di imaging iperspettrale includono la risoluzione spettrale, spaziale e radiometrica. La risoluzione spettrale si riferisce al numero di bande spettrali che un sensore è in grado di acquisire. Tipicamente, i sistemi di telerilevamento iperspettrale operano su bande che spaziano da 400 nm a 2500 nm, includendo regioni come il vicino infrarosso (VNIR) e l’infrarosso a onde corte (SWIR). Alcuni sensori moderni includono anche la regione dell'infrarosso termico (TIR). La risoluzione spaziale, invece, è la capacità del sistema di distinguere oggetti in una scena, ed è influenzata dalla altitudine del sensore e dal campo visivo istantaneo. La risoluzione spaziale varia a seconda del sistema, con sensori come l’HyMap che raggiungono una risoluzione di 2.8 metri, mentre altri, come il sistema AVIRIS, raggiungono risoluzioni di circa 30 metri.

Un altro aspetto cruciale è la risoluzione radiometrica, che si riferisce alla capacità del sensore di misurare piccoli cambiamenti nell'intensità della riflettanza. Questo parametro è spesso espresso in termini di bit (ad esempio 10 o 12 bit) e influisce direttamente sulla qualità e la precisione dei dati acquisiti. Inoltre, il rapporto segnale/rumore (SNR) è un indicatore fondamentale per valutare la qualità dell'immagine acquisita, determinando la capacità del sensore di distinguere il segnale reale dai disturbi.

Un aspetto interessante nell'ambito dell’imaging iperspettrale è l’utilizzo di tecniche avanzate di apprendimento automatico, come le reti neurali artificiali, per analizzare e classificare le immagini. L’apprendimento automatico (Machine Learning) permette ai modelli di "imparare" da grandi quantità di dati senza la necessità di una programmazione esplicita. In particolare, nel contesto delle immagini iperspettrali, le reti neurali possono essere impiegate per riconoscere pattern complessi e per classificare i materiali presenti nell’immagine in base alle loro firme spettrali.

Esistono diverse tipologie di apprendimento automatico, tra cui l’apprendimento supervisionato, dove un modello viene addestrato su dati etichettati, e l’apprendimento non supervisionato, che consente al modello di scoprire autonomamente strutture nei dati. L’apprendimento semi-supervisionato e l'apprendimento per rinforzo sono altre varianti che possono essere utilizzate in scenari specifici, in base alla disponibilità di dati etichettati e alla necessità di ottimizzare i risultati attraverso esperimenti interattivi.

In ambito di classificazione, l’immagine iperspettrale permette di ottenere informazioni molto più dettagliate e precise rispetto ai metodi tradizionali, poiché ogni pixel è rappresentato da una firma spettrale che descrive non solo il materiale, ma anche le sue caratteristiche specifiche. Per esempio, mentre una fotografia a colori tradizionale può differenziare tra verde e marrone, un'immagine iperspettrale sarà in grado di distinguere diverse tipologie di vegetazione o di minerali, identificando con maggiore precisione la composizione chimica di ciascun materiale.

Infine, un altro elemento da considerare riguarda l’analisi dei dati: l’utilizzo di immagini iperspettrali, sebbene potente, comporta una grande complessità nella gestione e nell’elaborazione dei dati. La quantità di informazioni per pixel è notevolmente superiore rispetto a quella ottenuta con altre tecnologie, e la gestione di questi dati richiede capacità computazionali avanzate. L’applicazione di tecniche di riduzione della dimensionalità, come l'analisi delle componenti principali (PCA), può essere utile per semplificare e ottimizzare l’elaborazione, consentendo di focalizzarsi sugli aspetti più rilevanti dei dati.

Come migliorare la classificazione delle immagini iperspettrali utilizzando il modello T-HyC basato sull'apprendimento di trasferimento

Il miglioramento della classificazione delle immagini iperspettrali (HSI) è una sfida centrale nell'ambito del riconoscimento automatico di pattern. La difficoltà principale risiede nell'elaborazione e classificazione di dati ad alta dimensione, dove le informazioni spettrali e spaziali devono essere estratte con precisione. Il modello proposto T-HyC (Transfer Learning-based Multi-scale 3D-2D Feature Aggregation) si basa su un approccio a due fasi, che affronta questi problemi in modo innovativo. Nella prima fase, viene utilizzato un modello base per la tecnica di trasferimento dell'apprendimento, mentre nella seconda, un modello CNN (Convolutional Neural Network) leggero estrae informazioni sia spaziali che spettrali ad alta precisione per la classificazione. Questo approccio consente di ottenere una classificazione accurata delle immagini iperspettrali, superando le limitazioni legate alla scarsità di dati.

La classificazione delle immagini iperspettrali richiede una corretta estrazione delle caratteristiche, che nel caso del T-HyC avviene utilizzando una CNN a multiscala. Tradizionalmente, le CNN operano con una sola dimensione della finestra durante la classificazione delle immagini, ma il modello T-HyC adotta una tecnica di estrazione delle caratteristiche a multiscala, che migliora notevolmente l'accuratezza del modello. L'utilizzo di diverse dimensioni della finestra di convoluzione consente di catturare sia le somiglianze globali tra i pixel che le somiglianze locali, migliorando la capacità di rappresentare informazioni spaziali e spettrali.

Nel caso specifico del modello M3D-CNN (Multiscale 3D CNN), il processo inizia con la riduzione della dimensionalità tramite PCA (Principal Component Analysis), che consente di unificare il numero di bande nelle immagini iperspettrali, risolvendo i problemi di eterogeneità e permettendo una migliore adattabilità del modello. L'immagine risultante viene quindi suddivisa in cubi 3D senza sovrapposizioni, che vengono poi inviati a una rete CNN 3D per estrarre le caratteristiche spettrale-spaziali su più scale. Le caratteristiche estratte vengono successivamente unite e trattate per la classificazione, attraverso due strati completamente connessi.

Per ridurre la complessità del modello, il modello T-HyC adotta l'apprendimento di trasferimento. Nella fase di apprendimento di trasferimento, i pesi appresi dal modello M3D-CNN vengono trasferiti al modello SS-CNN (Spatial Spectral CNN), che utilizza queste informazioni per migliorare ulteriormente la classificazione. In questa fase, le caratteristiche spettrali e spaziali provenienti dai livelli 3D del modello M3D-CNN vengono rielaborate in caratteristiche 2D, che vengono quindi utilizzate per addestrare una rete CNN 2D. I pesi dei livelli di convoluzione 3D vengono mantenuti fissi, mentre l'addestramento e l'aggiornamento dei pesi avvengono solo sui livelli 2D. Questo approccio riduce significativamente la complessità del modello e il numero di parametri da apprendere, aumentando l'efficienza del processo.

Il modello T-HyC è stato testato su diversi dataset di riferimento, tra cui IP, PU e SA, e successivamente i pesi appresi sono stati trasferiti e testati sul dataset Houston. Durante l'addestramento, vengono utilizzate immagini suddivise in patch di diverse dimensioni (ad esempio, W1=15, W2=13, W3=11) e le patch vengono sottoposte a convoluzioni 3D con diverse dimensioni di kernel. Il modello SS-CNN, che utilizza l'apprendimento di trasferimento, è addestrato separatamente, ricevendo in input le caratteristiche provenienti dai livelli 3D del M3D-CNN, trasformate in 2D.

Il modello T-HyC è implementato utilizzando la libreria di deep learning Keras e viene eseguito su una GPU RTX, che consente di ridurre significativamente i tempi di elaborazione. Grazie all'integrazione dell'apprendimento di trasferimento e all'adozione di una rete CNN a multiscala, il modello T-HyC riesce a superare molte delle limitazioni tradizionali nella classificazione delle immagini iperspettrali, come la scarsità di dati e la complessità computazionale.

Oltre alle tecniche di base discusse, è fondamentale comprendere l'importanza della pre-elaborazione dei dati e della riduzione della dimensionalità in questo tipo di modelli. L'uso della PCA non solo consente di ridurre il numero di bande spettrali, ma facilita anche l'adattamento del modello ai dati, migliorando la capacità di generalizzazione del modello stesso. Inoltre, l'implementazione di tecniche come il dropout e la normalizzazione del batch aiuta a prevenire il sovrallenamento, migliorando ulteriormente l'affidabilità dei risultati.

In sintesi, il modello T-HyC rappresenta un notevole passo avanti nella classificazione delle immagini iperspettrali, grazie all'integrazione dell'apprendimento di trasferimento e alla strategia di estrazione delle caratteristiche multiscala. È una soluzione robusta e scalabile, in grado di affrontare con successo le sfide tipiche delle immagini iperspettrali, offrendo prestazioni superiori rispetto ai modelli tradizionali.