Nel campo del telerilevamento e della rilevazione remota, le immagini iperspettrali e multispettrali sono strumenti fondamentali per analizzare e interpretare vaste quantità di dati provenienti da diversi ambienti. L'utilizzo di queste tecnologie offre vantaggi significativi in settori come l'agricoltura, il monitoraggio ambientale e la classificazione del suolo, dove la precisione e la dettagliata risoluzione dei dati possono rivelare informazioni altrimenti invisibili.

L'analisi delle immagini iperspettrali, grazie alla loro capacità di raccogliere informazioni su centinaia di bande spettrali, consente di distinguere materiali e sostanze attraverso i loro specifici tratti spettrali. Tuttavia, questa abbondanza di dati comporta sfide in termini di gestione e riduzione dimensionale. Per questo motivo, le tecniche di selezione delle bande rivestono un ruolo cruciale, al fine di estrarre le informazioni più significative riducendo al minimo il rumore e migliorando le prestazioni del modello.

Tra le tecniche di selezione delle bande, la Principal Component Analysis (PCA) è una delle più utilizzate, poiché permette di ridurre la dimensionalità del dato, trasformando le variabili originali in nuove variabili non correlate, che contengono la maggior parte dell'informazione. Un’altra tecnica importante è la Minimum Noise Fraction (MNF), che seleziona le bande più significative riducendo il rumore e migliorando il rapporto segnale/rumore. La Spectral Angle Mapper (SAM), invece, è una tecnica di confronto che aiuta a identificare materiali specifici confrontando le firme spettrali delle immagini con quelle conosciute, mentre la Spectral Information Divergence (SID) misura la differenza tra distribuzioni spettrali di pixel e regioni, individuando caratteristiche spettrali uniche.

Altre tecniche avanzate includono la Mutual Information (MI), che seleziona le bande più pertinenti misurando la dipendenza tra di esse, e la Recursive Feature Elimination (RFE), che elimina progressivamente le bande meno rilevanti, migliorando l'accuratezza del modello.

Accanto alla selezione delle bande, la riduzione dimensionale è un altro aspetto fondamentale dell'elaborazione delle immagini iperspettrali. Le Variational Autoencoders (VAE) e le Generative Adversarial Networks (GANs) sono tecniche di riduzione dimensionale che utilizzano reti neurali per rappresentare i dati in spazi più compatti, mantenendo intatte le informazioni cruciali per l'analisi. Questi approcci consentono di gestire la complessità dei dati riducendo al minimo la perdita di informazione significativa.

Il Sparse Principal Component Analysis (Sparse PCA) si concentra sulla creazione di rappresentazioni più interpretabili, imponendo la sparsità sui dati, mentre le tecniche di riduzione dimensionale basate su grafi catturano le complesse relazioni spaziali tra i dati, sfruttando la struttura topologica degli stessi. Questi approcci offrono nuove prospettive per trattare i dati iperspettrali, mantenendo la capacità di estrarre informazioni significative da grandi volumi di dati.

L'uso di Deep Learning, in particolare le reti neurali profonde, ha rivoluzionato la gestione dei dati iperspettrali. Tecniche come Deep Autoencoders, Sparse Coding, e Non-Negative Matrix Factorization (NMF) sono ampiamente utilizzate per ridurre la dimensionalità e estrarre caratteristiche significative, migliorando le prestazioni dei modelli predittivi. Inoltre, metodi come la Tensor Decomposition e le Variational Bayesian Techniques offrono approcci avanzati per affrontare i dati ad alta dimensione, mantenendo la qualità dell'informazione.

Tuttavia, nonostante l'avanzamento delle tecniche di riduzione dimensionale e selezione delle bande, la sfida principale rimane quella di garantire che l'informazione cruciale non venga persa durante il processo. In particolare, è fondamentale riconoscere che la riduzione dimensionale, sebbene efficace nel ridurre il rumore, non può sacrificare la qualità dei dati in termini di precisione analitica. La scelta della tecnica dipende, dunque, dalla natura dei dati e dagli obiettivi dell'analisi.

Un altro aspetto cruciale è la classificazione delle immagini iperspettrali. Le reti neurali convoluzionali (CNN) hanno dimostrato di essere particolarmente efficaci per questo scopo, grazie alla loro capacità di estrarre caratteristiche gerarchiche e profonde da immagini di alta dimensione. Diverse varianti delle CNN, come la CNN bidimensionale (2D-CNN), la CNN tridimensionale (3D-CNN) e la CNN multi-dimensionale (MD-CNN), sono state esplorate per migliorare l'accuratezza della classificazione, ciascuna con i propri vantaggi in base alla specificità dei dati.

In conclusione, le tecniche di selezione delle bande, combinando metodologie classiche e avanzate, offrono strumenti potenti per trattare e analizzare i dati iperspettrali. Tuttavia, l’efficacia della classificazione dipende in larga parte dall’accurata scelta della tecnica di riduzione dimensionale e dalla capacità di integrare efficacemente le informazioni tramite modelli di deep learning. Oltre alla qualità dei dati, è fondamentale considerare la specificità delle applicazioni e i diversi metodi di preprocessing per ottimizzare i risultati finali.

Perché la Rete Inversa a Onde è Efficace nel Pan-Sharpening: Architetture e Applicazioni

Nel contesto delle architetture proposte per il pan-sharpening, si utilizzano due diverse pipeline per il decodificatore, descritte rispettivamente nelle Figure 4.3c e 4.3d. Queste pipeline si basano sull'uso di due strati convoluzionali seguiti ciascuno da un'operazione di attivazione PReLU, per poi applicare una Trasformata Discreta dell'onda inversa (IDWT) combinata con un altro strato PReLU. Un passaggio cruciale in queste architetture è la concatenazione finale, che aiuta a rafforzare la ricostruzione delle caratteristiche, elemento distintivo del nostro approccio. Tale sottostruttura, denominata "Decoder Wavelet unit" (DW), rappresenta un contributo significativo al nostro lavoro.

L'applicazione dell'IDWT è fondamentale, poiché evita la perdita di informazioni che potrebbe verificarsi in altre operazioni di up-sampling, come l'unpooling o la deconvoluzione. Come ampiamente documentato da altri lavori [42], l'IDWT assicura che i risultati della Trasformata Discreta dell'Onda (DWT) possano essere combinati con le mappe di caratteristiche senza generare ridondanza. Il Decoder Unit, denotato con la lettera "D" nella Figura 4.3c, è utilizzato nelle fasi finali dell'architettura ed è un semplice blocco costituito da due convoluzioni, ciascuna seguita da un'operazione di PReLU. Il suo scopo è mappare le mappe di caratteristiche in una rappresentazione che si avvicina maggiormente all'immagine finale pan-sharpened, garantendo, ad esempio, che le dimensioni dell'immagine di uscita siano corrette.

Queste tre strutture principali (Encoder, Fusion e Decoder) sono organizzate in modo simile a quanto proposto da TFNet [10] e sono state utilizzate per creare il nostro primo schema multi-stream, denominato Two-stream inverse wavelet network, o TIWNet. Abbiamo scelto questa configurazione perché si è dimostrata particolarmente efficace nell'affrontare il problema del pan-sharpening, come evidenziato in numerosi studi precedenti [4, 10, 43], con un forte riferimento al lavoro di [10], che ha ispirato profondamente il nostro approccio.

La Figura 4.4 riassume la struttura proposta di TIWNet, in cui il Decoder Wavelet appare in due parti consecutive della rete, denominate DW1 e DW2. L'operazione di concatenazione finale nel sistema DW (Figura 4.3d) riceve la skip-connection .F2 (E12 (I1)©E22 (I2)), nel caso di DW1, e .(E11 (I1) ,E21 (I2)) per DW2, generando i flussi .F2 (E12 (I1)©E22 (I2))©DW1 e .(E11 (I1)©E21 (I2))©DW2, rispettivamente.

Il secondo schema multi-stream, noto come T3IWNet, è rappresentato nella Figura 4.5. Esso segue la stessa architettura di TIWNet, ma con l'inclusione di un ulteriore flusso DWT, che motiva l'acronimo scelto. In questo caso, il Decoder Wavelet DW1 riceve la skip-connection .F2 (E12 (I1)©E22 (I2)) e DWT, mentre DW2 funziona in maniera analoga al caso precedente, ma con un input che include .F2 (E12 (I1)©E22 (I2))©DWT©DW1.

L’analisi dei dati si è basata sulle immagini fornite dal satellite Landsat-8, che cattura immagini in nove bande spettrali distinte, dal visibile al vicino infrarosso. I dati di alta risoluzione spaziale nelle bande panchromatiche di 15 metri, e nelle bande multispettrali da 30 metri, sono stati utilizzati per applicare il protocollo di pan-sharpening, generando immagini multispettrali ad alta risoluzione (HRMS). Tuttavia, a causa delle limitazioni di risoluzione nei dati multispettrali originali, le immagini MS sono state pre-elaborate e ridotte utilizzando un fattore di down-sampling di 2, in modo che potessero adattarsi meglio alle esigenze del modello proposto.

Per garantire che il modello fosse addestrato su un set di dati sufficientemente grande, è stata adottata una tecnica di data augmentation, mediante l’estrazione di patch quadrate di dimensioni fisse (128x128 pixel). Con questa tecnica, sono stati generati oltre 10.000 nuovi campioni per ogni epoca di addestramento, migliorando la robustezza e l'efficacia del modello. Per il test, è stata utilizzata una strategia di validazione incrociata a 4 fold, che ha permesso di ridurre al minimo il rischio di bias nei risultati.

Inoltre, l'adozione di metriche standard per la valutazione delle prestazioni, come il SAM (Spectral Angle Mapper), ha consentito una misurazione precisa della qualità spettrale delle immagini ottenute. Il SAM, che quantifica l'angolo tra i vettori spettrali delle immagini di riferimento e quelle fuse, rappresenta una misura chiave per valutare l'efficacia del pan-sharpening, con l'ideale che il valore di SAM sia prossimo a zero.

In sintesi, l'architettura proposta, con la sua combinazione di DWT, IDWT e tecniche avanzate di fusione dei dati, dimostra di essere un approccio efficace e scalabile per il pan-sharpening. I risultati ottenuti mostrano che l’integrazione delle onde discrete con le reti neurali convoluzionali può migliorare significativamente la qualità delle immagini, con applicazioni dirette in remote sensing e altre aree correlate.

Inoltre, il fatto che le immagini siano pre-elaborate e le patch siano sovrapposte durante il test aiuta a migliorare la precisione globale, riducendo gli artefatti tipici che si verificano agli estremi delle patch stesse. Questo processo è cruciale per evitare errori di stima e garantire che le immagini finali siano il più accurate possibile in relazione alla realtà osservata.

Come Migliorare l'Analisi Spazio-Spettrale delle Immagini Iperspettrali e Multispettrali con la Segmentazione Multi-Otsu e il Thresholding Multilivello

Nel contesto dell'analisi delle immagini iperspettrali e multispettrali, la segmentazione riveste un'importanza fondamentale per la comprensione delle caratteristiche del territorio e per l'estrazione delle informazioni rilevanti. Le immagini iperspettrali, caratterizzate da un ampio numero di bande spettrali, permettono di individuare dettagli invisibili ad occhio nudo, rendendo la segmentazione una fase cruciale nel processo di analisi. Tecniche avanzate come il Thresholding Multilivello e la Segmentazione Multi-Otsu si sono dimostrate particolarmente efficaci nell'analizzare questi dati complessi, offrendo vantaggi significativi in termini di precisione e efficienza computazionale.

La segmentazione tramite thresholding multilevel è una metodologia che permette di gestire immagini con molteplici picchi di intensità, una caratteristica comune nelle immagini a colori e nelle immagini iperspettrali. A differenza della segmentazione bi-livello, che si applica solo su immagini in scala di grigi, il thresholding multilivello riesce a identificare e separare oggetti anche nei casi più complessi, in cui i dettagli sono particolarmente sottili. Questo approccio è stato notevolmente migliorato negli anni grazie all'adozione di algoritmi in grado di catturare le variazioni spettrali minori, tipiche delle immagini ad alta risoluzione come quelle iperspettrali.

Al contrario, la segmentazione Multi-Otsu, che si basa sul principio di massimizzare la varianza tra classi, ha mostrato una notevole efficacia nel trattamento delle immagini multispettrali e iperspettrali. L'algoritmo Multi-Otsu, una versione evoluta dell'algoritmo originario di Otsu, è progettato per calcolare i livelli di soglia ideali che massimizzano la varianza inter-classe tra i pixel di un'immagine. Ciò consente di segmentare efficacemente le immagini, separando i diversi oggetti o classi presenti, con un'efficienza che riduce il tempo di elaborazione e le risorse hardware necessarie, anche in presenza di dati complessi e di alta dimensionalità.

Un aspetto fondamentale che emerge dalla ricerca è la possibilità di determinare i valori ottimali di soglia per ogni banda spettrale, in modo tale da bilanciare con precisione le metriche di valutazione applicate. La combinazione di questi metodi consente di ottenere risultati migliori rispetto ad altre tecniche di segmentazione, come confermato dai valori di Peak Signal-to-Noise Ratio (PSNR) e Mean-Squared Error (MSE) ottenuti per vari set di dati iperspettrali, come quelli provenienti dall'Università di Pavia e dal dataset Indian Pines. Ad esempio, per il dataset Indian Pines, l'algoritmo Multi-Otsu ha raggiunto un PSNR pari a 74,82, mentre il Thresholding Multilivello ha mostrato un valore di PSNR di 74,16, con un MSE molto basso, pari a 3,36.

Tuttavia, l'efficacia di queste tecniche non è priva di sfide. La natura complessa delle immagini iperspettrali e multispettrali implica una serie di difficoltà legate al preprocessing dei dati, come la gestione del rumore, gli effetti atmosferici e le caratteristiche spettrali di diverse classi di copertura del suolo. Ad esempio, l'effetto del rumore sulle immagini può distorcere significativamente i risultati della segmentazione, soprattutto quando le bande spettrali contengono informazioni sovrapposte o correlate. Pertanto, è essenziale adottare strategie di ottimizzazione adeguate per migliorare la robustezza e la precisione della segmentazione, tenendo conto di fattori come la calibrazione atmosferica e il miglioramento del contrasto delle immagini.

Un altro aspetto critico riguarda l'adattamento dei metodi di segmentazione alle caratteristiche specifiche delle immagini analizzate. Poiché ogni immagine iperspettrale o multispettrale ha una propria configurazione e una propria complessità spettrale, la scelta dei metodi di segmentazione più appropriati deve essere effettuata con attenzione. Le tecniche di ottimizzazione che sfruttano la varianza tra le classi possono essere ulteriormente raffinate per migliorare i risultati complessivi, soprattutto quando vengono utilizzati in combinazione con algoritmi di intelligenza artificiale e machine learning.

La combinazione di tecniche di segmentazione avanzate con metodi di ottimizzazione delle soglie rappresenta una direzione promettente per l'analisi accurata delle immagini iperspettrali. È fondamentale che i ricercatori e i professionisti del settore siano consapevoli delle sfide specifiche poste da questi tipi di dati e delle tecniche necessarie per superarle. Ad esempio, la scelta accurata delle bande spettrali e la gestione dei dati ad alta dimensionalità sono aspetti cruciali per migliorare le performance delle tecniche di segmentazione. Inoltre, l'integrazione di questi metodi con altre tecnologie di telerilevamento, come i sensori LIDAR, può arricchire ulteriormente l'analisi e fornire una visione più completa e dettagliata delle aree di interesse.