Nel campo della visione artificiale e del rilevamento remoto, il miglioramento delle immagini deformate a causa del jitter è una sfida fondamentale. Il jitter, una distorsione causata da variazioni nell'orientamento della piattaforma di acquisizione, è comune in applicazioni di telerilevamento, specialmente quando si utilizzano piattaforme come i satelliti o i droni. Il nostro approccio mira a migliorare la qualità delle immagini, correggendo in modo efficace tali distorsioni, con l’obiettivo di ottimizzare l’accuratezza nelle applicazioni pratiche come il riconoscimento di oggetti o la mappatura di reti stradali.

I miglioramenti nelle prestazioni sono stati calcolati mediante misure di qualità percezionale come il Peak Signal-to-Noise Ratio (PSNR) e la Structural Similarity Index (MSSIM), utilizzando immagini deforme corrette e immagini originali come riferimento. Le migliorie ottenute sono state evidenti su diverse classi di immagini del dataset PatterNet, con incrementi costanti di qualità visiva in tutte le scene testate, a conferma dell'efficacia del nostro metodo. Tuttavia, i risultati mostrano delle limitazioni che meritano attenzione. Ad esempio, le prestazioni diminuiscono in scene che mancano di caratteristiche distintive dei bordi in determinate direzioni. Per esempio, nei casi in cui le strade appaiono principalmente orizzontali, come nei panorami di piste d'atterraggio, l’identificazione delle componenti di spostamento verticale diventa difficoltosa. Inoltre, il jitter in direzione di rollio diventa più complesso da rilevare quando si tratta di strutture stradali verticali, con pattern ripetitivi che forniscono pochi indizi di spostamento orizzontale.

Questi aspetti sono cruciali per le applicazioni pratiche. Le immagini di rilevamento remoto hanno dimensioni considerevoli, e una selezione strategica delle aree più informative, che contengono caratteristiche di bordo in diverse orientazioni, può ridurre significativamente le limitazioni legate alla compensazione del jitter. Concentrando gli algoritmi di rilevamento del jitter sulle regioni più utili dell’immagine, le prestazioni generali possono essere mantenute anche per scene particolarmente difficili.

Un’altra difficoltà comune nelle applicazioni di deep learning per il rilevamento remoto è la scarsità di dati pratici per l’addestramento dei modelli. Tuttavia, il nostro approccio di compensazione del jitter offre un vantaggio notevole: gli effetti di deformazione possono essere applicati sinteticamente ai dati di addestramento utilizzando parametri controllati, permettendo così di ampliare considerevolmente il numero di campioni di addestramento attraverso tecniche di generazione procedurale. Questo approccio garantisce una buona capacità di generalizzazione del modello, anche quando i dati iniziali sono limitati. I benefici di questa tecnica sono chiaramente evidenti nei test comparativi che mostrano come la deformazione dinamica in tempo reale delle immagini migliori sostanzialmente le metriche di PSNR sui dati di test.

Un esempio pratico dell’efficacia di questo approccio è fornito dalla correzione di immagini di una pianta di trattamento delle acque reflue, che presenta caratteristiche geometriche complesse e curve difficili da correggere con i metodi tradizionali. La nostra tecnica è in grado di ripristinare in modo preciso anche le curve naturali e i confini organici, confermando la sua versatilità oltre le strutture artificiali. Altri esempi di successo includono scene dominate da strutture lineari regolari, come quelle di un campo da calcio o una pista d’atterraggio, dove la presenza di linee rette chiare consente una stima del jitter molto più precisa.

Le mappe di errore di registrazione, che mostrano la riduzione degli errori geometrici dopo la correzione, forniscono una prova visiva significativa della nostra metodica. Le distorsioni iniziali causate dal jitter sono notevolmente ridotte, in particolare per le linee rette lunghe e le caratteristiche curve che presentano deformazioni significative nell'immagine originale. Queste migliorìe visive corrispondono alle metriche quantitative, confermando l'efficacia del nostro approccio.

Per validare l’applicabilità pratica oltre i casi di test sintetici, abbiamo applicato i modelli addestrati su immagini satellitari ad alta risoluzione, come quelle fornite dalla piattaforma YaoGan-26. Questa piattaforma è ideale per il test delle correzioni del jitter, poiché integra accelerometri ad alta frequenza che permettono la rilevazione e la compensazione tradizionale del jitter. I risultati ottenuti mostrano che la nostra tecnica di correzione, pur con lievi effetti di sfocatura in alcune aree, è paragonabile alle correzioni basate su sensori on-board e offre una qualità dell'immagine più che adeguata per compiti successivi come il rilevamento di oggetti o la mappatura delle reti stradali.

Un aspetto fondamentale nello sviluppo di tecniche di compensazione del jitter è la grande variabilità delle caratteristiche del jitter tra le diverse piattaforme di acquisizione. Le immagini UAV, in particolare, presentano sfide particolari rispetto ai dati satellitari, a causa delle differenze nei parametri di acquisizione, come la frequenza e l'ampiezza delle variazioni di atteggiamento. Le immagini UAV tendono ad avere una frequenza di variazione dell’atteggiamento molto inferiore rispetto a quelle satellitari, ma con ampiezze maggiori, dovute all'altezza di volo inferiore e alla risoluzione spaziale più alta. Per valutare l’adattabilità del nostro metodo a diverse piattaforme, abbiamo selezionato immagini di strade da un dataset UAV specifico e creato un set di addestramento dedicato. I modelli addestrati sono stati poi testati su immagini realistiche deformate, confermando la capacità del nostro approccio di correggere efficacemente il jitter anche su piattaforme diverse.

Come Superare il "Domain Gap" nella Rilevazione dei Crateri Planetari

Le sfide legate alla navigazione ottica planetaria sono complesse e richiedono sistemi di rilevamento altamente precisi e adattabili. A partire da studi pionieristici, sono stati sviluppati diversi approcci basati sull'intelligenza artificiale per identificare punti di riferimento ad alta valore per la navigazione spaziale, tra cui l'utilizzo di modelli digitali del terreno e immagini termiche a infrarossi per l'individuazione e la localizzazione di crateri sulla superficie di Marte. L'approccio di Lee e Hogan, ad esempio, ha proposto l'utilizzo di reti neurali multiple basate su ResUNET per elaborare modelli di terreno digitali e immagini termiche per identificare crateri sulla superficie marziana. Parallelamente, Downes et al. hanno creato LunaNet, una CNN progettata per rilevare crateri tramite immagini delle telecamere a bordo, associandoli a crateri lunari noti e utilizzandoli come punti di riferimento per la localizzazione delle navette spaziali.

In questo contesto, la comunità open-source ha dato un contributo significativo. Klear et al. hanno rilasciato il Crater Detection Algorithm (PyCDA) in Python, un algoritmo di riferimento che si concentra sulla scoperta di crateri non ancora catalogati, mentre Francis et al. hanno sviluppato dataset specializzati per il rilevamento dei crateri tramite tecniche di deep learning, rispondendo alla crescente necessità di dati di addestramento di alta qualità. Questi approcci basati sull'apprendimento profondo hanno raggiunto una notevole accuratezza nel rilevamento, mostrando anche una maggiore robustezza rispetto alle variazioni di illuminazione, scala e morfologia. Tuttavia, la maggior parte dei lavori di rilevamento dei crateri si basa su modelli di segmentazione delle immagini, con pochi approcci che considerano framework di rilevamento degli oggetti. Inoltre, le tecniche di deep learning esistenti sono generalmente addestrate in modalità supervisionata, il che rende le prestazioni fortemente dipendenti dall'acquisizione di immagini di crateri con annotazioni, un processo che può risultare lungo e costoso.

Un altro aspetto cruciale nell'ambito dell'esplorazione planetaria è la necessità di sviluppare sistemi di rilevamento che possano adattarsi a diverse superfici planetarie. Un modello addestrato sui crateri lunari, per esempio, potrebbe performare male se applicato a Mercurio o Marte, a causa delle differenze nelle proprietà superficiali, nei processi di formazione dei crateri e nelle condizioni di imaging. Questo problema è noto come "domain gap" nell'ambito del machine learning. L'Unsupervised Domain Adaptation (UDA) offre un quadro promettente per affrontare questa sfida, consentendo il trasferimento di conoscenza da un dominio sorgente etichettato (come la Luna) a un dominio di destinazione non etichettato (come Mercurio o Marte). Le tecniche UDA mirano ad allineare le distribuzioni di caratteristiche tra i domini, permettendo ai modelli di mantenere alte prestazioni nonostante i cambiamenti di dominio.

Le metodologie di adattamento basate sull'apprendimento avversariale sono una delle principali soluzioni. Questi approcci utilizzano una rete discriminante che tenta di distinguere tra le caratteristiche del dominio sorgente e quelle del dominio di destinazione, mentre una rete estrattore di caratteristiche cerca di generare rappresentazioni invarianti al dominio che confondano il discriminatore. Attraverso questo processo avversariale, il modello apprende rappresentazioni utili per il compito di rilevamento, restando insensibile alle caratteristiche specifiche di ogni dominio. Tuttavia, tali approcci necessitano di un ampio numero di campioni per modellare efficacemente le distribuzioni di dominio, limitando le loro prestazioni in scenari con pochi dati, come nel caso dei dataset planetari.

Un'altra strategia utilizzata nell'UDA è l'auto-apprendimento, che genera etichette pseudo per i dati del dominio di destinazione e affina iterativamente il modello addestrandolo su queste etichette. Nonostante i vantaggi, l'auto-apprendimento richiede una quantità sufficiente di dati nel dominio di destinazione per generare etichette pseudo affidabili e migliorare le prestazioni del modello pre-addestrato. Se i dati nel dominio di destinazione sono limitati, come spesso accade nei dataset planetari, le prestazioni del modello possono essere compromesse. In alternativa, l'adattamento basato sulla randomizzazione del dominio si sta affermando come una via promettente per superare le difficoltà del "domain gap". La randomizzazione del dominio crea diverse variazioni sintetiche dei dati del dominio sorgente, coprendo una vasta gamma di possibili aspetto, e addestra i modelli su questi domini sintetici, sperando che il dominio di destinazione appaia come una variazione all'interno della distribuzione appresa. In questo modo, il modello risulta in grado di adattarsi meglio a domini nuovi e sconosciuti, come quelli planetari.

È importante notare che, sebbene le tecniche di randomizzazione del dominio si rivelino molto promettenti, la rilevazione dei crateri planetari presenta sfide uniche. In particolare, le immagini dei crateri planetari provenienti da differenti pianeti potrebbero differire enormemente per variabili come la risoluzione, l'illuminazione e il contrasto, rendendo l'adattamento attraverso immagini sintetiche un compito particolarmente delicato.

In generale, la creazione di algoritmi di rilevamento dei crateri che possano ridurre il carico di etichettatura senza compromettere l'efficienza è fondamentale per il progresso delle missioni spaziali. La continua ricerca e sviluppo in questi ambiti, come la combinazione di tecniche supervisionate, non supervisionate e di adattamento al dominio, porterà a progressi significativi nella capacità di rilevare e mappare le caratteristiche geologiche di pianeti lontani.

Come stimare il jitter di atteggiamento basato sulla visione artificiale nel remote sensing?

Il jitter della piattaforma, ovvero le oscillazioni indesiderate in una struttura satellitare o UAV durante l'acquisizione di immagini, rappresenta una delle sfide più significative per il remote sensing ad alta risoluzione (HR). Questo fenomeno può compromettere gravemente la qualità dell'immagine, rendendo difficile ottenere dati spaziali precisi e misurazioni scientifiche affidabili. Immaginate un fotografo che cerca di scattare un ritratto nitido mentre si trova su una barca che oscilla dolcemente; il risultato sarà inevitabilmente sfocato e distorto. Questo è un modo semplice per comprendere l'effetto del jitter, che altera l'accuratezza delle immagini e dei dati acquisiti dallo spazio.

Le variazioni di atteggiamento della piattaforma durante l'acquisizione di immagini, causate da vibrazioni indesiderate, influenzano la geometria delle immagini, creando distorsioni. L'importanza di un'accurata stima di questi movimenti, che si presentano in diverse frequenze e ampiezze, è fondamentale per sviluppare tecniche di compensazione efficaci. Ad esempio, il satellite Terra presenta un jitter con frequenze di circa 1,5 Hz e ampiezze di 0,3 Hz, mentre il satellite QuickBird mostra effetti di distorsione di circa 5 pixel, con una frequenza dominante di 1 Hz. Le immagini acquisite da UAV, invece, presentano distorsioni di ampiezza maggiore, ma con frequenze generalmente più basse rispetto ai satelliti.

A livello teorico, le variazioni di atteggiamento lungo gli assi principali della piattaforma (rollio, beccheggio e imbardata) inducono differenti tipi di deformazioni dell'immagine. I movimenti di rollio e beccheggio causano spostamenti translazionali delle linee di scansione, mentre l'imbardata genera effetti di rotazione nel piano focale. Le ricerche recenti suggeriscono che l'ampiezza del jitter sia proporzionale a parametri chiave della piattaforma: l'altezza della piattaforma influisce sul beccheggio e rollio, mentre la larghezza della traccia della fotocamera gioca un ruolo nell'imbardata. Per semplificare l'analisi, si può trascurare l'effetto dell'imbardata, poiché genera un jitter di minore ampiezza rispetto agli altri movimenti.

L'approccio proposto in questo contesto si concentra sull'analisi delle variazioni del rollio e beccheggio, trattando il rollio come il principale meccanismo di deformazione dell'immagine. Attraverso l'uso della teoria della trasformata di Fourier, il jitter della piattaforma può essere scomposto in componenti sinusoidali con ampiezze, frequenze e fasi variabili. Queste componenti possono essere espresse matematicamente e utilizzate per simulare i modelli di jitter reali. La combinazione di quattro funzioni sinusoidali risulta sufficiente per riprodurre con precisione i modelli di jitter osservati nei sistemi di remote sensing.

Per stimare il jitter e correggere le immagini distorte, è necessario sviluppare modelli di simulazione avanzati che combinano i componenti del jitter lungo le direzioni x e y, creando una mappa del flusso di jitter bidimensionale. Questa mappa può essere applicata a immagini di riferimento ad alta risoluzione per generare immagini deformate sintetiche, che riflettono con precisione gli effetti reali del jitter. Tali immagini sintetiche sono essenziali per creare dataset di addestramento per i modelli di compensazione, migliorando l'affidabilità e l'efficacia delle tecniche proposte.

Per affrontare il problema della compensazione del jitter, è stato sviluppato il "Image Jitter Compensation Network" (IJC-Net), un'innovativa rete neurale convoluzionale (CNN) che opera in modalità end-to-end. Questo sistema è composto da tre componenti principali: una rete CNN, un modello di interpolazione del jitter e un modello di campionamento dell'immagine. La CNN serve a estrarre le caratteristiche spaziali distintive dalle immagini distorte, tradurre queste caratteristiche in vettori di deformazione del jitter e successivamente applicare trasformazioni spaziali per correggere l'immagine. Il modello di interpolazione del jitter espande questi vettori attraverso tecniche di interpolazione cubica, mentre il modello di campionamento applica la mappa del jitter per rielaborare l'immagine e ottenere un output corretto geometrico.

Inoltre, la realizzazione di un modello di simulazione efficace consente di ottenere immagini sintetiche con distorsioni causate dal jitter, che sono fondamentali per il miglioramento continuo dei modelli di compensazione. La precisione della rete CNN, che può apprendere da queste simulazioni, offre un grande vantaggio rispetto alle tecniche tradizionali di compensazione che richiedono dati ausiliari.

È importante sottolineare che la qualità della compensazione dipende fortemente dalla precisione con cui vengono stimati i parametri del jitter e dal modo in cui vengono applicati i modelli di interpolazione e campionamento. La capacità di generalizzare i risultati a piattaforme diverse e a vari ambienti operativi è un aspetto fondamentale per garantire l'applicabilità universale delle tecniche di compensazione.