I sistemi di imaging satellitare ad alta risoluzione, in particolare quelli con sensori pushbroom, affrontano una delle sfide più complesse nel garantire l'accuratezza geometrica e visiva delle immagini: le vibrazioni indotte da diverse componenti meccaniche del satellite. Queste oscillazioni, che si verificano generalmente in una gamma di frequenze tra 0,5 e 10 Hz con ampiezze che possono arrivare a pochi arcosecondi, sono generate da vari sistemi meccanici a bordo, tra cui i meccanismi di controllo dell'assetto, i sistemi di regolazione dei pannelli solari e i sistemi di raffreddamento. Anche piccole vibrazioni, quando accumulate, causano distorsioni ondulate nelle immagini, compromettendo significativamente la qualità geometrica e visiva delle stesse.

Questo fenomeno, noto come jitter, è particolarmente problematico nei sensori pushbroom, dove le immagini vengono catturate sequenzialmente durante il movimento del satellite. Le distorsioni dovute a jitter sono difficili da compensare, in quanto la loro ampiezza è piccola e variabile, ma comunque sufficientemente significativa da danneggiare la precisione delle immagini. Tuttavia, l’approccio presentato in questo lavoro combina informazioni provenienti da più sensori per ottenere stime più accurate e robuste del jitter rispetto ai metodi convenzionali che si basano su una singola fonte di dati.

L’approccio che proponiamo integra tecniche di elaborazione delle immagini tradizionali con l'analisi dei dati dei sensori star tracker, dimostrando miglioramenti significativi nella compensazione del jitter su terreni di varia natura. Il nostro quadro di riferimento per la stima del jitter si basa su una fusione di due flussi informativi complementari: l'analisi delle immagini multispettrali e l'analisi dei dati provenienti dai star tracker. I dati di entrambe le fonti vengono combinati in modo ottimale utilizzando un filtro H∞, sviluppato specificamente per garantire una fusione robusta di misurazioni provenienti da fonti eterogenee.

Le stime tradizionali del jitter si basano generalmente su un'unica sorgente informativa: sensori di assetto, analisi di immagini multispettrali o tecniche computazionali applicate su singole immagini. Ognuna di queste tecniche presenta dei limiti intrinseci: i sensori di assetto ad alta frequenza non sono disponibili su tutte le piattaforme; le tecniche multispettrali faticano con superfici omogenee come oceani e deserti; le tecniche basate su singole immagini spesso mancano di coerenza temporale. Il nostro quadro metodologico supera questi limiti combinando l'analisi multispettrale con l'analisi dei dati provenienti dai star tracker.

Nel caso dell'analisi delle immagini multispettrali, utilizziamo lo sfasamento temporale tra le bande spettrali nei sensori pushbroom per rilevare le registrazioni errate indotte dal jitter. In pratica, si analizzano due immagini, appartenenti a bande spettrali adiacenti, e si calcola l'errore di registrazione relativo attraverso la correlazione incrociata normalizzata, combinata con un fitting polinomiale per ottenere una registrazione sub-pixel. L'approccio funziona calcolando lo spettro di fase incrociato nel dominio delle frequenze, che permette di localizzare il vettore di spostamento delle immagini. Per una maggiore precisione, il picco della correlazione viene adattato con una funzione sinc.

Tuttavia, questa tecnica da sola non è sufficiente, specialmente quando si lavora su superfici omogenee dove la registrazione delle immagini diventa imprecisa. Per questo motivo, incorporiamo anche i dati provenienti dai star tracker, che forniscono misurazioni ad alta precisione dell'atteggiamento del satellite. I star tracker rilevano e identificano schemi stellari durante l'esposizione, e i cambiamenti dovuti al jitter causano sfocature caratterizzate che contengono informazioni preziose sul movimento istantaneo della piattaforma.

L'analisi dei dati provenienti dai star tracker è più complessa rispetto ai sensori pushbroom, poiché questi ultimi registrano il movimento lungo una linea di scansione, mentre i star tracker catturano l'effetto integrato del jitter durante tutta la durata dell'esposizione. La sfocatura risultante può essere utilizzata per stimare la velocità angolare della piattaforma, e quindi ottenere i parametri di jitter. Questi parametri vengono derivati confrontando le posizioni delle stelle all'inizio e alla fine dell'esposizione, sfruttando le trasformazioni matriciali di rotazione dell'assetto.

Nel nostro approccio, una volta ottenuti i dati da entrambe le fonti, questi vengono fusi attraverso un filtro di fusione robusto, il quale integra in modo ottimale le informazioni provenienti dalle immagini multispettrali e dai star tracker. Il risultato finale è una stima del jitter che tiene conto delle distorsioni geometriche provenienti da entrambe le modalità di rilevamento, migliorando significativamente la qualità geometrica dell'immagine finale.

La principale difficoltà nell'affrontare il jitter in sistemi satellitari è la variabilità delle distorsioni, che dipende da molteplici fattori, come la frequenza delle vibrazioni e la natura del terreno osservato. È importante comprendere che, sebbene le tecniche di stima del jitter siano in continua evoluzione, le soluzioni ottimali dipendono spesso dal tipo di satellite, dal sensore utilizzato e dal contesto dell'osservazione.

Nel futuro, l’integrazione di tecniche avanzate di deep learning potrebbe migliorare ulteriormente la precisione delle stime del jitter, poiché queste tecnologie sono in grado di apprendere automaticamente pattern complessi nei dati e di adattarsi a condizioni variabili di movimento e vibrazione. Pertanto, la combinazione di approcci multi-modali, l'uso di tecniche di fusione avanzate e l’impiego di modelli di deep learning rappresentano un passo importante verso la realizzazione di sistemi di imaging satellitare più precisi e robusti.

Come migliorare l'adattamento dominio incrociato senza supervisione per immagini aerospaziali

Nel contesto delle applicazioni aerospaziali, l'adattamento senza supervisione dei domini incrociati tra immagini radar e ottiche si sta rivelando una sfida significativa. Questi sistemi di acquisizione multimodale, come quelli utilizzati per il telerilevamento, presentano notevoli differenze nell'apparenza delle immagini che complicano l'allineamento tra i vari sensori. Nonostante i progressi nelle architetture equivarianti progettate per affrontare trasformazioni specifiche (come rotazioni e scalamenti), queste non riescono a gestire appieno le difficoltà poste da sensori radar e ottici, che si comportano in modo drasticamente diverso. Il nostro approccio si distingue proprio per la capacità di affrontare queste sfide, cercando di colmare il divario tra i domini e tra le piattaforme.

Le architetture equivarianti, come quelle di e2cnn, RotEqNet e ScaleEq, sono progettate per mantenere l'equivarianza a rotazioni e scalamenti attraverso operazioni matematicamente fondate. Tuttavia, come mostra la Tabella 4.6, il nostro metodo supera significativamente questi approcci in termini di precisione, riducendo notevolmente l'errore medio L2, che per il nostro metodo è di soli 1.442 pixel anche per angoli di rotazione superiori a 15°, mentre per gli altri approcci si arriva a errori di oltre 16 pixel. La nostra metodologia non solo tiene conto delle trasformazioni ma anche delle differenze sostanziali tra le modalità radar e ottiche, che pongono sfide uniche nel loro allineamento. Grazie alla progettazione specifica del nostro modello per dati multimodali, siamo riusciti a ottenere rappresentazioni invarianti alle trasformazioni direttamente dai dati, migliorando notevolmente le prestazioni in scenari complessi.

Il principale ostacolo che rimane è l'adattamento senza supervisione, ossia la capacità di trasferire conoscenze da domini di origine etichettati (come i dataset RadarSat/Planet) a domini di destinazione non etichettati (come Sentinel-1/2), senza la necessità di annotazioni manuali. La Tabella 4.7 mostra i risultati di questa fase, in cui si evidenziano miglioramenti incrementali attraverso l'aggiunta di vari componenti adattativi. Senza alcun adattamento, il modello applicato direttamente ai dati del dominio di destinazione ottiene prestazioni moderate (66,3% di precisione sub-pixel e un errore medio L2 di 9,576 pixel), confermando la sostanziale differenza tra i domini RadarSat/Planet e Sentinel-1/2. Questi risultati, sebbene superiori a molte tradizionali tecniche di registrazione, non sono ancora sufficienti per applicazioni aerospaziali di alta precisione.

Il primo passo significativo è stato l'aggiunta dell'auto-apprendimento, che ha ridotto l'errore medio L2 a 8.040 pixel, migliorando i risultati soprattutto nei campioni più difficili con errori iniziali elevati, ma senza migliorare in modo significativo la precisione sub-pixel. Successivamente, l'adeguamento delle statistiche di apparenza tra i domini tramite la "mappatura dell'istogramma" ha ulteriormente ridotto l'errore a 6.430 pixel, migliorando l'allineamento delle caratteristiche a livello di bassa radiometria. La "data augmentation" ha migliorato la robustezza del modello, riducendo ulteriormente l'errore e migliorando la generalizzazione su scenari mai visti. L'elaborazione post-campionamento ha sfruttato informazioni contestuali da più regioni dell'immagine, portando a un miglioramento significativo nella precisione sub-pixel e riducendo l'errore medio L2 a 4.437 pixel. La fusione multi-risoluzione è stata la fase finale che ha prodotto i risultati più sorprendenti, raggiungendo il 90,6% di precisione sub-pixel con solo 0.658 pixel di errore medio L2, risolvendo efficacemente le differenze di risoluzione tra i domini di origine e di destinazione.

Il modello finale adattato ha raggiunto prestazioni di registrazione pari a quelle di un approccio supervisionato, nonostante l'assenza di annotazioni per il dominio di destinazione. Questo risultato rappresenta un miglioramento significativo nelle capacità operative dei sistemi aerospaziali, dove ottenere dati multimodali annotati da diverse piattaforme e regioni sarebbe estremamente costoso e dispendioso in termini di tempo. La figura 4.9 mostra un esempio qualitativo dei risultati di registrazione sul dataset Sentinel-1/2, dimostrando una corrispondenza incrociata precisa tra le modalità radar e ottica, nonostante l'assenza di annotazioni per il dominio di destinazione.

Per contestualizzare i nostri risultati, abbiamo confrontato il nostro approccio con altri metodi all'avanguardia di registrazione senza supervisione. I metodi tradizionali basati su caratteristiche, come BRISK, SURF e la correlazione di fase, non sono riusciti a gestire le differenze di apparenza tra le immagini radar e ottiche, non riuscendo a stabilire corrispondenze affidabili. Le tecniche generali di adattamento del dominio, come ADDA, DA e MMD, hanno ottenuto un allineamento moderato, ma non la precisione necessaria per applicazioni aerospaziali. Anche l'approccio Pseudo-Siamese, progettato specificamente per dati multimodali, ha mostrato limitazioni nel gestire la combinazione delle sfide legate all'adattamento tra modalità e piattaforme. La figura 4.10 visualizza i risultati di registrazione ottenuti con questi metodi, evidenziando i vantaggi qualitativi sostanziali del nostro approccio.

Il nostro modello si distingue non solo per la sua capacità di affrontare sfide specifiche come l'adattamento tra modalità radar e ottica, ma anche per la sua flessibilità nell'affrontare differenze tra piattaforme diverse, migliorando così l'efficacia e la precisione dell'adattamento senza la necessità di annotazioni manuali.