Rilevare i crateri sulle superfici planetarie presenta una serie di sfide uniche, difficilmente riscontrabili nelle applicazioni tradizionali di visione artificiale terrestre. La varietà di condizioni di illuminazione, gli angoli di ripresa della fotocamera e le proprietà geologiche dei corpi planetari determinano una grande variabilità nell'aspetto dei crateri. Inoltre, la loro dimensione può variare notevolmente, da pochi metri a centinaia di chilometri di diametro, richiedendo che i sistemi di rilevamento siano efficaci su scale multiple. Un altro fattore complicante è l'alta densità di crateri in alcune aree, che può portare a sovrapposizioni tra le caratteristiche e rendere difficile l'identificazione. Tuttavia, il principale ostacolo nello sviluppo di sistemi di rilevamento robusti è rappresentato dalla scarsità di dati etichettati. A differenza dei set di dati terrestri, dove la raccolta e l'annotazione delle immagini è relativamente semplice, ottenere e etichettare immagini di alta qualità delle superfici planetarie richiede risorse significative e competenze specializzate. Inoltre, un modello addestrato su un corpo planetario, come la Luna, potrebbe non funzionare altrettanto bene su un altro corpo come Mercurio o Marte, a causa delle differenze nelle caratteristiche della superficie, nella morfologia dei crateri e nei parametri di acquisizione delle immagini.

Per affrontare queste sfide, si propone un approccio integrato che combina architetture avanzate di rilevamento degli oggetti con tecniche di adattamento non supervisionato al dominio, permettendo il rilevamento dei crateri su corpi planetari diversi con una minima necessità di etichette specifiche per il dominio di destinazione. L'evoluzione delle metodologie di rilevamento dei crateri ha attraversato diverse fasi, ognuna rappresentante un avanzamento nella complessità algoritmica e nelle capacità di rilevamento.

Le prime tecniche di rilevamento dei crateri si basavano principalmente su metodi di elaborazione delle immagini classici. Algoritmi di rilevamento dei bordi, come il Canny edge detection, venivano utilizzati per identificare i bordi dei crateri, mentre le trasformate di Hough circolari venivano impiegate per rilevare la forma caratteristica dei crateri da impatto. Questi metodi sfruttavano le caratteristiche morfologiche dei crateri, come i contorni circolari o ellittici, le strutture distintive dei bordi e i modelli di ombre creati dall'illuminazione solare. Sebbene efficaci in condizioni controllate, questi approcci spesso non riuscivano a gestire variazioni nell'illuminazione, la degradazione dei crateri e terreni complessi. Alcuni ricercatori hanno cercato di migliorare le prestazioni mediante vari passaggi di pre-elaborazione e tecniche di estrazione delle caratteristiche. Per esempio, Tian et al. hanno sviluppato un metodo che sfruttava la direzione dell'illuminazione solare per migliorare il rilevamento dei crateri in scenari con crateri limitati. Altri hanno integrato le trasformate di Hough con il rilevamento dei bordi per identificare i crateri in immagini ad alta risoluzione. Nonostante i miglioramenti, le tecniche classiche mostravano dei limiti quando venivano applicate a forme di crateri non standard, come quelli con picchi centrali, pareti a terrazze o bordi irregolari, caratteristiche comuni nei siti d'impatto del sistema solare.

Con l'introduzione delle tecniche di apprendimento automatico, si è avuta una significativa evoluzione nel rilevamento dei crateri. Le prime implementazioni di machine learning utilizzavano l'ingegnerizzazione delle caratteristiche abbinate a algoritmi di classificazione come le macchine a vettori di supporto (SVM) e gli alberi decisionali. Questi sistemi estraevano caratteristiche progettate manualmente dalle immagini, come descrittori di texture, istogrammi di gradienti e parametri di forma, che venivano poi inserite in classificatori addestrati a distinguere i crateri da altre caratteristiche superficiali. I metodi di apprendimento automatico hanno migliorato la robustezza rispetto agli approcci classici, in particolare nella gestione delle variazioni nell'illuminazione e nelle caratteristiche della superficie. Tuttavia, tali metodi necessitano ancora di una notevole esperienza nel design delle caratteristiche e non riescono a gestire adeguatamente tutte le morfologie dei crateri, soprattutto in situazioni complesse che implicano anelli centrali, pozzi centrali, terrazze dei muri e campi di crateri ad alta densità.

Con l'avvento dell'apprendimento profondo, e in particolare delle reti neurali convoluzionali (CNN), si è verificata una vera e propria rivoluzione nel campo del rilevamento dei crateri. A differenza dei metodi precedenti, che dipendevano dall'estrazione manuale delle caratteristiche, le CNN apprendono automaticamente le rappresentazioni gerarchiche delle caratteristiche direttamente dai dati, permettendo loro di catturare modelli e relazioni complesse che potrebbero sfuggire ai progettisti umani. L'introduzione delle CNN ha dimostrato il loro potenziale nel rilevamento dei crateri planetari, come evidenziato da lavori pionieristici come DeepMoon, una versione modificata dell'architettura U-Net, capace di identificare i crateri lunari. Un altro esempio è rappresentato da CraterIDNet, una rete completamente convoluzionale in grado di rilevare crateri da immagini planetarie remote di qualsiasi dimensione, fornendo risultati accurati su posizioni, diametri apparenti e identificazione dei crateri.

Nonostante i progressi delle tecniche di deep learning, ci sono ancora sfide significative da affrontare. I modelli richiedono enormi quantità di dati per l'addestramento e devono affrontare l'eterogeneità delle superfici planetarie. L'adattamento a nuove superfici planetarie e la capacità di gestire una varietà di morfologie del cratere rimangono aspetti cruciali su cui concentrarsi per ottenere un rilevamento ancora più preciso e affidabile.

In aggiunta, è fondamentale comprendere che, pur con i miglioramenti offerti dal deep learning, l'interpretazione dei dati richiede una comprensione approfondita dei fenomeni geologici che influenzano la formazione dei crateri. L'analisi delle superfici planetarie non è mai priva di incognite, e l'evoluzione delle tecnologie di rilevamento deve sempre tener conto delle diverse variabili che influenzano la geologia e la dinamica di ogni corpo planetario. L'accesso a immagini di alta qualità e la capacità di adattarsi a diverse condizioni di illuminazione e risoluzione rimangono problemi centrali da affrontare, mentre la fusione di dati provenienti da diverse fonti, come modelli digitali del terreno (DEM) e immagini multispettrali, può rivelarsi essenziale per il miglioramento delle capacità di rilevamento.

Come affrontare la differenza di dominio nell'adattamento delle reti neurali per la rilevazione di difetti superficiali nei componenti ad alta pressione

Nell'analisi delle immagini per la rilevazione dei difetti superficiali, la principale sfida risiede nel superare la disparità tra i domini di origine e di destinazione. In questo caso, il dominio di origine conteneva difetti di tipo "Joint", senza annotazioni, mentre il dominio di destinazione presentava difetti di tipo "Type-I" con caratteristiche visive sostanzialmente diverse. Le immagini dei dataset, acquisite tramite sistemi di ispezione automatizzati, sono state catturate in condizioni variabili, con un dataset di tipo "Type-I" contenente 67 immagini provenienti da componenti ad alta pressione e un dataset di tipo "Type-II" con 128 immagini di componenti standard. Il dataset "Joint", utilizzato per la verifica e la correzione del database, includeva 249 immagini con vari tipi di difetti.

Per garantire un'elaborazione coerente, tutte le immagini sono state ritagliate e ridimensionate a una dimensione di input uniforme di 224x224 pixel. La distribuzione del training è stata bilanciata selezionando tutte le immagini difettose e un numero uguale di immagini non difettose. Nel dataset di origine, l'80% delle immagini è stato utilizzato per il training e il 20% per la valutazione. Le annotazioni di verità a terra nel dataset di destinazione sono state utilizzate esclusivamente per la valutazione, mai per il training.

Per l'implementazione dei modelli, è stato utilizzato il framework PyTorch, e il training è avvenuto su una macchina equipaggiata con una GPU GeForce GTX 1060 (6GB), una CPU i7 e 16GB di RAM. L'ottimizzazione del training ha impiegato l'ottimizzatore Adam, con un tasso di apprendimento iniziale di 0,1 × 10⁻⁴ e una dimensione del batch pari a 10.

La valutazione delle prestazioni è stata effettuata utilizzando vari indicatori complementari. Tra questi, il Precision-Recall Curve (PRC) è stato utile per visualizzare il compromesso tra precisione (la proporzione di difetti correttamente identificati tra tutti i difetti rilevati) e recall (la proporzione di difetti correttamente identificati tra tutti i difetti effettivi). Questo tipo di visualizzazione è particolarmente informativo per scenari di classificazione sbilanciata, tipici nella rilevazione dei difetti, dove le aree difettose rappresentano una piccola frazione dell'area totale.

L'Average Precision (AP) fornisce un riassunto numerico del curve PRC, rappresentando una media pesata delle precisioni a ciascun threshold. I valori più elevati di AP indicano una migliore performance di rilevamento, con un punteggio di 1.0 che corrisponde a una precisione e un recall perfetti. Il coefficiente di Jaccard quantifica la similarità tra le maschere di segmentazione previste e quelle di verità a terra, con valori più alti che indicano una maggiore somiglianza tra le aree difettose predette e quelle reali.

Per misurare la discrepanza tra i domini, è stato impiegato il Maximum Mean Discrepancy (MMD), una metrica non parametrica utile per confrontare distribuzioni basate su insiemi di campioni. Valori di MMD più bassi indicano una maggiore somiglianza tra le distribuzioni dei domini di origine e di destinazione.

Nel contesto dell'apprendimento supervisionato, il modello U-Net ha ottenuto le migliori performance con un punteggio AP di 0,752, ed è stato scelto come architettura di riferimento per gli esperimenti successivi. L'ottimizzazione della rete è stata effettuata esplorando diverse funzioni di perdita, tra cui Dice Loss, Focal Loss e Jaccard Loss. La funzione Dice Loss ha mostrato la miglior performance complessiva, con il punteggio F1 più alto (0,736) e il coefficiente di Jaccard migliore (0,582). L'augmentazione dei dati, attraverso tecniche come rotazione, riflessione, traduzione e ritaglio, ha portato a un miglioramento significativo, con il punteggio AP che è aumentato da 0,752 a 0,886.

Per ottimizzare ulteriormente il modello U-Net, sono state testate varianti con diverse profondità dell'encoder e con l'integrazione di moduli di attenzione spaziale e a canale. L'architettura ottimizzata ha raggiunto un punteggio AP di 0,895, confermando l'efficacia di queste modifiche nel migliorare la rilevazione dei difetti superficiali.

Una volta stabilite le performance basate su apprendimento supervisionato, è stato possibile procedere alla valutazione dell'adattamento del dominio non supervisionato. In questa fase, il modello U-Net è stato addestrato sul dominio di origine (difetti Type-II) e testato sul dominio di destinazione (difetti Type-I). Senza alcuna forma di adattamento, le prestazioni sono state significativamente inferiori, con un AP di solo 0,103, evidenziando la grande discrepanza tra i due domini, causata da differenze nell'illuminazione, risoluzione e morfologia dei difetti. Diverse tecniche di adattamento, come il congelamento dei layer o l'aggiornamento selettivo del decoder, sono state esplorate, con l'approccio che ha dato i migliori risultati che ha coinvolto l'aggiornamento sia dell'encoder che del decoder, utilizzando funzioni di perdita pesate.

Oltre ai metodi tecnici già descritti, è fondamentale sottolineare che l'adattamento di dominio non supervisionato è essenziale per migliorare la robustezza e l'accuratezza dei modelli quando i dati di addestramento provengono da ambienti e condizioni molto diversi. Senza un adattamento adeguato, le performance dei modelli potrebbero risultare significativamente compromesse.

Come migliorare la segmentazione dell'infrastruttura con tecniche di proiezione e supervoxel

Nel contesto della sorveglianza delle infrastrutture aerospaziali, i metodi non supervisionati si sono dimostrati altamente competitivi rispetto agli approcci supervisionati, come dimostra il miglioramento ottenuto nei punteggi F1 (migliore F1 = 0,824). Un aspetto fondamentale di questo approccio è l'eliminazione dell'onere significativo associato alla segmentazione a livello di pixel, che è generalmente legato alla necessità di annotazioni manuali. La proposta di una metodologia che riduce drasticamente la necessità di intervento umano si dimostra particolarmente vantaggiosa per il monitoraggio dell'infrastruttura in contesti complessi, come le strutture aerospaziali.

Una delle innovazioni principali di questo approccio è il meccanismo di correzione adattiva delle etichette multi-visione, che perfeziona i risultati di segmentazione iniziali, migliorando ulteriormente i punteggi F1 di 0,013 punti rispetto all'uso della semplice proiezione. Questa metodologia sfrutta la dinamica di apprendimento naturale delle reti neurali, creando etichette pseudo di alta qualità attraverso un raffinamento iterativo. Ciò consente di aumentare la precisione della segmentazione senza richiedere interventi manuali, una caratteristica fondamentale per applicazioni in cui l'efficienza e la rapidità sono essenziali.

L'integrazione di approcci basati sulla proiezione e sui supervoxel rappresenta un altro elemento innovativo, che unisce punti di forza complementari per ottenere una segmentazione più completa delle infrastrutture. Mentre la proiezione è particolarmente adatta a identificare sottili schemi di infiltrazione, i metodi basati sui supervoxel si rivelano più efficaci nel delineare gli elementi strutturali con proprietà geometriche distinte. Questa combinazione permette di ottenere una classificazione precisa su sette classi infrastrutturali, migliorando la capacità di analisi e la precisione nelle operazioni di monitoraggio.

Il valore pratico di questa metodologia emerge chiaramente quando la si confronta con le tecniche supervisionate, evidenziando come il framework proposto non solo elimina la necessità di annotazioni manuali, ma consenta anche un'implementazione più rapida in vari ambienti e strutture. Questo approccio ha il potenziale di trasformare i protocolli di manutenzione, spostandoli da ispezioni pianificate a un monitoraggio continuo basato sui dati, favorendo una gestione più reattiva e proattiva delle infrastrutture critiche.

Guardando al futuro, ci sono diverse direzioni promettenti per il miglioramento di questa metodologia. L'integrazione delle informazioni temporali provenienti da scansioni sequenziali potrebbe migliorare il rilevamento delle infiltrazioni, consentendo di identificare modelli di deterioramento progressivo e di anticipare guasti imminenti. Inoltre, l'incorporazione di relazioni contestuali tra gli elementi strutturali e le infiltrazioni potrebbe aiutare a disambiguare le aree visivamente simili, migliorando l'accuratezza e la precisione della segmentazione.

Un altro possibile miglioramento riguarda l'adattamento del framework ad altri tipi di infrastrutture oltre alle strutture cilindriche. Approcci di proiezione più generalizzati potrebbero estendere l'applicabilità del sistema a una vasta gamma di impianti aerospaziali, rendendolo più versatile e utile in contesti diversificati. Inoltre, l'assessment quantitativo della gravità e del rischio delle infiltrazioni potrebbe fornire un supporto decisionale cruciale per la pianificazione della manutenzione. Integrando i risultati della segmentazione con l'analisi strutturale, il framework potrebbe evolversi in uno strumento per la manutenzione predittiva, migliorando l'efficienza nell'allocazione delle risorse e garantendo una maggiore affidabilità delle infrastrutture in operazioni aerospaziali critiche.

La combinazione di approcci innovativi nella segmentazione automatica e nel monitoraggio delle infrastrutture può trasformare radicalmente il modo in cui vengono gestite e mantenute le strutture critiche. Con l'evoluzione di tali tecnologie, non solo le operazioni di manutenzione diventano più rapide e precise, ma si apre anche la possibilità di monitoraggi preventivi che, con il tempo, potrebbero ridurre significativamente i costi e aumentare la sicurezza delle infrastrutture.

Come ottimizzare la stima e la compensazione del jitter tramite CNN e GAN: Un approccio innovativo per immagini telerilevate

Il design architettonico della nostra implementazione CNN è dettagliato nella Fig. 2.3. Questa struttura integra numerosi elementi avanzati della ricerca contemporanea in deep learning, tra cui due blocchi convoluzionali con passo 1/2 (ResBlocks), quattro blocchi residui e un blocco denso per l'integrazione delle caratteristiche. Ogni ResBlock integra un layer convoluzionale, un layer di normalizzazione del batch e una funzione di attivazione ReLU. Questa architettura residua offre vantaggi significativi per la nostra applicazione: facilita un addestramento più efficiente mitigando il problema del gradiente che svanisce e, allo stesso tempo, migliora la capacità di generalizzazione del modello e la robustezza delle prestazioni complessive.

Un'innovazione fondamentale nel nostro approccio è l'introduzione di una funzione di attivazione migliorata, che abbiamo chiamato "sigmoide espansa". Le funzioni di attivazione sigmoide standard limitano i valori di output all'intervallo [0,1], un aspetto problematico per la stima del jitter dei vettori, dato che le ampiezze di jitter nel mondo reale spesso superano questi confini e includono anche valori negativi. La nostra sigmoide espansa affronta questa limitazione applicando una trasformazione lineare appropriata:

Sigmoide Espansa(z)=1A+1(1+0.5exp(z))\text{Sigmoide Espansa}(z) = \frac{1}{A + 1} \left( 1 + 0.5 \exp(-z) \right)

Dove zz rappresenta il valore di input e AA funge da fattore di espansione che controlla l'intervallo di ampiezza del vettore di output. Dopo ampie esperimentazioni con diversi valori di parametro, abbiamo determinato che A=8A = 8 fornisce le migliori prestazioni nelle nostre operazioni di compensazione del jitter, su varie piattaforme di sensori e condizioni di imaging.

Il processo di apprendimento nella nostra rete è guidato da una funzione di perdita composita che bilancia due obiettivi complementari: la fedeltà del contenuto e l'accuratezza del jitter:

Loss=(1α)L2+αLjitter\text{Loss} = (1 - \alpha)L_2 + \alpha L_{\text{jitter}}

Dove α\alpha è un iperparametro che determina il contributo relativo di ciascun componente della perdita all'obiettivo complessivo di ottimizzazione. Attraverso una valutazione empirica, abbiamo stabilito valori appropriati per questo parametro, che bilanciano i requisiti contrastanti di qualità del restauro delle immagini e accuratezza della stima del jitter. La componente di perdita sul contenuto (L2L_2) quantifica la discrepanza pixel per pixel tra le immagini generate e quelle target utilizzando l'errore quadratico medio (MSE):

L2=1WHx=1Wy=1H(IG(x,y)IT(x,y))2L_2 = \frac{1}{WH} \sum_{x=1}^{W} \sum_{y=1}^{H} \left( I_G(x, y) - I_T(x, y) \right)^2

Dove WW e HH denotano la larghezza e l'altezza delle immagini elaborate, mentre IG(x,y)I_G(x, y) e IT(x,y)I_T(x, y) rappresentano i valori dei pixel nelle immagini generate e target rispettivamente. La componente di perdita sul jitter (LjitterL_{\text{jitter}}) valuta l'accuratezza dei vettori di jitter stimati misurandone la deviazione dai valori di riferimento. Poiché potrebbero esserci discrepanze dimensionali tra i vettori di jitter generati dalla CNN e i target di riferimento, implementiamo un'interpolazione cubica per garantire una compatibilità dimensionale per il confronto. La perdita del jitter è quindi calcolata come:

Ljitter=1Hh=1H(z^Gz^T)2L_{\text{jitter}} = \frac{1}{H} \sum_{h=1}^{H} \left( \hat{z}_G - \hat{z}_T \right)^2

Dove z^=(z^pitch,z^roll)\hat{z} = (\hat{z}_{\text{pitch}}, \hat{z}_{\text{roll}}) rappresenta i componenti combinati del vettore di jitter, HH è la lunghezza del vettore (corrispondente all'altezza dell'immagine) e z^G\hat{z}_G e z^T\hat{z}_T corrispondono ai vettori di jitter generati e target rispettivamente nella posizione hh.

Questa funzione di perdita a obiettivi doppi consente al nostro modello di ottimizzare contemporaneamente la qualità visiva nelle immagini restaurate e l'accuratezza nella stima dei parametri di jitter, creando un approccio equilibrato che affronta entrambi gli aspetti della compensazione del jitter.

Le reti generative avversarie (GAN) rappresentano una classe potente di architetture di deep learning che consistono in due reti neurali competenti: un generatore e un discriminatore. Nel nostro contesto di stima del jitter, formuliamo il problema come segue: dato un'immagine telerilevata deformata IDI_D influenzata dal jitter della piattaforma, il nostro obiettivo è stimare i parametri di jitter e produrre un'immagine restaurata IRI_R che si avvicini strettamente all'immagine originale non distorta. L'obiettivo fondamentale delle GAN è risolvere il problema minimax:

minmax=E[logD(x)]E[log(1D(x~))]\min \max = \mathbb{E} \left[ \log D(x) \right] - \mathbb{E} \left[ \log (1 - D(\tilde{x})) \right]

Tuttavia, le GAN standard spesso incontrano instabilità nel training, tra cui il collasso dei modi, i gradienti che svaniscono e difficoltà di convergenza. Per affrontare queste limitazioni, adottiamo il framework Wasserstein GAN (WGAN), che sostituisce la divergenza di Jensen-Shannon con la distanza dell'operatore di trasporto terrestre (distanza Wasserstein-1). Questa modifica fornisce gradienti più stabili durante l'addestramento e può essere espressa come:

minmax=E[D(x)]E[D(x~)]\min \max = \mathbb{E}[D(x)] - \mathbb{E}[D(\tilde{x})]

Il nostro framework RestoreGAN integra diverse innovazioni architetturali specificamente progettate per il compito di stima del jitter. L'architettura complessiva è composta da tre componenti principali: (1) una rete generatrice (GθG_{\theta}), che è una CNN specializzata che elabora immagini deformate e produce vettori di jitter stimati lungo due assi principali; (2) una rete discriminatrice (DθD_{\theta}), che valuta la qualità delle immagini restaurate confrontandole con le immagini di riferimento durante la fase di addestramento; (3) un modulo di ripampling delle immagini che applica i vettori di jitter stimati per riproiettare l'immagine deformata e produrre l'output finale restaurato.

Il generatore impiega un'architettura accuratamente progettata che include due blocchi convoluzionali iniziali con kernel grandi per catturare le caratteristiche ad alta risoluzione, convoluzioni a passo e blocchi residui con normalizzazione del batch per elaborare caratteristiche di livello medio, e una funzione di attivazione sigmoide espansa che accoglie l'ampiezza potenzialmente grande dei parametri di jitter.

La funzione di perdita completa per il nostro RestoreGAN combina tre componenti distinti:

LGAN=Ladv+λ1Lcon+λ2LjitL_{\text{GAN}} = L_{\text{adv}} + \lambda_1 L_{\text{con}} + \lambda_2 L_{\text{jit}}

Dove LadvL_{\text{adv}} è la perdita avversaria che incoraggia il generatore a produrre immagini restaurate realistiche, LconL_{\text{con}} è la perdita sul contenuto che misura la differenza pixel per pixel tra le immagini restaurate e quelle di riferimento, e LjitL_{\text{jit}} è la perdita sul jitter che penalizza direttamente le imprecisioni nei parametri di jitter stimati.

Una volta addestrato, il framework RestoreGAN può essere applicato alle immagini telerilevate deformate, seguendo una procedura che garantisce la stima precisa e la compensazione del jitter su immagini reali.