Fjernmåling er et av de mest dynamiske og utfordrende feltene innen romfartsteknologi og geospatial analyse. Et sentralt tema i dette feltet er hvordan man kan tilpasse bilder tatt fra ulike sensorplattformer, som for eksempel radar (SAR) og optiske bilder, til et felles representasjonsrom. Tradisjonelle metoder for bilderegistrering har utviklet seg betydelig, men fortsatt er det en rekke utfordringer knyttet til å oppnå effektiv tverr-modal tilpasning, spesielt når merkede data er mangelvare i mål-domenet.

Registrering av fjernmålingsbilder har blitt delt inn i to hovedtilnærminger: intensitetsbaserte og funksjonsbaserte metoder. Intensitetsbaserte teknikker søker å finne geometriske transformasjoner ved å maksimere likheten mellom bildepar, der kryss-korrelasjon og gjensidig informasjon er de mest brukte målene. På den annen side er funksjonsbaserte metoder fokusert på å identifisere særegne korrespondanser mellom bilder for å etablere transformasjonsparametere. Dette kan innebære ekstraksjon av markante trekk som punkter, linjer eller områder, etterfulgt av matchende beskrivere. Blant de mest innflytelsesrike metodene er Scale-Invariant Feature Transform (SIFT) og dens spesialiserte varianter som SURF og SAR-SIFT, som har blitt utviklet for å håndtere spesifikke utfordringer i fjernmåling.

I de senere årene har dyplæringsmetoder revolusjonert funksjonsbaserte registreringsmetoder, spesielt med bruken av konvolusjonsnevrale nettverk (CNN-er). Arkitekturer som AlexNet, VGG16 og VGG19 har vist seg å være svært effektive som trekkeksperter for fjernmålingsbilder. Tilpassede arkitekturer som Siamese-nettverk og hybride tilnærminger har videre utvidet mulighetene for tverr-modal registrering, der målsetningen har vært å minimere visuelle og strukturelle ulikheter mellom bilder tatt fra ulike plattformer og sensorer.

Til tross for imponerende resultater, er de fleste eksisterende metodene avhengige av overvåket læring og merkede datasett, som er dyre og tidkrevende å produsere, spesielt i romfartssystemer der tilgang til omfattende merket data er begrenset. Dette skaper en betydelig utfordring, ettersom fjernmålingsdata ofte kommer fra plattformer med ulik sensorikk og visuelle egenskaper.

Unsupervised Domain Adaptation (UDA) er et felt som har fått økt oppmerksomhet for å adressere disse utfordringene. UDA-teknikker tillater kunnskapsoverføring mellom kilder og mål-domenene uten behov for merket data i mål-domenet. I konteksten av fjernmåling betyr dette at man kan bruke data fra én sensor (for eksempel optisk) til å forbedre modellen for en annen sensor (som SAR), selv om mål-domenet mangler merking.

Metodene innen UDA kan deles inn i en-trinns og flertalls tilnærminger. En-trinns metoder prøver å tilpasse distribusjonene mellom kilder og mål direkte, mens flertalls tilnærminger introduserer mellomliggende domener for gradvis å overføre kunnskap. En stor utfordring er at eksisterende UDA-metoder ofte ikke er tilstrekkelige for de betydelige distribusjonsforskjellene som finnes i tverr-modal fjernmåling, spesielt mellom SAR- og optiske bilder. Variasjonene mellom plattformer og sensorer, samt de store visuelle forskjellene, skaper behov for spesialiserte tilpasningsteknikker som kan identifisere meningsfulle korrespondanser på tvers av modaliteter.

For å møte disse utfordringene foreslår vi en omfattende tilnærming som kombinerer avanserte dyplæringsarkitekturer med spesialiserte tilpasningsteknikker. Denne tilnærmingen er spesielt utviklet for å muliggjøre effektiv SAR-optisk bilde registrering på tvers av ulike satellittplattformer uten behov for merkede data i mål-domenet.

Vår metode består av tre hovedkomponenter: (1) et Siamese-nettverk med rotasjons- og skalatransformasjoner for overvåket læring på kilde-domenedata, (2) et kausal-inferensbasert selv-læringsmekanisme for overføring av kunnskap til mål-domenet, og (3) multi-oppløsnings histogram-matching teknikker for å redusere visuelle forskjeller mellom domener. Disse komponentene arbeider sammen for å redusere både tverr-modal forskjeller (mellom SAR og optiske bilder) og tverr-plattform forskjeller (mellom forskjellige satellittsystemer), og muliggjør effektiv registrering uten mål-domenets merking.

Siamese-nettverket fungerer som fundamentet i denne tilnærmingen, og er spesialdesignet for å håndtere de dramatiske forskjellene mellom SAR- og optiske bilder. Arkitekturen består av to identiske undersystemer som deler konfigurasjon og parametere. Denne parameterdeling sikrer konsistens i trekkutvinning, til tross for de visuelle forskjellene mellom modalitetene. Gjennom dette nettverket kan man trekke ut korresponderende trekk som er essensielle for bildejustering, samtidig som man håndterer de geometriske forskjellene som ofte finnes mellom bildene.

I tillegg benyttes kausal-inferensrammeverk for å identifisere invariante representasjoner som fanger essensiell strukturell informasjon, uavhengig av modalitet eller plattform-spesifikke egenskaper. Histogram-matching teknikkene bidrar videre til å redusere lav-nivå visuelle forskjeller, og muliggjør mer effektiv kunnskapsoverføring mellom domener. Dette skaper et rammeverk som kan håndtere både tverr-modal og tverr-plattform registrering uten behov for merkede mål-data.

Endtext

Hvordan forbedre nøyaktigheten i uovervåket domeneadaptasjon for defektdeteksjon i luftfartskomponenter?

I denne seksjonen presenteres en ny tilnærming til uovervåket læring for overflatefeildeteksjon i luftfartskomponenter, som integrerer CNN-baserte deteksjonsmodeller med progresiv histogrammatching og multitrinns domeneadaptasjon. Tilnærmingen vår har vist seg å være ekstremt effektiv i å redusere gapet mellom forskjellige domener, slik som ulike feiltyper og bildeforhold, uten å kreve manuelle annotasjoner i mål-domenet. De eksperimentelle resultatene viser at tilnærmingen vår har ført til en betydelig økning i AP-scoren for uovervåket deteksjon, fra 0,103 til 0,861, noe som er en bemerkelsesverdig forbedring som nærmer seg 0,895, oppnådd med tilsynsbaserte modeller på samme datasett.

Ved hjelp av selv-læring med full oppdatering av modellen, økte AP fra 0,103 til 0,749. Integrasjon av spatial og kanaloppmerksomhet bidro til å forbedre AP ytterligere til 0,788, mens progresiv histogrammatching hevet resultatene til 0,858. Dataforsterkning bidro til den siste finjusteringen, som førte til en endelig AP-score på 0,861. F1-scoren viste et lignende forbedringsmønster, og økte fra 0,211 uten tilpasning til 0,842 med vårt komplette rammeverk. Dette representerer en bemerkelsesverdig 300% forbedring som nærmer seg den oppnådde 0,869 fra tilsynsbasert læring.

Ved å sammenligne ytelsen med eksisterende metoder for overføring av læring, inkludert ADDA, DA, DeepLabv3-overføring og FPN-overføring, viste vårt MSDA-rammeverk seg å utkonkurrere disse alternativene betydelig på alle evalueringsmål. Figurene og tabellene viser at vår metode, med progressive forbedringer, overgår FPN-overføringsmetoden (0,824) med en betydelig margin. Dette demonstrerer at vårt multitrinns rammeverk med progresiv tilpasning gir langt bedre resultater enn de etablerte metodene, til tross for at ADDA og DA-teknikkene har en elegant teoretisk tilnærming.

En viktig grunn til at de adversarielle adaptasjonsmetodene (ADDA og DA) presterte dårlig, kan være deres avhengighet av nøyaktig distribusjonsmodellering, som blir utfordrende når antallet prøver er begrenset og domene forskjellene er betydelige. I kontrast tillot vår tilnærming, som involverer en mellomliggende felles dataset, en mer tilgjengelig vei mellom domener, noe som muliggjorde en effektiv kunnskapsoverføring til tross for de betydelige gapene i dataene.

Våre beregninger av MMD-avstander mellom datasettene viser at gapet mellom Type-I og Type-II datasettene er betydelig (MMD = 2,146), som forklarer hvorfor direkte tilpasningsmetoder har hatt problemer. Ved å introdusere et mellomliggende felles dataset, med MMD-verdier på 1,186 til Type-II og 1,466 til Type-I, klarte vår metode å skape en traverserbar vei mellom domener, noe som gjorde kunnskapsoverføring mulig.

Det er også viktig å merke seg at teknikker som selvoppmerksomhet, progresiv histogrammatching og multitrinns selv-læring gir nødvendige forbedringer for defektdeteksjon på tvers av domener. Hver komponent bidrar inkrementelt til forbedringen av ytelsen, og deres kombinasjon gir resultater som nærmer seg tilsynsbasert læring, til tross for at ingen annotasjoner fra mål-domenet benyttes. Dette har betydelige implikasjoner for inspeksjonssystemer i luftfart, hvor annoterte feileksempler vanligvis er sjeldne og mangfoldige.

Ved å redusere behovet for manuelle annotasjoner, samtidig som deteksjonsytelsen opprettholdes, muliggjør vår tilnærming en mer effektiv implementering av automatisert inspeksjon på tvers av forskjellige luftfartskomponenter og forhold. Denne evnen er spesielt verdifull for rombaserte systemer, der manuell inspeksjon kan være upraktisk, og feileksemplene er naturlig begrensede. Fremtidige forskningsretninger inkluderer utvidelsen av rammeverket til å håndtere større komponentdiversitet, integrering av tidsinformasjon fra video-sekvenser og utforsking av multimodal sensorer utover visuelle bilder.

Ved å bygge bro mellom ytelsen til tilsynsbasert læring og de praktiske fordelene med uovervåket læring, representerer vårt rammeverk et viktig skritt mot pålitelig og annoterings-effektiv defektdeteksjon for fremtidens luftfartssystemer. Denne tilnærmingen gir mulighet for kunnskapsoverføring på tvers av vesentlig forskjellige feiltyper, samtidig som den opprettholder deteksjonsnøyaktigheten, og løser dermed en kritisk utfordring i automatisert luftfartsinspeksjon. Dette kan potensielt øke både sikkerhet og operasjonell effektivitet på tvers av forskjellige luftfartsapplikasjoner.

Hvordan Overvåkning og Maskinlæring Kan Forhindre Skader i Aerospace Infrastruktur

I den moderne romfartsindustrien er infrastrukturen som støtter lanseringer og operasjoner en usynlig, men kritisk del av suksessen. Disse omfattende systemene – som drivstoffledninger, elektriske ledninger og strukturelle støtter – spiller en avgjørende rolle for at operasjonene skal gå som planlagt. Det er først når en komponent svikter at infrastrukturen blir synlig, og konsekvensene kan være alvorlige. En liten lekkasje eller korrosjon kan føre til store problemer som truer både menneskeliv og milliarder av dollar i investeringer i romfartøy.

En av de mest skjulte truslene mot denne infrastrukturen er vanninntrengning eller lekkasje. Når fuktighet trenger inn i betongvegger eller metalldeler begynner å korrodere i de mest utilgjengelige områdene, kan det føre til gradvis svekkelse som til slutt kan føre til katastrofale feil. Dette er et problem som kan være vanskelig å oppdage før det er for sent, spesielt i de utfordrende og ekstremt farlige miljøene som finnes på rakettlanseringsplattformer, drivstofflagringsanlegg og testfasiliteter.

Tradisjonelle inspeksjonsmetoder har lenge vært avhengige av visuell vurdering fra spesialister, en prosess som er både arbeidsintensiv og subjektiv. Inspektører må ofte utføre sitt arbeid i farlige omgivelser, som høyt oppe eller i trange rom, og kan bli utsatt for giftige kjemikalier eller andre farlige stoffer. I tillegg er disse metodene tidkrevende, og det er vanskelig å få en fullstendig og nøyaktig oversikt over hele anlegget på en gang.

Her kommer avansert bildebehandling og maskinlæring inn som en potensielt revolusjonerende løsning. Ved å bruke fjernmålingsteknologi og maskinlæringsmodeller kan vi overvåke strukturelle helseproblemer på en langt mer effektiv og presis måte. Bruken av optiske og SAR-bilder (syntetisk aperturradar) kan hjelpe med å oppdage endringer og anomalier i store områder raskt og på en automatisert måte. Ved å bruke dype nevrale nettverk, som de som benytter seg av U-net og lignende arkitekturer, kan disse bildene prosesseres og analyseres for å identifisere tidlige tegn på lekkasje eller korrosjon, før de utvikler seg til store problemer.

I nyere forskning har det blitt utviklet metoder for bildegjenkjenning som gjør det mulig å registrere bilder fra forskjellige kilder – som SAR og optiske bilder – og bruke disse til å lage nøyaktige modeller av infrastrukturen. Ved å bruke dyplæringsteknikker kan vi ikke bare oppdage fysiske skader, men også forutsi potensielle svekkelser basert på data fra tidligere hendelser. Det kan bidra til å planlegge vedlikehold før problemene blir synlige, og dermed forhindre katastrofer før de skjer.

En stor utfordring er hvordan man kan bruke data fra forskjellige kilder – som optiske bilder, radarbilder og punktskyer – på en sammenhengende måte. Her kommer transfer learning inn som en nyttig metode. Transfer learning lar oss bruke ferdigheter og innsikt fra én domene, som f.eks. romfartsinfrastruktur, og anvende dem på andre områder som har lignende karakteristikker, som for eksempel andre typer infrastruktursystemer eller til og med områder med lavere oppløsning.

Ved å kombinere maskinlæringsmodeller med store datasett kan vi lage presise prediksjoner om når og hvor lekkasjer kan forekomme, og dermed gi beslutningstakere bedre verktøy for å sikre at vedlikehold skjer på riktig tidspunkt. I tillegg kan disse teknologiene bidra til å optimalisere prosesser for tidlig varsling og redusere behovet for menneskelig inngripen i farlige eller vanskelig tilgjengelige områder.

En annen viktig faktor er hvordan modellen kan trenes til å gjenkjenne strukturelle svakheter på tvers av forskjellige domener og data. Ved å bruke metoder som domenetilpasning og multikluster-logistisk tilnærming kan systemene trenes til å gjenkjenne ikke bare synlige, men også skjulte feil – som de som kan ligge dypt inne i strukturen eller i områder hvor vanlige inspeksjoner ikke kan nå.

I tillegg til de teknologiske fremskrittene, er det viktig å forstå at overgangen til maskinlæring og automatiserte overvåkingssystemer ikke nødvendigvis fjerner behovet for menneskelig ekspertise. Snarere kan det forbedre ekspertens evne til å oppdage problemer før de blir alvorlige, og dermed øke både sikkerheten og effektiviteten.

Det er også viktig å påpeke at disse teknologiene ikke bare har applikasjoner for romfartsinfrastruktur, men også kan anvendes på tvers av mange andre kritiske infrastrukturer. Fra vannkraftverk til høyhastighetsbaner, vil metoder for tidlig deteksjon av lekkasjer og strukturelle problemer kunne redusere risikoen for feil og forbedre vedlikeholdsprosesser i en rekke forskjellige bransjer.

Hvordan K-means og Supervoxel Segmentering Kan Forbedre Identifikasjon og Klassifisering i Punkt Cloud Data

I dette kapittelet utforskes en integrert tilnærming for å segmentere punktcloud-data og identifisere områder med lekkasje og strukturelle elementer, spesielt rettet mot anvendelse i luftfartsinfrastruktur. Den foreslåtte metoden kombinerer to tilnærminger: K-means klustering for lekkasjeområder og supervoxel-segmentering for de ulike strukturelle elementene som kabler, rør, støtteelementer og spor. Dette systemet, som benytter de geometriske egenskapene til punktcloud-data, gjør det mulig å skille mellom lekkasjer og ikke-lekkasjer, samtidig som det håndterer de komplekse utfordringene ved segmentering av store datamengder.

Når K-means klustering brukes på funksjonene som er generert av SAM (Seepage Analysis Method), blir dataene delt inn i to hovedklasser: lekkasje og ikke-lekkasje. Denne klustringsmetoden bygger på observasjonen at lekkasjeområder har konsistente og distinkte mønstre i funksjonene som kan skilles fra strukturelle elementer, til tross for at de kan se like ut i rå punktcloud-data. Klustering av lekkasjeområder ved hjelp av K-means gjør det enklere å identifisere og differensiere disse områdene fra de øvrige strukturelle elementene i dataene.

Mens K-means klustering er effektiv for lekkasjeområder, krever segmenteringen av de strukturelle elementene en annen tilnærming. Her benyttes supervoxel-segmentering, som er spesielt designet for å håndtere de geometriske egenskapene til strukturelle komponenter i punktcloud-data. Metoden benytter Voxel Cloud Connectivity Segmentation (VCCS) i kombinasjon med regionvekstmetoder for å segmentere ikke-lekkasjeområder. Først voxeliseres dataene med en oppløsning på 0,03 x 0,03 x 0,03 m, og frøpunktene distribueres jevnt over dette gridet. Hver frøpunkt fungerer som et initialt senter for supervoxelvekst, og for hver frøpunkt identifiseres de nærmeste naboene innenfor voxel-griden.

Metoden for regionvekst (RGM) evaluerer jevnheten i de lokale overflatene, hvor veksten starter fra punkter med minimal krumning, som vanligvis finnes i flate områder. Denne prosessen muliggjør segmentering av strukturelle elementer som kabler, rør og støtteelementer, som har distinkte geometriske trekk. Likevel har denne metoden sine begrensninger når det gjelder lekkasjeområder, ettersom disse ofte mangler de samme geometriske karakteristikkene som strukturelle elementer.

For å forbedre nøyaktigheten til segmenteringen benyttes en adaptiv etikettkorreksjonsmekanisme som er inspirert av læringsprosessen i nevrale nettverk. I de tidlige fasene av treningen på et nevralt nettverk, lærer modellen generelle mønstre før den begynner å memorere spesifikke eksempler. Denne egenskapen utnyttes for å trekke ut høy-kvalitets pseudolabels ved å fange modellene i de tidlige læringsfasene, før memoriseringen av potensielt støyende etiketter finner sted. Ved å bruke en U-Net arkitektur for lekkasjeområder og en DGCNN (Dynamic Graph CNN) for ikke-lekkasjeområder, kan modellen gradvis korrigere etikettene basert på de identifiserte mønstrene.

Korreksjonen skjer iterativt: Etter hver treningsrunde evalueres modellen ved å analysere nøyaktigheten (Intersection over Union, IOU), og når treningen nærmer seg memorisering, kan etikettene korrigeres ved hjelp av den tilpassede mekanismen. Dette sikrer at segmenteringen blir mer presis uten behov for manuell annotering. Den resulterende etikettene for lekkasjeområder blir projisert tilbake til 3D-punktcloud-dataene, og de kombineres med etikettene for ikke-lekkasjeområder for å skape den endelige segmenteringen.

I tillegg til den tekniske prosessen, er det avgjørende å forstå at nøyaktig segmentering og klassifisering i punktcloud-data ikke bare avhenger av algoritmenes evne til å identifisere geometriske mønstre. Det er også viktig å ta hensyn til de ulike utfordringene knyttet til støy i dataene, variasjoner i punktfordeling og kompleksiteten i de strukturelle elementene som skal identifiseres. Denne metoden tilbyr en robust ramme for å håndtere slike utfordringer og gir en nøyaktig og automatisert tilnærming for å analysere store mengder punktcloud-data, spesielt i konteksten av luftfartsinfrastruktur.

Hvordan kan vi forbedre nøyaktigheten og stabiliteten ved jitterestimering gjennom dyp læring?

Den arkitektoniske utformingen av vår implementering av konvolusjonsnevrale nettverk (CNN) er detaljert i figur 2.3. Denne strukturen inkorporerer flere avanserte elementer fra moderne forskning innen dyp læring, inkludert to konvolusjonsblokker med trinnstørrelse (stride) på 1/2, fire residualblokker, og en tett blokk for funksjonsintegrasjon. Hver ResBlock inneholder et konvolusjonslag, et batchnormaliseringslag og en ReLU-aktiveringsfunksjon. Denne residualarkitekturen gir betydelige fordeler for applikasjonen vår – den letter mer effektiv opplæring ved å dempe problemet med forsvinnende gradienter samtidig som den forbedrer modellens generaliseringsevne og den overordnede ytelsesrobustheten.

En viktig innovasjon i tilnærmingen vår er introduksjonen av en forbedret aktiveringsfunksjon som vi kaller "utvidet sigmoid." Standard sigmoide aktiveringsfunksjoner begrenser utgangsverdiene til området [0,1], noe som viser seg å være problematisk for jitter-vektorestimater, da jitter-amplituder i virkeligheten ofte overskrider disse grensene og kan inkludere negative verdier. Den utvidede sigmoiden adresserer denne begrensningen ved å bruke en passende lineær transformasjon:

Expanded Sigmoid(z)=1A(11+exp(z))0.5\text{Expanded Sigmoid}(z) = \frac{1}{A} \left( \frac{1}{1 + \exp(-z)} \right) - 0.5

Her representerer zz inngangsverdien, og AA fungerer som en ekspansjonsfaktor som kontrollerer amplituderegnet til utgangsvektoren. Gjennom omfattende eksperimentering med ulike parametervarianter har vi bestemt at A=8A = 8 gir optimal ytelse for våre jitterkompenseringsoppgaver på tvers av ulike sensortjenester og bildebehandlingsforhold.

Opplæringen i nettverket vårt ledes av en sammensatt tapsfunksjon som balanserer to komplementære mål – innholdstrelojalitet og jitternøyaktighet:

Loss=(1α)L2+αLjitter\text{Loss} = (1 - \alpha)L_2 + \alpha L_{\text{jitter}}

Her fungerer α\alpha som en hyperparameter som bestemmer den relative bidraget av hver tapskomponent til den overordnede optimaliseringsmålet. Gjennom empiriske evalueringer har vi etablert passende verdier for denne parameteren som balanserer de konkurrerende kravene om bildegjenopprettingskvalitet og jitterestimaternøyaktighet. Innholdstapet (L2L_2) kvantifiserer den pikselsvise forskjellen mellom genererte og målbilder ved hjelp av målingene for gjennomsnittlig kvadratfeil (MSE):

L2=1WHx=1Wy=1H(IG(x,y)IT(x,y))2L_2 = \frac{1}{WH} \sum_{x=1}^{W} \sum_{y=1}^{H} (I_G(x, y) - I_T(x, y))^2

Der WW og HH betegner bredde og høyde på bildene, og IG(x,y)I_G(x, y) og IT(x,y)I_T(x, y) representerer pikselsverdier i henholdsvis det genererte og målbildet.

Jittertapkomponenten (LjitterL_{\text{jitter}}) vurderer nøyaktigheten av de estimerte jitter-vektorene ved å måle deres avvik fra de faktiske verdiene. Siden det kan være dimensjonsforskjeller mellom CNN-genererte jitter-vektorer og referansemål, implementerer vi kubisk interpolasjon for å sikre kompatibel dimensjonalitet for sammenligning. Jittertapsfunksjonen beregnes deretter som:

Ljitter=1Hh=1H(z^hzh)2L_{\text{jitter}} = \frac{1}{H} \sum_{h=1}^{H} (\hat{z}_h - z_h)^2

Denne dobbeltmålte tapsfunksjonen muliggjør samtidig optimalisering for både visuell kvalitet i gjenopprettede bilder og nøyaktighet i estimeringen av de underliggende jitterparametrene, og skaper en balansert tilnærming som tar for seg begge aspektene ved jitterkompenseringsutfordringen.

Moderne metoder for jitter-estimering innen fjernmåling og bildebehandling har tradisjonelt vært avhengige av tilleggsdata fra sensorer eller jordkontrollpunkter. I motsetning til dette viser tilnærminger basert på dyp læring at effektiv deteksjon og kompensasjon av plattformjitter kan oppnås ved å bruke kun de deformerte bildene selv. Generative Adversarial Networks (GANs) representerer en kraftig klasse av dype læringsarkitekturer som består av to konkurrerende nevrale nettverk: en generator og en diskriminator. I vårt tilfelle har vi formulert problemet på følgende måte: gitt et deformert fjernmålebilde påvirket av plattformjitter, er vårt mål å estimere jitter-parametrene og produsere et gjenopprettet bilde som nærmer seg det opprinnelige udistorte bildet.

GANs står overfor utfordringer som treningsinstabiliteter, inkludert mode collapse, forsvinnende gradienter og konvergensproblemer. For å adressere disse begrensningene benytter vi oss av Wasserstein GAN (WGAN)-rammeverket, som erstatter Jensen-Shannon-divergens med Earth Mover’s Distance (Wasserstein-1 avstand). Denne modifikasjonen gir mer stabile gradienter under trening og kan uttrykkes som:

minθGmaxθDE[D(x)]E[D(x~)]\min_{\theta_G} \max_{\theta_D} \mathbb{E}[D(x)] - \mathbb{E}[D(\tilde{x})]

Her er E\mathbb{E} forventningsoperatoren, og D(x)D(x) representerer diskriminatorens vurdering av bildet. Vi har utviklet vår RestoreGAN-rammeverk som integrerer flere arkitektoniske innovasjoner spesifikt tilpasset jitterestimering. Arkitekturen består av tre hovedkomponenter: (1) Generatornettverket (GθG_{\theta}), som er et spesialisert CNN som behandler deformerte inngangsbilder og produserer estimerte jitter-vektorer langs to hovedaksjer; (2) Diskriminatornettverket (DθD_{\theta}), som evaluerer kvaliteten på de gjenopprettede bildene ved å sammenligne dem med sannhetens bilder under treningsfasen; og (3) Et bilde-resamplingmodul som bruker de estimerte jitter-vektorene til å re-projisere de deformerte bildene og produsere det endelige gjenopprettede utdata.

For å øke stabiliteten under trening benytter vi en funksjonsmatching-tilnærming for den adversarielle tapet, og fokuserer på mellomliggende lagrepresentasjoner i stedet for rå diskriminatorutdata. Gjennom denne tilnærmingen og de nøye utvalgte tapkomponentene kan vårt RestoreGAN-rammeverk effektivt estimere jitter med høy nøyaktighet, noe som åpner for en mer presis og pålitelig plattformjitterkompensasjon.