I de siste årene har utviklingen innen satellittbasert fjernmåling og bildebehandling gjort det mulig å oppnå mer presise og pålitelige resultater, men flere utfordringer gjenstår. En av de mest utfordrende problemene i fjernmåling er effekten av "jitter", som kan påvirke kvaliteten på satellittbilder. Dette fenomenet, som oppstår som følge av små, raske bevegelsessvingninger i satellittens orientering, kan føre til geometriske feil og redusert bildeklarhet. I denne sammenhengen har multi-modalitetsfusjon, som kombinerer informasjon fra ulike sensorer, blitt vist å være et effektivt verktøy for å forbedre jitter-estimering.

Jitter kan forårsake merkbare strekker eller bølger i bilder, noe som gjør det vanskelig å tolke dataene. Dette kan være spesielt problematisk for sensitive applikasjoner som krever høy presisjon, for eksempel kartlegging, miljøovervåking eller katastrofehåndtering. En vanlig tilnærming for å korrigere jitter i satellittbilder er bruk av bildebehandlingsteknikker som justerer bilder for å kompensere for endringer i satellittens orientering under fotografering. Imidlertid har disse tradisjonelle metodene sine begrensninger, spesielt når det gjelder presisjon under høye støynivåer eller under lange tidsperioder.

For å møte disse utfordringene har forskere utviklet et rammeverk basert på multi-modalitetsfusjon. Denne metoden kombinerer ulike kilder til informasjon, for eksempel bildebehandlingsteknikker, maskinlæring og stjernesporing. En viktig fordel med denne tilnærmingen er at den kan kompensere for usikkerheter i enkelte målinger, slik at nøyaktigheten opprettholdes selv når en enkelt målekilde ikke er pålitelig, som for eksempel på homogene terrengområder hvor andre målesystemer kan mislykkes. Ved å kombinere data fra flere sensorer – for eksempel optiske bilder og informasjon fra stjernesporingssystemer – er det mulig å oppnå en mer robust og nøyaktig estimering av jitter-effektene.

Maskinlæringskomponentene som benyttes i dette rammeverket, har også vist seg å gi eksepsjonell presisjon, spesielt for små forskyvninger som ofte er til stede i virkelige jitter-scenarier. Dette er av stor betydning, ettersom små jitter-bevegelser vanligvis utgjør størstedelen av jitter-feilene som oppstår i satellittbilder. Den multi-nivå XGBoost-algoritmen som benyttes i denne tilnærmingen, har vist seg å være mer effektiv enn tradisjonelle metoder som ridge-regresjon eller standard XGBoost, spesielt når det gjelder å håndtere støyforhold og startracking-kvalitet.

Et annet aspekt som fremheves ved bruk av multi-modalitetsfusjon er dens bredde av anvendelsesområder. Denne metoden er ikke bare effektiv for moderne satellitter, men kan også anvendes på eldre bildedata som mangler spesifikke jitter-målingssystemer. Dette åpner opp for korrigering av historiske data og gjør det mulig å bruke gamle arkiver med høyere nøyaktighet i ettertid. Dette har særlig stor verdi for vitenskapelige og operative formål, som for eksempel langsiktige miljøstudier, der tilgang til pålitelige data fra flere tiår tilbake kan være avgjørende.

Selv om multi-modalitetsfusjonen har mange fordeler, er det også noen utfordringer og begrensninger. For det første krever maskinlæring en betydelig mengde beregningsressurser under treningsfasen, selv om inferensprosessen (selve prosessen med å gjøre prediksjoner) kan gjennomføres mer effektivt. Videre antar stjernesporingssystemet at minst én passende stjerne er synlig i hvert bilde, noe som kan være et problem under visse forhold, for eksempel ved bestemte himmelretninger eller ved lave stjernesynligheter. Tidsoppløsningen er en annen faktor som kan påvirke nøyaktigheten av jitter-estimering. Vanligvis har stjernesporingssystemer en frekvens på mellom 10–100 Hz, som kan være begrensende i situasjoner med svært raske bevegelser eller høy dynamikk i satellittens orientering.

For å forbedre presisjonen og tidsoppløsningen ytterligere, kan fremtidig forskning utforske integrering av flere informasjonskilder, som gyroskopmålinger eller strukturelle dynamikkmodeller. Dette vil kunne gi en enda mer presis og tidsriktig estimering av jitter-effektene, og dermed bidra til forbedret korrigering av bilder i sanntid. Den maskinlæringsbaserte komponenten kan også videreutvikles for å benytte mer sofistikerte nevrale nettverksarkitekturer, noe som kan gjøre det mulig å lære jitter-parametere direkte fra rådata uten behov for eksplisitt funksjonsutvinning.

I sum har multi-modalitetsfusjon vist seg å være en banebrytende tilnærming for å takle utfordringer knyttet til jitter i satellittbilder. Ved å kombinere informasjon fra forskjellige sensorer og benytte avanserte bildebehandlingsteknikker og maskinlæring, er det mulig å oppnå en betydelig forbedring i nøyaktigheten og påliteligheten av jitter-korreksjon, noe som åpner opp for mer presise og anvendelige fjernmålingsdata i både dagens og fremtidens romforskning.

Hvordan kan vi forbedre deteksjon av krater på planetariske overflater gjennom uovervåket domene-adaptasjon?

I utforskningen av planetariske overflater er det en økende interesse for å utvikle systemer som kan identifisere landemerker som kan benyttes i optiske navigasjonssystemer. Dette innebærer å utvikle effektive metoder for deteksjon av krater, som kan tjene som pålitelige referanser for romfartøy på forskjellige himmellegemer, som Mars eller månen. Flere tidlige studier, som de av Lee og Hogan, samt Downes et al., har brukt ulike tilnærminger med dyp læring for å identifisere og lokalisere krater på både månen og Mars. Bruken av nevrale nettverk og spesielt ResUNET-baserte arkitekturer har ført til betydelige fremskritt, med bedre nøyaktighet i kraterdeteksjon på digitale terrengmodeller og termiske infrarøde bilder.

I tillegg har open-source samfunnet bidratt til utviklingen av nye algoritmer og datasett, som for eksempel Python Crater Detection Algorithm (PyCDA) og spesialiserte treningsdatasett utviklet for dyp læring. Resultatene fra disse tilnærmingene har vært lovende, med høyere nøyaktighet og bedre robusthet mot variasjoner i belysning, skala og morfologi. Dette betyr at moderne metoder er bedre rustet til å håndtere utfordringer som varianter i bildeforholdene mellom ulike planetariske overflater.

Men det er fortsatt betydelige utfordringer i dette feltet. Flertallet av de eksisterende metodene baserer seg på bildesegmentering, med få som benytter objekt-detektering som rammeverk. I tillegg er de fleste metodene for dyp læring trenet på en overvåket måte, noe som innebærer at de er sterkt avhengige av omfattende og tidkrevende annotering av bilder. Denne avhengigheten på merkevarede bilder skaper et behov for nye tilnærminger som kan redusere arbeidsmengden ved etikettering samtidig som de forbedrer deteksjonseffektiviteten.

I denne sammenhengen blir uovervåket domene-adaptasjon (UDA) en kritisk tilnærming. En av de største utfordringene ved planetarisk utforskning er utviklingen av deteksjonssystemer som kan generalisere på tvers av forskjellige himmellegemer. For eksempel kan en modell som er trent på månekrater være ineffektiv når den brukes på Mars eller Merkur på grunn av de forskjellene i overflateegenskaper, kraterdanningsprosesser og bildeforhold som finnes på disse planetene. Dette fenomenet, kjent som “domene-gap”, er et kjent problem innen maskinlæringslitteraturen, og uovervåket domene-adaptasjon tilbyr et lovende rammeverk for å adressere denne utfordringen.

UDA-teknikker tillater kunnskapsoverføring fra et merket kilde-domene, som for eksempel månen, til et ikke-merket mål-domene, som Merkur, ved å justere funksjonsdistribusjonene mellom de ulike domenene. Dette gjør at modellene kan opprettholde ytelsen til tross for variasjoner mellom domener. UDA-tilnærminger kan grovt sett deles inn i tre hovedkategorier: basert på adversariell læring, selv-læring og domene-randomisering.

Adversariell læring benytter en diskrimineringsnettverk som prøver å skille mellom trekkene fra kilde- og mål-domenet, mens funksjonsuttrekksnettverket forsøker å generere domene-uavhengige representasjoner som forvirrer diskriminatoren. Denne prosessen gjør at modellen lærer representasjoner som er nyttige for deteksjonsoppgaven, samtidig som de blir uavhengige av domene-spesifikke trekk. Flere studier, som de av Chen et al. og Volpi et al., har demonstrert hvordan denne metoden kan brukes i objekt-detektering, med fokus på å forbedre deteksjonsnøyaktigheten på mål-domenet.

Selv-læringsbaserte metoder derimot genererer pseudo-etiketter for data fra mål-domenet og forbedrer modellen iterativt ved å trene på disse etikettene. For eksempel har Khodabandeh et al. utviklet en tre-trinns treningsstrategi som reduserer støyen forårsaket av pseudo-etiketter i sine forsøk. Selv om denne metoden kan være effektiv, krever den et tilstrekkelig antall data fra mål-domenet for å generere pålitelige etiketter og dermed finjustere den forhåndstrente modellen. I planetariske kontekster, der mål-domenet ofte har langt færre tilgjengelige data enn kilde-domenet, kan dette være en begrensende faktor.

Domene-randomisering skiller seg fra de to andre tilnærmingene ved at den skaper syntetiske variasjoner av kilde-domenet for å representere et bredt spekter av mulige utseender. Ved å trene modeller på disse varierte, syntetiske domenene, håper man at mål-domenet vil fremstå som en ny variasjon innenfor den lærte distribusjonen. Denne tilnærmingen, som har vist seg effektiv for objekt-detektering i andre områder, ser ut til å ha stor potensial innenfor planetarisk kraterdeteksjon, ettersom den kan bidra til å utjevne forskjellene i stil og visuelle trekk mellom forskjellige krater-datasett.

På tross av fremgangen i utviklingen av disse metodene, er det viktig å merke seg at hver av disse tilnærmingene har sine egne utfordringer. For eksempel krever adversariell læring ofte store datasett for å oppnå pålitelige resultater, og selv-læringsmetoder kan slite med kvaliteten på pseudo-etikettene i datalave scenarier. Domene-randomisering har kanskje den største muligheten for å håndtere de spesifikke utfordringene som kraterdeteksjon på forskjellige planetariske overflater medfører, men den kan også støte på problemer i form av effektivitet og anvendbarhet.

For å utvikle pålitelige systemer for planetarisk deteksjon av krater, vil fremtidige modeller sannsynligvis måtte kombinere elementer fra flere av disse tilnærmingene. Dette vil kunne redusere behovet for store mengder annotert data, samtidig som det muliggjør en mer fleksibel tilpasning til de varierende forholdene på forskjellige planetariske overflater.

Hvordan overvinne utfordringer med tverrmodal og tverrplattform registrering i romfartsbilder

I dagens romfartsforskning er det en betydelig utfordring å nøyaktig registrere bilder fra forskjellige kilder, særlig når det gjelder bilder tatt med ulike sensorer som SAR (Synthetic Aperture Radar) og optiske bilder. Ulike sensorers geometri og oppløsning fører til variasjoner som gjør det vanskelig å matche korresponderende punkter mellom bildene. For å løse dette problemet har vi utviklet en metode som kombinerer flere avanserte teknikker, som multi-skala arkitektur, rotasjons- og skala-invariant transformasjon, samt en ny tilnærming for domene-tilpasning i tverrmodal kontekst.

Vår arkitektur består av flere blokker i en Siamese-nettverksstruktur, der hver blokk inneholder et konvolusjonslag, batch-normalisering, ReLU-aktivering og maks-pooling. Den første konvolusjonsblokken bruker en stride på to for å redusere de romlige dimensjonene og forsterke høy-nivå trekk. Maks-pooling-lagene reduserer gradvis oppløsningen for å fange mer abstrakte representasjoner, mens oppsamplingslagene som er plassert etter den fjerde konvolusjonsblokken og før den siste genereringen av varme-kartet, bevarer romlig presisjon for nøyaktig registrering.

Denne tilnærmingen er avgjørende for presis identifikasjon av korrespondanser på tvers av forskjellige bildemodaliteter, til tross for de utfordrende tverrmodalene forholdene. Den spesialiserte tap-funksjonen vi har utviklet, kombinerer vektet kryss-entropi med L2-tap, som tar hensyn til den iboende ubalansen i matchende varme-kart (der positive korrespondanser representerer en liten brøkdel av alle mulige matchene). Den vektede kryss-entropien hjelper til med å optimalisere de innledende korrespondansene, mens L2-delen forbedrer presisjonen etter hvert som treningen skrider frem.

For å styrke generaliseringen på tvers av forskjellige oppløsningsregimer, som er kritisk for tverrplattform-tilpasning i romfartssystemer, benytter vi multi-oppløsnings treningsstrategier. Kildedomene bildene gjennomgår kontrollert nedskala for å simulere oppløsningsvariasjoner, og det resulterende multi-oppløsnings datasettet brukes i treningen sammen med de originale bildene. I tillegg benyttes databerikelse, inkludert tilfeldig flipping og 90-graders rotasjoner, for å forbedre robustheten til geometriske variasjoner.

En annen viktig utfordring i romfartsbilde-registrering er håndtering av geometriske variasjoner som oppstår på grunn av rotasjoner og skala forskjeller, spesielt som følge av ulike orbitale parametere, sensor-geometrier og innhentingsforhold. For å takle dette introduserer vi spesialiserte rotasjons- og skala-invariant transformasjonsmoduler som muliggjør robust trekkmatching til tross for geometriske ulikheter. Under treningen simuleres flere rotasjoner og skalaer av funksjonsrepresentasjonene både langs den angulære og skala dimensjonen. Resultatet er en omfattende sett av funksjonskart som fanger fremtredende trekk under forskjellige geometriske transformasjoner.

I vårt rammeverk benytter vi en to-trinns tilnærming for tverrdomene-tilpasning, hvor vi først lærer en overvåket modell på kilde dataene ved hjelp av Siamese-nettverket og den kombinerte tap-funksjonen. Deretter, for å bygge bro over domene-gapet, lærer vi en domene-mapping funksjon som transformerer mål-domenes prøver til å tilpasse seg kildedistribusjonen. Denne tilnærmingen unngår noen av begrensningene som finnes i tradisjonelle metoder som bruker GAN (Generative Adversarial Networks) for domene-tilpasning, som kan ha arkitektoniske inkompatibiliteter med Siamese-nettverk og begrenset domene-overlapping.

En viktig innsikt i vår tilnærming er å erkjenne at ikke alle funksjoner er like overførbare mellom domener. Ved å introdusere et rammeverk for kausal inferens, kan vi skille mellom kausale funksjoner, som fanger essensielle strukturelle egenskaper uavhengig av innhentingsbetingelser, og ikke-kausale funksjoner, som reflekterer domene-spesifikke karakteristikker. Ved å fokusere tilpasningen på de kausale funksjonene, kan vi oppnå mer effektiv kunnskapsoverføring mellom domener og på den måten bygge en mer robust modell for tverrmodal og tverrplattform registrering.

Det er også viktig å merke seg at tverrmodal tilpasning i romfartskontekster kan møte flere utfordringer, som avhenger av de spesifikke sensorene og plattformene som brukes. Sensorenes oppløsning, synsvinkel og geometriske forhold kan variere betydelig, og å håndtere disse forskjellene på en effektiv måte er avgjørende for å oppnå nøyaktige korrespondanser mellom bilder. Videre kan det være utfordrende å få nok merkede prøver fra mål-domenet, og derfor er teknikker som pseudo-labling og selv-læring avgjørende for å fylle gapet i datasettet.

Endtext

Hvordan Overvinne Utfordringene med Tverrdomen Adaptasjon i Feilregistrering av Luftfartskomponenter

Innen luftfartsteknologi er presis feilregistrering avgjørende for å sikre pålitelighet og sikkerhet i komponentene som benyttes. Tradisjonelle metoder for feilregistrering, som ofte baseres på konvolusjonsnevrale nettverk (CNN), er avhengige av omfattende merkede data. Denne tilnærmingen har imidlertid flere begrensninger, spesielt i konteksten av luftfart, der feiltypene er både sjeldne og varierte. Dette skaper en utfordring når det gjelder å samle inn tilstrekkelig treningsdata for å utvikle robuste modeller som kan oppdage feil på tvers av ulike typer komponenter og betingelser. Et hovedproblem er den store domene-gapet som eksisterer mellom forskjellige typer komponenter og feiltyper, hvilket kan redusere nøyaktigheten betraktelig når en modell er trent på én type komponent og deretter overføres til en annen. For å møte disse utfordringene er det nødvendig med metoder som kan tilpasse seg på tvers av ulike domener, uten behov for store mengder manuell merking.

I denne sammenhengen har vi utviklet et hybridrammeverk som integrerer flere teknikker for domene-adaptasjon, og som er spesifikt designet for å adressere de unike utfordringene knyttet til tverrdomen feilregistrering i luftfartskomponenter. Dette rammeverket benytter en usupervisert tilnærming, kombinert med multi-step domene-adaptasjon (MSDA), progressiv histogrammatching, selv-læring og selv-oppmerksomhetsmoduler. Dette gjør det mulig å tilpasse en forhåndstrent modell fra en kilde-domene til et mål-domene uten behov for manuell annotering i det sistnevnte, og samtidig opprettholde høy ytelse i feilregistreringen.

En av de mest utfordrende aspektene ved domene-adaptasjon er de betydelige visuelle forskjellene som kan finnes mellom ulike luftfartskomponenter og deres tilhørende feilbilder. For eksempel kan feilbilder fra strukturelle komponenter under høy stress vise markant forskjellige trekk sammenlignet med bilder fra presisjonsmekaniske elementer, selv om begge representerer de samme grunnleggende feiltypene. Dette skaper et stort domene-gap, som kan gjøre at en modell trent på ett komponenttype gir langt lavere nøyaktighet når den brukes på et annet. For å takle dette problemet, integrerer vårt rammeverk flere tilpasningsteknikker som tillater en modell å lære fra forskjellige datadomener uten å måtte samle inn omfattende merkede data for hvert enkelt domene.

I hjertet av vårt forslag ligger MSDA-tilnærmingen, som begynner med at kilde-datasettet blir prosessert gjennom tradisjonelle CNN-modeller med piksellivå-annotasjoner. Deretter benyttes en progressiv histogrammatching-teknikk til å transformere mellom datasett, og en selv-læringsprosess finjusterer modellen ved å bruke pseudomerkinger. Den siste fasen innebærer at måldatasettet gjennomgår en lignende prosess, og at det genereres segmenteringskart som samsvarer med de opprinnelige bildene. Dette hjelper til med å bridge gapet mellom ulike domener og gir dermed en mer robust deteksjon uten å være avhengig av manuelle annoteringer.

En viktig utfordring ved feilregistrering i luftfartsindustrien er den begrensede tilgjengeligheten av annoterte data, særlig når det gjelder spesifikke feiltyper som kan forekomme i sjeldne komponenter. Å merke tusenvis av bilder for å trene en modell vil være ekstremt tidkrevende, spesielt når feiltyper kan variere sterkt fra komponent til komponent. Dermed blir overføringslæring, hvor modeller pretrenes på kildedatadomener og tilpasses for mål-datadomener, en praktisk løsning. Den tradisjonelle tilnærmingen til overføringslæring krever at modeller direkte tilpasses uten å ta hensyn til store visuelle forskjeller mellom domener, noe som kan føre til ustabilitet og redusert ytelse i de endelige modellene. Dette skyldes at et stort domene-gap kan føre til at tilpasningen ender opp med å bli merket som en suboptimal løsning, på grunn av manglende tilstrekkelig overlapp mellom kildedataene og måldomene.

I vårt rammeverk er vi i stand til å overvinne disse problemene ved å introdusere et mellomliggende datasett som kan fungere som en bro mellom kilde- og mål-domenene. Denne mellomliggende datasettet blir behandlet ved hjelp av selv-læringsmoduler og progressive teknikker for histogrammatching, som effektivt reduserer det domene-gapet. Gjennom flere trinn av læring fra kilde til mellomliggende domene, og deretter fra mellomliggende til mål-domenet, kan modellen justeres og forbedres uten at man trenger store mengder merket data.

Den nødvendige tilpasningen mellom domener for å oppnå effektiv feilregistrering krever derfor ikke bare teknologiske løsninger, men også en grundig forståelse av hvordan ulike domener kan påvirke bildegjenkjenning og feildeteksjon. Effektiv domene-adaptasjon kan drastisk forbedre modellens evne til å generalisere på tvers av ulike komponenter og betingelser, og dermed forbedre deteksjonen av feil selv når treningsdataene er sparsomme eller mangelfulle.

Endtext

Hvordan oppnå bedre ytelse i deteksjon av overflatefeil gjennom usupervisert domeneadaptasjon

Ved bruk av automatisk inspeksjonssystemer til å fange bilder av komponenter under varierende forhold, kan feiltyper som Type-I overflatefeil og Type-II standardfeil skape betydelige utfordringer for modellene som skal identifisere disse feilene. Et betydelig problem oppstår når det er et stort gap mellom kildedomener (som Type-II data fra standardkomponenter) og måldomener (som Type-I data fra høyspente komponenter). Denne typen oppgave krever avanserte teknikker for å tilpasse modeller fra ett domene til et annet uten å bruke spesifikke annotasjoner fra mål-domenet under treningen.

I dette eksperimentet ble dataene fra Type-I, Type-II og Joint-domene brukt til å utvikle en tilnærming som kan tilpasse seg domener med forskjellige visuelle karakteristikker. I alt 67 bilder ble brukt for å trene modeller på Type-I data, som representerer overflatefeil på høyspente komponenter, mens 128 bilder fra standardkomponenter ble brukt fra Type-II datasettene. I tillegg ble et Joint-datasett, utviklet for verifikasjon og databaserevisjon, brukt til å sikre nøyaktig feildeteksjon. Bildene ble standardisert ved å beskjære og endre størrelse til en uniform input på 224 x 224 piksler. For å håndtere ubalanse mellom defekte og ikke-defekte prøver ble treningen justert for å inkludere et likt antall defekte og ikke-defekte prøver, noe som er spesielt viktig for oppgaver der feil utgjør en liten del av det totale bildeområdet.

Metrikkene som ble brukt til evaluering inkluderte Precision-Recall-kurver, gjennomsnittlig presisjon (AP) og Jaccard-koeffisienten, som er nyttige for å vurdere modellens ytelse i scenarier med ubalanserte datasett. Precision-Recall-kurven visualiserer balansen mellom presisjon (andelen korrekt identifiserte feil blant alle detekterte feil) og recall (andelen korrekt identifiserte feil blant alle faktiske feil), noe som er spesielt relevant for oppdagelse av overflatefeil, der defekte områder utgjør en liten del av det totale arealet.

For å vurdere den reelle ytelsen av en modell, ble en rekke forskjellige tapfunksjoner og dataforbedringsstrategier testet. Dice-tapfunksjonen viste seg å være den beste når det gjaldt ytelse, da den oppnådde den høyeste F1-scoren og Jaccard-koeffisienten. Videre økte bruken av dataforbedring betydelig modellens ytelse, og ved å integrere moduler for både romlig og kanaloppmerksomhet, ble presisjonen ytterligere forbedret.

Den neste fasen i eksperimentet involverte å optimalisere U-Net-arkitekturen, som viste seg å være den mest effektive til å fange de komplekse mønstrene av overflatefeil. Ved å justere dybden på encoder-delen av nettverket, viste det seg at en fire-lags encoder ga best resultat, med en AP-score på 0,918. Denne justeringen av nettverksstrukturen var avgjørende for å oppnå høy nøyaktighet i feildeteksjonen, selv i tilfeller med subtile anomalier i bildet.

Når det gjelder usupervisert domeneadaptasjon, ble modellen trent på kildedomene (Type-II defekter) og evaluert på måldomene (Type-I defekter) etter at ulike tilpasningsteknikker ble brukt. Uten noen form for tilpasning oppnådde modellen en AP på bare 0,103, noe som bekrefter det store domenegapet mellom de to datasettene. For å optimalisere modellen ble tre fine-tuning-tilnærminger evaluert: (1) frysning av de fleste lagene og oppdatering av bare det siste laget, (2) frysning av encoder og oppdatering av decoder, og (3) oppdatering av både encoder og decoder med vektede tapfunksjoner. Den siste tilnærmingen viste seg å gi den beste ytelsen, noe som indikerer at en helhetlig tilpasning av modellen er nødvendig når det er store forskjeller mellom domenene.

En viktig del av prosessen var bruken av MMD (Maximum Mean Discrepancy), som er en metrik for å kvantifisere domeneavviket. Lavere MMD-verdier indikerte større likhet mellom domene-distribusjonene, og dermed bedre tilpasning. Ved å bruke forskjellige fine-tuning-tilnærminger og optimaliseringsteknikker ble den usuperviserte domeneadaptasjonen mer robust, og ytelsen økte betraktelig.

I tillegg er det viktig å merke seg at for mer komplekse oppgaver, som deteksjon av overflatefeil i høyspente komponenter, er tilpasningen til spesifikke bildekarakteristikker og objektspesifikasjoner avgjørende. Det innebærer at ikke bare modellens arkitektur, men også de tekniske detaljene i tilpasningen, kan gjøre en betydelig forskjell i hvor godt modellen fungerer når den konfronteres med nye og ukjente data.