Kratergjenkjenning på ulike planetoverflater er en kompleks utfordring, ettersom variasjonen i projeksjon, belysning og geometri mellom bildene kan være betydelig, selv om selve formasjonen av kratrene ofte følger et gjentakende mønster. For å løse dette problemet introduseres CraterNet—et helhetlig rammeverk for kryss-planetarisk kraterdeteksjon som kombinerer dyp læring med kausal inferens og domeneadaptasjon, samtidig som det krever minimalt med annotert data i måldomenet.

Kjernen i systemet er en tilpasset versjon av VariFocal Network (VFNet), en moderne deteksjonsarkitektur som benytter seg av IoU-aware classification score (IACS) for å forene sikkerhet i objekttilstedeværelse med lokaliseringspresisjon. Arkitekturen er basert på Feature Pyramid Networks og består av tre undersystemer: ett for innledende regresjon av boksene, ett for finjustering med stjerneformede deformerte konvolusjoner, og ett for klassifisering med IoU-følsomhet. For å skreddersy VFNet til kraterdeteksjon introduseres to ekstra tapskomponenter. Den første er Generalized IoU (GIoU), som bedre evaluerer overlapp mellom predikerte og faktiske grenser. Den andre er en “kvadratisk tapsfunksjon” som favoriserer kvadratiske sideforhold i deteksjonene, i tråd med hvordan kratrene er annotert i datasett som DeepMoon. Denne spesialiserte tapen akselererer konvergens og forbedrer nøyaktigheten ved å straffe avvik fra forventet sirkulær form.

Den kombinerte tapsfunksjonen integrerer varifokal tap, kvadratisk tap og GIoU både for de initielle og raffinerte prediksjonene, og muliggjør robust deteksjon av kratere med høy presisjon også i tettpakkede områder.

For å overkomme domenegapet mellom for eksempel måne- og Merkurbilder, implementeres en usupervisert domeneadaptasjonsmodul. Denne benytter domenerandomisering, histogramutjevning og kausal funksjonsmatching. Gjennom kontrollerte geometriske og fotometriske transformasjoner, blant annet homografi og gamma-korreksjon, simuleres visuelle variasjoner som gjør modellen robust mot forskjellige synsvinkler og lysforhold. Histogrammatching reduserer forskjeller i pikselintensitet ved å matche intensitetsfordelingen mellom kilde- og målbildene, noe som bidrar til harmonisering av belysning og kontrast.

En mer avansert komponent i adaptasjonsmodulen er kausal inferens-basert feature matching (CIFM), som skiller mellom innholdsbærende og domeneavhengige bildeegenskaper. Ved å bruke kausale intervensjoner isoleres de strukturelle egenskapene ved kratrene fra forstyrrende faktorer som bildeoppløsning og sensorens egenskaper. Dermed reduseres spuriøse korrelasjoner og modellen fokuserer kun på de invariantene trekkene som definerer et krater på tvers av planeter.

Etter deteksjon må kratrene lokaliseres nøyaktig i både bildekoordinater og geografiske koordinater. Dette gjøres ved å måle gjennomsnittlig kvadratisk feil (MSE) i posisjon og radius, samt standard evalueringsmetoder som presisjon, recall, F1-score og gjennomsnittlig presisjon (AP). For å kvantifisere forskjellene mellom trenings- og testdatasett brukes Maximum Mean Discrepancy (MMD), som måler forskjellen mellom distribusjoner i et reproduserende kjernehilbertsk rom.

Eksperimenter viser at CraterNet, trent på månebilder fra DeepMoon og testet på data fra Merkur, oppnår markant bedre resultater enn tidligere metoder som YOLOv4, Faster R-CNN og DETR. F1-score på 0.786 og AP på 0.804 demonstrerer modellens evne til å overføre læring mellom planeter med ulik morfologi. Lokaliseringen skjer med subpiksel-presisjon, og feilmarginene i geografiske koordinater er minimale.

Ved å kombinere avanserte deteksjonsmodeller, domeneinvariant læring og kausal inferens, tilbyr CraterNet en ny standard for kratergjenkjenning med høy nøyaktighet, lav annotasjonskostnad og generaliserbarhet på tvers av planetariske miljøer. En viktig implikasjon av denne tilnærmingen er at lignende arkitekturer kan tilpasses andre astronomiske fenomener, eller til og med jordobservasjon, der variasjon i domene og datatilgjengelighet er tilsvarende utfordrende.

For at leseren skal forstå dybden i dette arbeidet, er det viktig å innse at den egentlige innovasjonen ikke bare ligger i bruken av moderne arkitekturer, men i hvordan modellene læres opp til å se forbi overflatekarakteristikker og fokusere på de fundamentale, kausale strukturene. Å modellere disse årsakssammenhengene eksplisitt i en læringsprosess er et skritt bort fra konvensjonell bildeklassifisering og mot en ny æra av forklarbar og robust kunstig intelligens.

Hvordan oppnå presis 6D posetracking av romobjekter uten spesifikke 3D-modeller

Ved estimering og sporing av posisjonen til romobjekter uten tilgang til spesifikke 3D-modeller eller kategoribaserte modell-databaser, er det essensielt å kunne følge objektets posetransformasjoner i tre dimensjoner, ofte uttrykt som en 6D pose. En effektiv metode for å oppnå dette innebærer en kombinasjon av avanserte teknikker som segmentering, nøkkelpunktsutvinning og optimering av posetrackerens ytelse over tid. Denne tilnærmingen innebærer flere trinn, hver med sitt spesifikke mål om å maksimere nøyaktigheten og stabiliteten til systemet i langvarig drift.

Først må vi innhente RGB-D-data fra kameraet for å kunne analysere objektet i rommet over tid. For å gjøre dette benyttes en RGB-D sekvens (fra tidspunktet t=0t = 0 til det gjeldende tidspunktet tt), sammen med en segmenteringsmaske for objektet og informasjon om dets initiale pose i kamerakoordinatsystemet. Segmenteringsmodellen som benyttes er basert på SegFormer, og trenes på romfartøydata for å kunne oppdage forskjellige typer romobjekter, inkludert hovedkroppene og solpaneler. Den tilpassede segmenteringsmodellen tar høyde for forskjellige kontekster og belysningsforhold som kan variere i rommet, og gir et grunnlag for videre analyse.

I prosessen med å bestemme objektets initiale posisjon i kameraets koordinatsystem kan vi enten bruke en standard identitetsmatrise som et startpunkt, eller benytte en hierarkisk formprioritetsmodell som bygger på definerte strukturer for romobjekter. Denne modellen kan identifisere karakteristiske symmetrier som refleksiv eller rotasjonsmessig symmetri, og benytter denne informasjonen for å finne den optimale posen ved å maksimere sannsynligheten for objektets strukturelle egenskaper.

Når den initiale posen er etablert, er det på tide å begynne med nøkkelpunktsutvinning. Denne prosessen krever presis lokalisering av relevante trekkpunkter i bildene, og her benyttes en CNN-basert nøkkelpunktsbeskriver som tar utgangspunkt i metoder som SuperPoint. Modellens deteksjon og beskrivelse skjer gjennom et delt nevralt nettverk, hvor både nøkkelpunktene og deres tilhørende beskrivelser genereres samtidig. For å sikre høy nøyaktighet, integreres en sub-pikselfinjustering som gjør det mulig å beregne de fineste detaljene for nøkkelpunktene på et mer presist nivå, selv for objekter som er små eller fjerntliggende. Denne finjusteringen er avgjørende når det er behov for å spore objekter med ekstrem presisjon over tid.

For å forbedre matchingen av nøkkelpunktene mellom bilder, spesielt i tilfelle av raskt roterende objekter, benyttes en multi-dimensjonal matching-modell. Denne modellen bygger på SuperGlue-konseptet, som er et oppmerksomhetsdrevet nevralt nettverk som kan håndtere både RGB og dybdeinformasjon. Ved å behandle matchingen som et optimalt transportproblem, blir nøkkelpunktsposisjoner og beskrivere kodet sammen ved hjelp av oppmerksomhetsmekanismer. Denne metoden gjør det mulig å finne pålitelige korrespondanser mellom bilder til tross for store endringer i objektorientering, belysning og andre variabler som kan oppstå i rommiljøet.

I tillegg til disse grunnleggende metodene, implementeres en dynamisk nøkkelframe-pool for å redusere kumulativ feil i langtidssporing. Ved å bruke posegrafoptimering kan systemet kontinuerlig justere seg og minimere feilene som kan oppstå etter mange sekunder eller minutter med sporing. Dette er spesielt nyttig for langsiktig estimering av romobjekters 6D pose, som kan bli utfordrende over tid på grunn av akkumulerte målefeil og usikkerheter i systemet.

Denne tilnærmingen er spesielt robust når det gjelder objekter som har gjennomgått strukturelle skader. Skader kan oppstå under oppdrag som involverer romfangst, reparasjoner eller andre aktiviteter som kan påvirke objektets opprinnelige form. Ved å bruke en modell som er i stand til å tilpasse seg slike endringer, kan systemet fortsatt spore objektets posisjon med høy nøyaktighet, selv når objektet ikke lenger er i sin opprinnelige tilstand.

For leseren er det viktig å forstå at presis 6D posetracking i rommet krever en kombinasjon av flere teknologier som går utover enkel bildebehandling. Nøkkelen til suksess ligger i hvordan man kombinerer segmentering, nøkkelpunktsutvinning og avansert optimering for å håndtere utfordringer som raske bevegelser, strukturelle skader og vanskelige belysningsforhold. Det er også viktig å merke seg at romteknologi er i stadig utvikling, og det er stadig nødvendig å forbedre eksisterende metoder for å håndtere nye og mer komplekse scenarier som kan oppstå.

Hvordan oppnå robust pose-estimering under ekstreme forhold i rommet?

I konteksten av romoperasjoner er pose-estimering, eller presis identifisering av et objekts posisjon og orientering, en sentral utfordring, spesielt under forhold med høy rotasjon og varierende lysforhold. For tradisjonelle metoder for feature-matching, som SIFT, SuperPoint og LoFTR, er nøyaktigheten sterkt påvirket av rotasjonsfrekvenser, belysningsforhold og oppløsning. I denne sammenhengen presenteres en ny tilnærming som kombinerer både RGB- og dybdedata for å forbedre stabiliteten og påliteligheten av estimeringene under alle operasjonsforhold, inkludert ekstrem rotasjon og varierende lysforhold.

Den foreslåtte metoden, som benytter seg av multi-dimensjonale data, gir en betydelig bedre ytelse sammenlignet med eksisterende metoder, spesielt når det gjelder høy rotasjonshastighet. For eksempel, i scenarier med lave rotasjonshastigheter (fra 0 til 0,10 grader per sekund), demonstrerer metoder som HardNet-SuperGlue og LoFTR svært lave APE-verdier (gjennomsnittlig posefeil), men ytelsen deres faller raskt når rotasjonshastigheten øker. På den annen side viser den nye metoden robust ytelse under både moderate og høye rotasjonshastigheter. Denne stabiliteten skyldes det komplementære samspillet mellom RGB- og dybdedata, som gir ekstra redundans og sikrer at dataene forblir gyldige selv når en av modalitetene forstyrres av rask bevegelse.

En annen viktig evaluering utføres ved å teste systemets motstandsevne under ekstreme rotasjonsforhold, som typisk overstiger kapasiteten til tradisjonelle algoritmer. I tester med rotasjonsforskjeller mellom 0,30 og 0,45 grader, oppnår den foreslåtte metoden en mAUC-score på 0,636 og en mMS på 0,418. Dette er betydelig høyere enn andre metoder, som har gjennomsnittlige posefeil på over 4 grader. Denne ytelsen kan tilskrives metodens evne til å håndtere store endringer i synsvinkler ved hjelp av subpixel-refinering og multi-dimensjonal matching.

Belysningsforhold er også en kritisk faktor for systemenes ytelse i rommet. Det ble gjennomført tester med forskjellige solvinkler for å simulere varierende lysforhold, fra direkte sollys til mer diffust lys. Resultatene viste at systemet yter best under moderate solvinkler (ca. 30 grader), som gir et balansert lysforhold uten de skarpe skyggene fra høye vinkler eller kontrastmangel fra lave vinkler. Imidlertid viste testene at ytelsen var robust over et bredt spekter av lysforhold, med små variasjoner i både mAUC og APE.

Oppløsning er en annen faktor som påvirker systemets ytelse, ettersom målobjektenes størrelse endres avhengig av observasjonsavstand. Tester ved forskjellige oppløsningsnivåer (fra full oppløsning på 1920 x 1080 til kvart oppløsning på 240 x 135 piksler) viste at systemet fortsatt presterer godt ved lavere oppløsninger. Selv ved den laveste oppløsningen ble en mAUC på 0,703 oppnådd, noe som demonstrerer systemets motstandsdyktighet mot endringer i skala.

I tillegg til dette ble et graf-optimaliseringssystem (GO) introdusert for å redusere kumulativ feildrift over tid. Ved å optimalisere hele banen gjennom strategisk nøkkelrammevalg, ble de estimerte posene mer nøyaktige, og feilene ble betydelig redusert i forhold til tradisjonelle metoder uten optimalisering.

I praksis kan utfordringer som høy rotasjonshastighet og varierende belysning håndteres gjennom forbedret bildebehandling og multi-sensor-integrasjon. Denne tilnærmingen åpner for bedre systemer for pose-estimering i rommet, noe som er viktig for romfartøy som er avhengige av nøyaktige og pålitelige målidentifikasjoner under ekstreme forhold.

Hvordan ulike komponenter påvirker segmentering av lekkasjer i 3D-punktskyer

Tabell 5.12 viser resultater for segmentering av lekkasjer ved bruk av ulike konfigurasjoner, fra rå punktskyer til et fullstendig rammeverk med projeksjon og etikettkorrigering. Resultatene demonstrerer at hver komponent bidrar vesentlig til den totale ytelsen. Projeksjonsbasert tilnærming gir betydelige forbedringer sammenlignet med rå punktskybehandling, hvor IOU øker fra 0,204 til 0,608 og F1-score fra 0,327 til 0,756. Når den adaptive etikettkorrigeringen legges til, forbedres resultatene ytterligere, med finale verdier på 0,616 for IOU, 0,756 for Recall, 0,783 for Precision og 0,769 for F1-score. Den projiserte nøyaktighetsmetrikken, som måler pixelnivå klassifisering i det 2D projiserte rommet, viser en lignende forbedring. Den fullstendige pipelinen oppnår en projisert nøyaktighet på 0,930, noe som indikerer at 93 % av pikslene i den projiserte representasjonen er riktig klassifisert – en bemerkelsesverdig høy rate for usupervisert segmentering.

Et viktig aspekt ved etikettkorrigeringen er dens evne til å identifisere og utnytte den tidlige læringsfasen i nevrale nettverk. Figur 5.15 visualiserer tilpasningsresultater for ulike tapfunksjoner under trening, og demonstrerer hvordan tilnærmingen vår fanger overgangen mellom tidlig læring og memorering. Hver plot viser hvordan IOU-ytelsen forbedres raskt under tidlig trening, før den overgår til en langsommere forbedring under memorering. Den parametiske modellen fanger effektivt denne overgangen, og gjør det mulig å identifisere den optimale epoken for etikettkorrigering. Viktig er det at tilnærmingen viser robust ytelse på tvers av ulike tapfunksjoner, noe som indikerer dens tilpasningsevne til forskjellige treningskonfigurasjoner. Selv om Jaccard-tapfunksjonen gir litt bedre resultater, er forskjellene beskjedne, noe som tyder på at korrigeringsmekanismen ikke er spesielt følsom for den spesifikke tapformuleringen.

Når man arbeider med store visjonsmodeller som SAM, er kvaliteten på inputbildene avgjørende for segmenteringsytelsen. Vi undersøkte effekten av kontrastforbedring som et preprocessing-trinn før anvendelse av SAM, og eksperimenterte med ulike kontrastfaktorer (CF) som vist i Tabell 5.13. Resultatene viser at moderat kontrastforbedring gir betydelig forbedring av segmenteringsytelsen. Uten forbedring (CF=1) når F1-score bare 0,687 med H1=320. Ved å bruke forbedring med CF=5 økes F1-score til 0,756, en betydelig forbedring. Overdreven forbedring (CF=9) fører imidlertid til ytelsesforringelse, hvor F1-score synker til 0,735. Figur 5.16 viser visuelt hvordan kontrastforbedringen påvirker resultatene. Med CF=5 viser det projiserte bildet forbedret kontrast som øker synligheten av lekkasjeområder, og muliggjør mer presis segmentering. Den forbedrede kontrasten hjelper med å overvinne støy i punktskydataene, som ellers kan manifestere seg som hull og uteliggere i den 2D-projiserte representasjonen, og forstyrre SAMs evne til å identifisere sammenhengende områder.

Effektiviteten til projeksjonsmetoden vår avhenger av flere nøkkelparametre, inkludert avstandsterskelen (DP) som brukes til å filtrere punktene basert på deres nærhet til den sentrale aksen. Tabell 5.14 viser segmenteringsresultater for ulike DP-verdier. Resultatene viser at segmenteringsytelsen er relativt stabil for DP-verdier mellom 2,2 og 2,5, med optimale resultater ved DP=2,4. Imidlertid reduseres ytelsen dramatisk ved DP=2,6, med F1-score som synker fra 0,7565 til 0,4769. Denne følsomheten oppstår fordi lekkasjer vanligvis forekommer på strukturelle overflater, og inkludering av punkter som er for langt fra den sentrale aksen, introduserer overdreven støy i projeksjonen, noe som forringer segmenteringskvaliteten.

Den angulære oppløsningen (AR) som brukes i projeksjonsprosessen, påvirker også segmenteringsytelsen betydelig. Tabell 5.15 viser resultater for forskjellige AR-verdier, som bestemmer bredden på det projiserte 2D-bildet. Den optimale ytelsen oppnås ved AR=0,30, som tilsvarer en bildebredde på 1200 piksler, med en F1-score på 0,7618 og IOU på 0,6152. Denne oppløsningen gir den beste balansen mellom bevaringen av detaljer og støyreduksjon. Høyere oppløsninger (mindre AR-verdier) øker presisjonen, men reduserer recall, ettersom den finere granulerte projeksjonen skaper flere hull. Lavere oppløsninger (større AR-verdier) øker fullstendigheten, men reduserer presisjonen, ettersom flere distinkte punkter blir sammenslått i samme piksel.

De forskjellige parametriske tilnærmingene, som projeksjon og kontrastforbedring, viser hvordan det er mulig å oppnå nøyaktig segmentering av lekkasjer og andre strukturelle elementer i 3D-punktskyer fra infrastruktur ved hjelp av store visjonsmodeller. Selv om metoden viser stor robusthet på tvers av ulike konfigurasjoner, er det viktig å være oppmerksom på balansen mellom ulike parametere for å oppnå best mulige resultater. En for fin oppløsning kan føre til flere hull i projeksjonen, mens for grov oppløsning kan føre til tap av detaljer. Likevel, ved å finne den rette balansen mellom parametrene, kan man oppnå svært høy presisjon i usupervisert segmentering, uten behov for manuelle etiketter.