Inom området för rymdteknik är bedömningen av icke-samarbetsvilliga rymdobjekts position och orientering en av de mest komplexa och kritiska uppgifterna. Detta är särskilt sant när objekten inte erbjuder några externa signaler eller data, som det kan vara fallet med satelliter eller andra rymdstrukturer. För att lösa dessa problem utvecklas kontinuerligt nya metoder och teknologier som kombinerar datorseende och fysikalisk modellering för att möjliggöra exakt och realtidsbestämning av objektets position (pose) under varierande operativa förhållanden.

Det finns två huvudsakliga angreppssätt för att uppskatta positionen på ett icke-samarbetsvilligt rymdobjekt: CAD-baserade metoder och modellfria metoder.

CAD-kända metoder

När CAD-data för ett rymdobjekt finns tillgänglig, har betydande framsteg gjorts inom pose-estimering av icke-samarbetsvilliga rymdobjekt. En tidig metod som banade väg för denna utveckling var den som föreslogs av Tae et al. [42], som integrerade en CNN-baserad arkitektur för att extrahera nyckelpunkter från en enda bild. Denna bildinformation används sedan tillsammans med en PnP (Perspective-n-Point) modell för att beräkna den relativa positionen från 2D-nyckelpunkterna och de tillhörande 3D-modellkoordinaterna. Denna kombination av djupinlärning för funktionsextraktion och geometriska lösare visade sig vara mer robust mot ljusvariationer än rent geometriska metoder. Denna metod gav ytterligare förbättringar, såsom en enstegs neural nätverksstruktur som samtidigt kunde detektera objektet och estimera 2D-positionerna för de projicerade nyckelpunkterna, baserat på rekonstruerade 3D-data.

I de senare åren har fler metoder utvecklats för att hantera variabla storlekar på rymdobjekt och deras rörelse under tillvägagångssätt som exempelvis när objektet närmar sig eller avlägsnar sig från siktlinjen. Wang et al. [65] gick ännu längre genom att använda transformer-baserade arkitekturer för att generera nyckelpunkter, vilket optimerade specifikt för rymdobjektens unika egenskaper. En annan intressant riktning inkluderar användningen av LIDAR-teknologi för närbilder av satellitens position. LIDAR-sensorer erbjuder fördelar vid svaga ljusförhållanden och ger direkt djupmått, vilket gör dem användbara i scenarier där kamerabaserade metoder inte är tillräckliga.

Trots de betydande framstegen har CAD-kända metoder en grundläggande begränsning: de kräver precisa 3D-modeller av rymdobjektet. Detta innebär att de är användbara främst för objekt som är väl dokumenterade och där tillgång till dessa data finns. För mer dynamiska rymdmiljöer, där objekten är okända eller bara delvis kända, är det nödvändigt att utveckla alternativa metoder.

Modellfria metoder

För rymdobjekt där 3D-strukturen är okänd eller delvis känd, finns det metoder som först rekonstruerar objektet för att skapa en 3D-modell, för att sedan uppskatta objektets position. En metod som använts för detta ändamål är en ramverk som inspirerats av SLAM (Simultaneous Localization and Mapping), utvecklad av Lei et al. [32], som kombinerade tre specialiserade grenar för att hantera estimering av objektets position, extrahering av nyckelbilder och etablering av en lokal 3D-karta.

Metoder som denna har visat sig vara lovande, men de kämpar med problem som komplexa geometriska former och variationer i ljusförhållanden som är vanliga i rymdmiljöer. Dessutom ställer den specifika utmaningen med att hantera stor vinkelmatchning under simultan förändring av både observatörens och objektets position ytterligare krav på systemet. För att tackla dessa problem, har det utvecklats nya metoder som till exempel BundleTrack och BundleSDF. Dessa metoder integrerar djupinlärning för segmentering och funktionsextraktion med optimering av pose-graf för att bibehålla spatiotemporala relationer och ge bättre realtidsförmåga utan att kräva exakta 3D-modeller.

Trots framstegen är modellfria metoder för rymdobjekt fortfarande begränsade. De brottas med bristen på täta punktfunktioner, vilket gör det svårt att matcha objekt i rymdbilder där detaljer som textur ofta saknas. Dessutom saknar dessa metoder specifika lösningar för att identifiera det initiala läget och orienteringen för objektet under rymdmiljöns unika förhållanden, där stora ljusvariationer och objektens rotationshastigheter ställer krav på metodernas flexibilitet och noggrannhet.

Vikten av att förstå miljöfaktorer och anpassa metoder

När man arbetar med icke-samarbetsvilliga rymdobjekt är det inte bara fråga om att utveckla mer exakta algoritmer, utan också att ta hänsyn till miljöfaktorer som kan påverka precisionen av estimeringarna. Till exempel har ljusförhållandena i rymden en enorm inverkan på bildbehandling och positionering. Skarpa kontraster mellan ljus och skugga kan skapa problem, vilket gör det svårt att känna igen och följa objekt under vissa faser av en rymdoperation. För att övervinna dessa utmaningar har man experimenterat med tekniker som transfer learning och objektförstärkning, vilket har visat sig vara framgångsrikt för att hantera variationer i belysningen och göra systemen mer robusta i miljöer med stora ljusövergångar.

Utöver de tekniska aspekterna är det också viktigt att förstå den komplexa dynamiken mellan rymdobjekten och de operativa förhållandena i rymden. Både de fysiska förhållandena och den specifika tekniska miljön (t.ex. begränsade resurser ombord på rymdfarkoster) ställer unika krav på systemen. Detta innebär att pose-estimeringsmetoder måste utvecklas för att fungera inte bara i perfekta testmiljöer, utan även under reala, mycket dynamiska förhållanden där objekten kan vara okända, i rörelse och påverkas av yttre faktorer som gravitation eller elektromagnetiska störningar.

Hur kan vi uppnå exakt bildregistrering mellan olika modaliteter inom rymdteknik?

Inom rymdbildregistrering är en av de största utmaningarna att exakt identifiera och matcha motsvarande objekt mellan bilder tagna med olika sensorer, som SAR (syntetisk aperturradar) och optiska sensorer. Denna svårighet beror på de olika perspektiven och sensorernas specifika egenskaper, vilket leder till stora skillnader i upplösning, vinkel och skala mellan bilderna. För att hantera dessa skillnader har vi utvecklat en komplex nätverksarkitektur som effektivt kan övervinna dessa hinder genom en noggrant designad flertrådig metod.

Vår arkitektur består av två huvuddelar: en för bearbetning av SAR-bilder och en för optiska bilder. Varje del av nätverket innehåller fyra block, där varje block består av ett konvolutionslager, batchnormalisering, ReLU-aktivering och maxpooling. För att effektivt hantera de skillnader i upplösning som finns mellan bilder från olika sensorer, använder vi oss av maxpooling-lager som gradvis reducerar upplösningen för att fånga mer abstrakta representationer av bilderna. Den första konvolutionslagret använder sig av en stegstorlek på två för att minska de spatiala dimensionerna och framhäva de mest relevanta hög-nivå funktionerna.

För att bibehålla den rumsliga precision som är avgörande för att uppnå exakt registrering mellan bilder, har vi implementerat två uppsamplinglager i nätverksarkitekturen. Ett följer efter det fjärde konvolutionsblocket, och det andra är placerat precis innan den sista steg där vi genererar matchningsvärmekartor. Denna flerupplösningsstrategi balanserar behovet av att abstrahera funktioner och samtidigt bevara lokaliseringsnoggrannhet, vilket gör att vi kan identifiera korrespondens mellan bilderna även under svåra förhållanden.

En viktig innovation i vår metod är den kombinerade förlustfunktionen som styr träningen av nätverket. Denna funktion integrerar viktad tvärentropi och L2-förlust för att hantera det obalanserade problemet i matchningsvärmekartor, där de positiva matchningarna utgör en mycket liten andel av alla möjliga matchningar. Genom att använda denna specialiserade förlustfunktion får vi två fördelar: först leder den viktade tvärentropin optimeringen mot att hitta rätt korrespondens, och sedan förfinar L2-komponenten precisionen när träningen fortskrider.

För att förbättra nätverkets generalisering på olika upplösningsnivåer – en kritisk förmåga för överföring mellan plattformar inom rymdsystem – har vi implementerat en träningsstrategi som simulerar upplösningsvariationer genom kontrollerad nedprovning av källbilddata. Detta tillvägagångssätt, tillsammans med ytterligare dataaugmentering, som exempelvis slumpmässig spegling och rotation med 90 grader, gör att nätverket kan hantera geometriska variationer som ofta uppstår i rymdbilder.

En annan betydande utmaning i rymdteknikens bildregistrering är att hantera geometriska variationer mellan observationer, såsom skillnader i rotation och skala. För att lösa detta problem har vi introducerat ett specialiserat rotations- och skalinvariant transformationsmodul som möjliggör robust funktionmatchning trots geometriska skillnader. I träningen simulerar vi flera rotationer och skalor av funktionerna längs både rotations- och skala-dimensionerna. Detta gör det möjligt för vårt system att hantera olika geometriska transformationer, vilket är avgörande för att korrekt matcha bilder tagna från olika vinklar och avstånd.

För att ytterligare förbättra denna process har vi utvecklat en tvåstegs anpassningsstrategi för att överföra kunskap från en märkta källdomän (t.ex. SAR-bilder) till en omärkt måldomän (t.ex. optiska bilder). Denna strategi tar hänsyn till domänskillnader genom att först träna en modell på källdata och sedan använda en domänavbildande funktion för att transformera måldomänsprover så att de stämmer överens med källa. Genom denna metod lyckas vi minska domängapet och samtidigt bibehålla relevanta korrespondensrelationer.

I denna process fokuserar vi på att identifiera och använda kausala funktioner, som är oberoende av specifika förvärvsvillkor, för att förbättra överföringen av kunskap mellan domäner. Kausal inferens tillåter oss att selektera de mest relevanta funktionerna som bäst kan överföras mellan olika modaliteter och plattformar, vilket avsevärt förbättrar resultatens noggrannhet.

Det är viktigt att förstå att den här typen av bildregistrering inte bara handlar om att förbättra tekniska metoder för att hantera geometriska och upplösningsmässiga variationer. Det handlar också om att hitta lösningar för de praktiska problem som uppstår från olika sensorers karaktäristiska skillnader. Genom att använda avancerade tekniker som rotations- och skalinvariant transformation, samt självständig lärande genom kausal inferens, gör vi det möjligt att förbättra precisionen och tillförlitligheten hos bildregistreringssystem i komplexa och varierande miljöer.