De prestaties van ongecontroleerd matching van synthetische aperture radar (SAR) en optische beelden kunnen aanzienlijk worden verbeterd door nieuwe benaderingen, zoals het gebruik van rotatie- en schaal-invariante transformaties en zelflerende processen op basis van causale inferentie. De belangrijkste uitdaging bij de detectie van objecten in verschillende domeinen, zoals op planeten, is het overbruggen van de domeinspecifieke verschillen tussen de trainings- en doelgegevens. Het gebruik van zelflerende modellen en domeinrandomisatie is daarom een veelbelovende aanpak voor de detectie van kraters op verschillende planeten, waarbij het gebruik van minimale annotaties en gegevens uit verschillende domeinen mogelijk is.

Zelflerende modellen, die vaak pseudo-labels gebruiken om objecten te identificeren, kunnen goede resultaten opleveren bij het afstemmen van modellen op doelgegevens. Echter, zoals opgemerkt door Munir et al. en Wang et al., kunnen dergelijke modellen beperkt worden door een gebrek aan voldoende doeldata. In gevallen waarin de doeldata veel beperkter zijn dan de brondata, zoals vaak het geval is bij datasets van planeten, kan de prestatie van ongecontroleerde modellen significant afnemen. Dit probleem wordt geadresseerd door domeinrandomisatie, die een alternatieve benadering biedt door meerdere synthetische variaties van de brondata te creëren, die een breed scala aan mogelijke verschijningen bestrijken.

Domeinrandomisatie maakt gebruik van synthetische variaties van bronbeelddata om het model in staat te stellen domein-invariante kenmerken te leren, ondanks variaties in bijvoorbeeld verlichting, texturen en andere beeldaspecten. Dit vermindert het effect van domeinspecifieke afwijkingen en maakt het mogelijk om een model te trainen dat de doeldata als een variatie binnen de reeds geleerde distributie ziet. Huang et al. gebruikten bijvoorbeeld een benadering waarbij beelden in frequentieruimte werden gerandomiseerd, waarbij domeinspecifieke kenmerken werden verstoord, terwijl domein-invariante kenmerken behouden bleven. Dit zorgde voor een betere generalisatie van de detector.

De toepassing van domeinrandomisatie bij de detectie van kraters heeft specifieke voordelen, aangezien de stijlen van verschillende kraterdatasets vaak vergelijkbaar zijn, terwijl de vormen en projecties van kraters sterk kunnen variëren. In plaats van de gebruikelijke stijltransformatie-methoden, zoals toegepast in andere domeinrandomisatie-modellen, kunnen de verschijnselen van kraters variëren afhankelijk van de observatiehoek en de geometrie van de planeet. Daarom is het noodzakelijk om een gewijzigde benadering voor ongecontroleerd leren te ontwikkelen die domeinrandomisatie combineert met causale inferentie-gebaseerde functie-matching en histogrammatching.

Een voorbeeld van een geavanceerde benadering in dit opzicht is CraterNet, een nieuw systeem voor de detectie van kraters op verschillende planeten, dat gebruikmaakt van een ongecontroleerd leermodel met minimale annotaties. CraterNet combineert verschillende technologieën, zoals de VariFocal Net (VFNet) detectiearchitectuur, met domeinrandomisatie en histogrammatching om nauwkeurige kraterlokalisatie te bereiken, zelfs met beperkte doelgegevens. De toevoeging van een “square loss”-functie bij de VFNet maakt het mogelijk om beter kraters van verschillende groottes te detecteren, door afwijkingen van de vierkante vorm te verminderen, wat de nauwkeurigheid van de detectie van cirkelvormige kraters aanzienlijk verbetert.

Bij deze benadering wordt de domeinaanpassing verder versterkt door gebruik te maken van een causal inference-gebaseerde functie-matching (CIFM), die niet alleen de geometrische aanpassingen in beelden optimaliseert, maar ook de beeldkenmerken van verschillende domeinen aanpast om de kloof tussen bron- en doeldomeinen te verkleinen. Het histogrammatching is daarbij van cruciaal belang om de verschillen in pixelintensiteiten tussen de bron- en doeldomeinen te minimaliseren, zodat het model beter in staat is om consistent te generaliseren naar nieuwe, ongeziene planeten.

Bij het uitvoeren van deze domeinrandomisatie en causal inference-gebaseerde aanpassingen wordt het leerproces gestimuleerd door een reeks transformaties, zoals homografieën en gamma-aanpassingen, die de invloed van projectievariaties en verlichtingseffecten verminderen. Dit maakt de techniek bijzonder geschikt voor toepassingen zoals de detectie van kraters op verschillende planeten, waar de data vaak afkomstig zijn uit verschillende bronnen met verschillende visuele kenmerken.

Het is belangrijk op te merken dat, hoewel de technieken van domeinrandomisatie en CIFM effectief zijn in het verbeteren van de prestaties bij het detecteren van kraters op verschillende planeten, de uiteindelijke effectiviteit sterk afhankelijk is van de diversiteit van de trainingsdata. In gevallen waarin de trainingsdata beperkt zijn, kan het gebruik van eenvoudige, maar krachtige benaderingen zoals Gaussiaanse ruisverstoringen tijdens de leercyclus helpen om het model robuuster te maken en betere prestaties te behalen bij het detecteren van objecten met minimale annotaties. Het combineren van deze benaderingen met diepgaande netwerken zoals VFNet biedt een solide basis voor het ontwikkelen van geavanceerde detectiesystemen die efficiënt kunnen werken in uiteenlopende domeinen, zoals de detectie van kraters op planeten.

Hoe Non-coöperatieve Ruimtetarget Positiemeting Wordt Behaald: Integratie van Computervisie en Fysieke Modellering

De uitdaging van het bepalen van de positie van niet-coöperatieve ruimtetuigen is een complex probleem in de ruimtevaarttechnologie. Het vergt een gedegen aanpak die geavanceerde technieken in computervisie combineert met fysisch modelleren om nauwkeurige en real-time positiebepalingen te bereiken, ongeacht de operationele omstandigheden. Dit probleem kan verder worden opgevat als de noodzaak om de ruimte-objecten te herkennen en te volgen, ondanks dat deze objecten zich niet actief identificeren of communiceren met de meetsystemen.

Er zijn twee hoofdrichtingen in onderzoek naar de positiebepaling van niet-coöperatieve ruimteobjecten, afhankelijk van de beschikbaarheid van vooraf gedefinieerde 3D-modellen. Deze richtingen zijn onder te verdelen in CAD-kennemethoden en modelvrije benaderingen.

De eerste benadering maakt gebruik van gedetailleerde CAD-gegevens van een object om de positie en oriëntatie van het ruimteobject te bepalen. Deze methode heeft aanzienlijke vooruitgangen geboekt, vooral dankzij de integratie van deep learning-technologieën. Een van de vroege doorbraken op dit gebied werd geleverd door Tae et al., die een CNN-gebaseerde architectuur ontwikkelden om objectkenmerken uit een enkele afbeelding te extraheren, waarna een PnP-model (Perspective-n-Point) werd toegepast om de relatieve pose te berekenen. Dit model vertoonde verbeterde robuustheid bij variaties in verlichting ten opzichte van puur geometrische benaderingen.

De toepassing van dergelijke technieken werd verder geoptimaliseerd door Huo et al., die een nieuw soort neuraal netwerk ontwikkelden, waarin niet alleen het object werd gedetecteerd, maar ook de 2D-locaties van de geprojecteerde sleutelpunten werden afgeleid uit gereconstrueerde 3D-gegevens. Deze aanpak maakte het mogelijk om de pose van het object efficiënt te berekenen met behulp van 2D-3D correspondenties, wat vooral belangrijk is voor verwerkingssystemen met beperkte bronnen, zoals die aan boord van satellieten.

Echter, de methoden die afhankelijk zijn van CAD-gegevens van objecten kunnen niet altijd praktisch worden toegepast in gevallen waarin de geometrie van de objecten onbekend of slechts gedeeltelijk bekend is. Dit creëert een dringende behoefte aan alternatieve benaderingen.

In de modelvrije benaderingen wordt geprobeerd de ruimteobjecten zelf te reconstrueren om een 3D-model te creëren, om vervolgens de pose te schatten. Verschillende algoritmen zijn ontwikkeld die deze reconstructie integreren met verschillende benaderingen voor het verbeteren van de nauwkeurigheid van posebepaling. Lei et al. ontwikkelden een framework waarin drie gespecialiseerde takken van een neuraal netwerk samenwerken om de satellietpositie te schatten, keyframes te extraheren en een lokale 3D-kaart op te bouwen. Dit proces, geïnspireerd door Simultane Lokalisatie en Mapping (SLAM), heeft veelbelovende resultaten opgeleverd voor objecten met consistente visuele kenmerken.

De aanpak van Lei et al. werd verder verbeterd door de integratie van kalman-filters door Li et al., die in staat waren om gegevens van verschillende sensoren te combineren voor robuustere positiebepaling. Recente innovaties, zoals die van Hai et al., hebben nieuwe manieren gecreëerd om objecten te volgen, zelfs wanneer ze weinig textuur hebben, door geometrische consistentie tussen frames te benutten.

Desondanks blijft de toepassing van modelvrije methoden voor de ruimtevaart een uitdaging, voornamelijk vanwege de complexiteit van de ruimteomstandigheden. De methoden hebben moeite met grote hoekveranderingen, waarbij zowel de waarnemer als het doelobject tegelijkertijd hun oriëntatie wijzigen, een veelvoorkomend scenario in de ruimte. Verder is de visuele informatie in ruimteomstandigheden vaak beperkt, wat het gebruik van technieken zoals dichtheidspunten of bundeloptimalisatie bemoeilijkt.

Bovendien kunnen grote variaties in de lichtomstandigheden de nauwkeurigheid van zowel CAD-kennemethoden als modelvrije benaderingen ernstig beïnvloeden. De overgangen tussen licht en schaduw, die vaak optreden bij het wijzigen van de baan van een object, kunnen de detectie van objectkenmerken bemoeilijken. Daarom wordt de noodzaak om robuuste methoden te ontwikkelen die bestand zijn tegen deze extreme omgevingsomstandigheden steeds duidelijker.

Het integreren van meerdere bronnen van informatie, zoals LIDAR- en andere sensorgegevens, kan de robuustheid van de positiebepaling aanzienlijk verbeteren, vooral in omstandigheden met weinig licht. LIDAR biedt directe dieptemetingen die camera-gebaseerde methoden aanvult en nuttig is in scenario's waarin visuele gegevens niet voldoende zijn.

De ontwikkeling van effectieve pose-estimatie frameworks vereist ook een zorgvuldige afstemming van de verschillende componenten van het systeem, zoals objectdetectie, sleutelpunt-extractie en geometrische oplossers, die allemaal samenwerken om de uiteindelijke posebepaling te verfijnen. Dit is van cruciaal belang voor systemen die in real-time moeten functioneren, zoals die aan boord van ruimtevaartuigen of satellieten met beperkte verwerkingscapaciteit.

In dit verband is het essentieel te begrijpen dat, hoewel er aanzienlijke vooruitgangen zijn geboekt, de realiteit van de ruimteomgeving specifieke vereisten stelt voor nauwkeurigheid en betrouwbaarheid. De inherente variabiliteit van de omstandigheden, waaronder snel veranderende rotatiesnelheden, onvoorspelbare verlichting en onbekende objectgeometrieën, vraagt om een geïntegreerde benadering die niet alleen afhankelijk is van visuele gegevens, maar ook gebruik maakt van alternatieve sensortechnologieën en geavanceerde optimalisatietechnieken.

Hoe kan een multi-channel matching netwerk de precisie van pose-estimatie in de ruimte verbeteren?

In de context van het schatten van de pose van niet-coöpererende ruimteobjecten, vormt de precisie van de pose-estimatie een cruciaal aspect van de robuustheid van tracking-algoritmen. Het probleem van het volgen van de 6D-pose van objecten zonder vooraf gedefinieerde 3D-modellen of categorieën wordt steeds relevanter, vooral in situaties waarin ruimteobjecten geen duidelijke geometrische referentie bieden. Een belangrijke stap in het proces is het vastleggen van de relatieve transformatie van een object over de tijd, wat wordt aangeduid als de tracking van de 6D-pose.

De aanpak die hier wordt gepresenteerd maakt gebruik van een multi-channel matching netwerk met een triple-loss functie, waarmee nauwkeurige keypoint-paren in het referentiesysteem van het lichaam kunnen worden verkregen. Nadat de keypoints zijn gematcht, wordt de roterende matrix van het object afgeleid met behulp van een gespecialiseerd mismatch-verwijderingsmechanisme, wat de nauwkeurigheid van de matching verder verbetert. Dit proces wordt vervolgens geoptimaliseerd door middel van pose-grafen, waarbij een dynamische keyframe-pool de cumulatieve fouten in de langetermijn-pose-estimatie minimaliseert.

Voor de initiële pose-estimatie van een ruimteobject, zonder specifieke 3D-modellen, vereist het algoritme drie belangrijke invoergegevens: de RGB-D beeldgegevens, een segmentatiemasker en de initiële pose van het object in het coördinatensysteem van de camera. Het segmentatiemodel, gebaseerd op de SegFormer-architectuur, wordt getraind om doelobjecten binnen het beeld te detecteren, ongeacht hun vorm, door verschillende componenten van het object te segmenteren, zoals hoofdmassa's, zonnepanelen en andere structuren. Dit model is met name effectief in het detecteren van objecten die in variërende lichtomstandigheden of beschadigde vormen verschijnen, wat essentieel is voor ruimteoperaties zoals herstel- en capture-missies.

Nadat het segmentatiemasker is verkregen, kan de initiële pose van het object in het coördinatensysteem van de camera worden bepaald. Hierbij kan men kiezen voor een eenvoudige benadering met een identiteitsmatrix als initiële pose, of men kan een meer geavanceerd model gebruiken, gebaseerd op hiërarchische vormen, die de structuren van niet-coöpererende objecten nabootst. Door deze vooraf gedefinieerde vormen te matchen met het segmentatiemasker kan de optimale pose worden bepaald, waarbij gebruik wordt gemaakt van een probabilistische benadering die rekening houdt met structurele eigenschappen en projectiematching.

De sleutel tot de precisie van dit proces ligt in de extractie van sleutelpunten. Door het gebruik van een CNN-gebaseerde descriptor voor sleutelpunten, geïnspireerd op SuperPoint, worden lokale kenmerken uit de beelden van ruimteobjecten gehaald. Dit netwerk maakt gebruik van een gedeelde backbone en meerdere hoofden om zowel de detectie van sleutelpunten als het genereren van beschrijvingen te combineren. Door middel van homografische matching wordt de detector in een zelfgestuurde manier getraind, waarbij verschillende vervormde versies van dezelfde afbeelding worden gebruikt om de sleutelpunten accuraat te lokaliseren.

Een specifiek kenmerk van dit systeem is de integratie van een subpixel-verfijningsmodule. Deze verfijnt de oorspronkelijke sleutelpunten door middel van een gedifferentieerde Softargmax-aanpak, waarmee nauwkeurige coördinaten van sleutelpunten kunnen worden bepaald, zelfs voor kleine of verre objecten. Dit zorgt ervoor dat de locatiebepaling van sleutelpunten op een veel gedetailleerder niveau kan plaatsvinden, wat essentieel is voor betrouwbare pose-estimatie.

Wanneer het gaat om het matchen van sleutelpunten over opeenvolgende beelden, is het essentieel om robuuste correspondenties te vinden, vooral voor snel draaiende ruimteobjecten. Dit wordt bereikt door gebruik te maken van een zelfaandacht-multi-dimensionaal matchingmodel dat zowel RGB- als diepte-informatie combineert. Door dit probleem om te zetten in een optimalisatieprobleem, kan het systeem nauwkeurige overeenkomsten vinden tussen sleutelpunten in verschillende frames, wat de algehele nauwkeurigheid van de pose-estimatie verder verhoogt.

Wat belangrijk is om te begrijpen, is dat de precisie van de pose-estimatie afhankelijk is van de kwaliteit van de segmentatie en de keypoint-extractie. In praktijksituaties, zoals ruimteonderhoud of objectcaptatie, kan het object fysiek beschadigd zijn of onder invloed staan van veranderende lichtomstandigheden, wat de effectiviteit van conventionele methoden in gevaar kan brengen. De voorgestelde benaderingen, zoals de segmentatie via SegFormer en de subpixel-refinement techniek, zorgen ervoor dat de tracking robuust blijft, zelfs onder minder ideale omstandigheden. Dit maakt de benadering niet alleen geschikt voor simulaties, maar ook voor realistische ruimteoperaties waarbij de objecten onverwachte vormen of schade vertonen.

Hoe ongesuperviseerde domeinaanpassing tussen verschillende modaliteiten de registratie van lucht- en ruimtevaartbeelden verbetert

Bij het ontwikkelen van methoden voor domeinaanpassing in ongesuperviseerde settings speelt de uitdaging van cross-modale en cross-platform registratie een cruciale rol in de lucht- en ruimtevaarttechnologie. Het verschil in visuele kenmerken tussen verschillende beeldmodaliteiten, zoals Synthetic Aperture Radar (SAR) en optische beelden, maakt het moeilijk om betrouwbare overeenkomsten te vinden, vooral als deze beelden afkomstig zijn van verschillende platforms, zoals RadarSat/Planet en Sentinel-1/2. Dit probleem wordt nog gecompliceerd door het feit dat ongesuperviseerde methoden geen handmatige annotaties vereisen voor het doelgebied, wat de mogelijkheden voor praktische toepassingen vergroot.

De voorgestelde aanpak is gebaseerd op een innovatieve architectuur die specifiek is ontworpen voor cross-modale domeinen. In tegenstelling tot traditionele, op rotatie- of schaalinvariantie gerichte methoden, zoals e2cnn en RotEqNet, die mathematisch rigide zijn in hun benadering, richt onze methode zich op het leren van transformatie-invariante representaties direct uit de data. Dit maakt de aanpak robuuster tegen de grote visuele variaties tussen SAR- en optische beelden, die de basisassumpties van de traditionele methoden schenden. Onze aanpak heeft bewezen aanzienlijk beter te presteren bij verschillende rotatiehoeken en schaalfactoren, wat blijkt uit de prestatieverschillen die in de tabellen van ons onderzoek zijn gepresenteerd.

Bijvoorbeeld, zelfs bij grote rotatiehoeken van 15 graden blijft de gemiddelde L2-fout van onze methode slechts 1,442 pixels, wat ver onder de 16,426 pixels ligt die worden behaald door e2cnn en de 19,224 pixels van RotEqNet. Dit benadrukt het voordeel van onze specifieke aanpak die is afgestemd op de unieke uitdagingen van het uitlijnen van heterogene sensormodaliteiten in lucht- en ruimtevaartbeelden.

De aanpak voor ongesuperviseerde domeinaanpassing werd verder verfijnd door het toevoegen van verschillende mechanismen die elk een specifiek aspect van het domeingat tussen het bron- en doelgebied aanpakken. Zonder enige aanpassing behaalt de directe toepassing van het model op doeldomeindata een bescheiden nauwkeurigheid van 66,3%, met een gemiddelde L2-fout van 9,576 pixels. Dit toont al de aanzienlijke domeinverschillen aan, maar de prestaties blijven onvoldoende voor veel precieze lucht- en ruimtevaarttoepassingen.

De toevoeging van verschillende aanpassingscomponenten heeft het model in staat gesteld om deze kloof effectief te verkleinen. Zelfleren, histogrammatching, data-augmentatie, postprocessing en multi-resolutie fusie dragen allemaal op hun eigen manier bij aan een gestage verbetering van de prestaties. Het zelfleringsmechanisme vermindert bijvoorbeeld de gemiddelde L2-fout van 9,576 naar 8,040 pixels door gebruik te maken van pseudo-labels om het model verder te verfijnen op de doeldomeindata. Histogrammatching richt zich op het verminderen van radiometrische verschillen door de verschijningsstatistieken tussen domeinen af te stemmen, wat resulteert in een verbetering van de fout tot 6,430 pixels. Data-augmentatie en postprocessing vergroten de robuustheid tegen variaties in het beeld, wat de nauwkeurigheid verder verbetert.

De meest dramatische verbetering werd behaald door multi-resolutie fusie, die de resolutieverschillen tussen bron- en doeldomeinen effectief aanpakt. Deze aanpak resulteerde in een subpixel-nauwkeurigheid van 90,6% en een gemiddelde L2-fout van slechts 0,658 pixels. Dit is een significante verbetering, aangezien het model, ondanks het ontbreken van annotaties voor het doelgebied, nu vergelijkbare prestaties levert als een model dat op gesuperviseerde wijze is getraind.

Onze aanpak werd vergeleken met verschillende andere ongesuperviseerde registratiebenaderingen, waaronder traditionele feature-gebaseerde benaderingen (zoals BRISK, SURF en fasecorrelatie), algemene domeinaanpassingstechnieken (zoals ADDA, DA, en MMD), en cross-modale benaderingen zoals Pseudo-Siamese netwerken. De visuele en kwantitatieve vergelijking benadrukt het substantieel betere resultaat van onze methode, die alle andere alternatieven overtreft in termen van nauwkeurigheid en precisie. De traditionele benaderingen kunnen de grote visuele verschillen tussen SAR- en optische beelden niet goed aan, en zelfs general-purpose domeinaanpassingstechnieken bieden slechts gematigde prestaties. Pseudo-Siamese netwerken, specifiek ontworpen voor cross-modale data, presteren ook onvoldoende, vooral als zowel de cross-modale als de cross-platform aanpassingen moeten worden aangepakt.

Dit onderzoek toont aan dat het ontwikkelen van een op data-gebaseerde benadering, die de specifieke uitdagingen van verschillende beeldmodaliteiten en platforms erkent, een krachtig alternatief biedt voor traditionele methoden die afhankelijk zijn van vooraf bepaalde aannames. De ongesuperviseerde domeinaanpassingstechnieken die in dit werk zijn geïntroduceerd, dragen bij aan een aanzienlijke verbetering van de prestaties bij het registreren van lucht- en ruimtevaartbeelden, zonder dat handmatige annotaties nodig zijn. Deze vooruitgang opent nieuwe mogelijkheden voor het gebruik van ongesuperviseerde technieken in de lucht- en ruimtevaartindustrie, waar handmatige annotaties kostbaar en tijdrovend zijn.

De resultaten die zijn gepresenteerd, illustreren niet alleen de effectiviteit van de voorgestelde methoden, maar ook het belang van het begrijpen van de uitdagingen die inherent zijn aan cross-modale en cross-platform domeinen. Het succes van dergelijke methoden hangt niet alleen af van de keuze van het algoritme, maar ook van het vermogen om diverse data te begrijpen en te integreren op een manier die de specifieke beperkingen van elk systeem overwint. Het ontwikkelen van robuuste en flexibele modellen die effectief kunnen omgaan met deze variaties is essentieel voor toekomstige toepassingen in de ruimtevaart en andere gerelateerde domeinen.