I moderne romfartsinfrastruktur er det en økende utfordring å oppnå nøyaktig deteksjon av lekkasjer i store punktmolndata, spesielt når disse dataene er preget av klasseubalanse og varierende punktfordeling. En typisk situasjon i slike scenarier er at lekkasjer, som er et kritisk interesseområde, representerer bare en liten del av det totale punktmolekylet, ofte mindre enn 5 %. Denne skjevheten skaper problemer for standard maskinlæringsalgoritmer som er utviklet for å håndtere balanserte datasett, ettersom de har en tendens til å favorisere de dominerende klassene i stedet for de sjeldnere, men viktigere, lekkasjeprøvene.

Det er mange tilnærminger i litteraturen som har blitt foreslått for å håndtere denne type ubalanse. En populær metode er bruk av vektet tapfunksjoner, hvor vektene justeres for å tildele større betydning til de sjeldnere klassene. Yu et al. (2018) presenterte en spesialisert tapfunksjon for ubalansert data, som innarbeider modulering av faktorer for å fremheve vanskelige prøver. Yasuda et al. (2019) utviklet en vektet batch-normalisering ved å kombinere vektede tapfunksjoner med batch-normalisering for å redusere effekten av ubalanse i dataene. Andre forskere som Wang et al. (2019) og Zhang et al. (2020) introduserte variabel vekting i tapfunksjoner for å balansere klassefordelingen under trening, og oppnådde bedre ytelse i ubalanserte scenarioer. Denne tilnærmingen har hatt stor suksess innenfor mange domener, og den gir sterke indikasjoner på at vektede tap er en lovende metode for å adressere klasseubalanse i punktmoln.

I vårt arbeid har vi utviklet en spesialisert pixel-nivå vektet tverrsentropi tapfunksjon for lekkasjedeteksjon i romfartsinfrastruktur. Denne tilnærmingen adresserer de dobbelte utfordringene med både klasseubalanse og varierende punktfordeling ved å inkorporere både klassevekter og romlige vekter som er avledet fra punktdensitet. Det betyr at tapfunksjonen tilpasser seg både hvilke klasser som er underrepresentert, og hvordan punktene er distribuert i rommet, noe som resulterer i en mer effektiv og presis deteksjon av lekkasjer.

Et kritisk element i vår metodikk er projeksjonen av punktmolnene fra et tredimensjonalt (3D) rom til et todimensjonalt (2D) plan. Dette gjør det mulig å utnytte dyp læringsteknikker på en mer effektiv måte ved å redusere den beregningsmessige kompleksiteten samtidig som viktig geometrisk informasjon bevares. For å oppnå dette bruker vi et spesialisert projeksjonsalgoritme som konverterer ustrukturert 3D-data til et strukturert 2D-rutenett. Denne projeksjonen skjer ved hjelp av en sirkulær projeksjon, som først konverterer de spheriske koordinatene til kartesiske koordinater, deretter deler opp strukturen i tverrsnitt, og til slutt projiserer hvert punkt inn i et polar koordinatsystem. Ved å gjøre dette oppnår vi en 2D-representasjon der hver rad representerer et tverrsnitt av strukturen, og hver kolonne representerer en bestemt vinkel.

Denne 2D-representasjonen gir oss et klart bilde av romfartsinfrastrukturen, og det er her vi benytter en U-Net-basert segmenteringsarkitektur for å identifisere lekkasjeområder. U-Net er en konvolusjonsbasert modell som er spesielt godt egnet for segmentering på grunn av dens evne til å fange både kontekstuell informasjon og presis lokaliseringsnøyaktighet gjennom dens encoder-decoder struktur med hoppforbindelser. Modellen bruker en vektet tverrsentropi tapfunksjon som bidrar til å håndtere klasseubalanse og gir en nøyaktig klassifisering av lekkasjer selv i de sjeldnere klassene.

En viktig del av prosessen er hvordan vi håndterer høy oppløsning i projeksjonen. Mens høyere oppløsning kan fange flere detaljer, medfører det også høyere beregningsmessige krav. For å optimalisere ytelsen har vi identifisert de beste oppløsningsparametrene som gir en god balanse mellom detaljrikdom og beregningskompleksitet.

For å få nøyaktige og pålitelige resultater i deteksjonen av lekkasjer i romfartsinfrastruktur, er det derfor viktig å bruke et rammeverk som både tar hensyn til spesifikasjonene for datainnsamling og prosessering, samt de spesifikke utfordringene som oppstår når dataene er skjeve eller har lav kvalitet. Det er også avgjørende å bruke en tapfunksjon som kan håndtere disse utfordringene og forbedre nøyaktigheten til modellene.

I tillegg til å adressere disse tekniske aspektene, er det viktig å forstå den spesifikke konteksten av romfartsinfrastruktur og de utfordringene dette medfører. Romfartsanlegg kan være utsatt for ulike typer skader, fra lekkasjer til strukturelle problemer som kan være vanskelig å oppdage med tradisjonelle metoder. Derfor er det avgjørende å ha et robust system som ikke bare håndterer dataene effektivt, men også kan tilpasse seg forskjellige strukturelle forhold og typer skade. Dette gjør det mulig å oppnå bedre vedlikehold og forvalte infrastrukturen på en mer effektiv og kostnadseffektiv måte.

Hvordan kan vi bruke store visuelle modeller for å segmentere lekkasjer uten manuell merking?

I en verden der maskinlæring stadig vinner terreng, representerer fraværet av merkede treningsdata en sentral utfordring for segmentering i tredimensjonale punktskyer – spesielt i industrielle og romfartsrelaterte strukturer. Tradisjonelle metoder som DBSCAN er effektive i å gruppere datapunkter etter tetthet, men feiler ofte i å skille subtile forskjeller mellom for eksempel lekkasje og strukturelle komponenter, hvor geometrien kan være nærmest identisk, men overflateegenskaper og kontekstuelle forhold skiller seg vesentlig.

Fremskritt innen selvovervåket læring har åpnet for mer nyanserte tilnærminger. Et nøkkelfunn er hvordan nevrale nettverk i de tidlige fasene lærer generaliserbare trekk før de overtilpasser seg treningsdataene. Ved å fange modeller i denne tidlige fasen, som Liu et al. viser, kan man generere pseudomerkinger av høyere kvalitet, egnet for iterativ forbedring. På lignende måte introduserer Zhang et al. GrowSP – et rammeverk for semantisk segmentering som benytter graf-nevrale nettverk til å vokse stabile punktsky-patcher inn i semantiske regioner.

Et særlig lovende spor peker mot bruken av store, forhåndstrente visuelle modeller. Disse modellene, trent på enorme datasett, inneholder grunnleggende visuelle konsepter som lar seg overføre til nye og mer spesialiserte domener, som lekkasjedeteksjon. For eksempel demonstrerer SAM-modellen (Segment Anything Model) evne til nullskudds-generalisering: uten å ha sett kategorien tidligere, kan modellen segmentere objekter basert på enkle signaler som punkter, bokser, grove masker eller tekstlige beskrivelser. Dette skjer ved hjelp av en bildeenkoder, en prompt-enkoder og en maskedekoder, som sammen tillater adaptiv og målrettet segmentering – også i fravær av eksplisitte treningsdata.

Overføringen av slike modeller fra deres opprinnelige domene (2D RGB-bilder) til ustrukturert 3D-data, som punktskyer fra laserskanning, krever imidlertid en mellomliggende transformasjon. Her introduseres en metodikk basert på elliptisk projeksjon, spesielt utviklet for å representere sylindriske og buede komponenter i romfartsinfrastruktur på en strukturert måte.

Denne projeksjonen foregår ved å dele hele punktskyen inn i tverrsnitt av lik tykkelse, langs hovedaksen til infrastrukturen. For hvert snitt estimeres et sentralt punkt ved hjelp av ellipsefitting, som bedre fanger varierende geometrier enn sirkelbaserte metoder. Deretter transformeres hvert tredimensjonalt punkt til et todimensjonalt bilde ved å beregne avstand og vinkel i forhold til dette sentrum. Dette "utruller" strukturen slik at høyden i bildet representerer posisjonen langs hovedaksen, mens bredden representerer vinkelen rundt den sentrale aksen.

Når denne projeksjonen er gjort, kan SAM benyttes direkte på det genererte bildet. Modellens bildeenkoder trekker ut visuelle trekk, mens punktbaserte prompts genereres jevnt over bildet og mates inn i prompt-enkoderen. Maskedekoderen kombinerer disse for å produsere segmenteringsmasker via oppmerksomhetsmekanismer. Likevel, selv om SAM effektivt identifiserer distinkte regioner, kategoriserer den dem ikke automatisk semantisk. For å møte dette benyttes et system for supervoksel-basert segmentering og flervisnings-korreksjon, hvor flere prosjekteringer av den samme strukturen samkjøres for å forbedre og validere merkingene.

I denne konteksten kan SAM og lignende modeller ses som adaptive instrumenter for strukturell forståelse, hvor generalisert visuell kunnskap blir anvendt på et domene hvor dataene i utgangspunktet er inkompatible. Den underliggende erkjennelsen er at store visuelle modeller, når de kombineres med smarte transformasjons- og korreksjonsstrategier, kan fungere som bindeledd mellom ustrukturert romlig data og strukturerte visuelle innsikter – uten behov for kostbare, manuelle merkinger.

Det er avgjørende å forstå at nøyaktigheten og nytten av denne metoden er sterkt avhengig av kvaliteten på projeksjonen og dekningen av de genererte promptene. Dersom visse strukturer ikke blir tilstrekkelig representert i 2D-bildet, vil modellens respons også være mangelfull. Det er derfor viktig med en flersidig projeksjonsstrategi som dekker strukturen fra ulike vinkler og dybder.

En annen viktig faktor er semantisk konsistens. Uten eksplisitte klasser i treningsdataene, må det etableres robuste regler for hvordan forskjellige visuelle regioner grupperes og tolkes. Dette kan oppnås gjennom etterprosessering med grafbaserte metoder, eller ved å inkludere domenekunnskap som styrer klassifiseringen av regionene etter deres plassering, form og sammenheng i den totale strukturen.

Til slutt er det nødvendig å se denne metoden ikke bare som et teknisk grep, men som et paradigmeskifte: fra datadrevet trening til modell- og kunnskapsdrevet tilpasning. Dette gir rom for nye bruksområder hvor tradisjonelle datasett ikke finnes, og hvor forståelsen av rom, form og kontekst er avgjørende.

Hvordan Optimalisere Segmentering i Uovervåket Deteksjon av Lekkasjer i Punkt-skydata

For eksperimentell evaluering ble datasettet delt inn i treningssett (80%) og testsett (20%), hvor testdelen kun ble brukt til å vurdere ytelsen. På grunn av en betydelig ubalanse i klassene i rådataene, hvor strukturelle segmenter utgjorde langt flere datapunkter enn de andre klassene, ble isotermisk nedprøving brukt for å redusere antall segmentklassens punkter med en faktor på 0,1. Dette bidro til en mer balansert distribusjon som er nødvendig for evalueringen. Alle eksperimenter ble utført ved bruk av PyTorch, et rammeverk for dyp læring, på et system med en i7-7500U CPU (16GB RAM) og en GeForce RTX 3090 GPU (24GB RAM). Modellene ble trent med Adam-optimalisatoren og en læringsrate på 1×10^−4.

Modellens effektivitet er sterkt avhengig av parametrene som styrer transformasjonen fra 3D-punkter til 2D-bilder. Tabell 5.9 presenterer segmenteringsresultater med forskjellige kombinasjoner av SAM-instansens størrelse (S1) og inngangsbilde-bredde (H1). Parameteren S1 bestemmer hvilke detekterte instanser som skal inkluderes i segmenteringen, og større instanser enn S1 ignoreres. H1 definerer bredden på inngangsbilde som tilbys til SAM, og påvirker oppløsningen og detaljnivået i segmenteringen. Etter en grundig evaluering ble konfigurasjonen med S1 = 1500 og H1 = 320 valgt, da denne oppnådde en optimal balanse mellom IOU (0,608), Recall (0,745), Precision (0,768) og F1-score (0,756).

De valgte parameterne viser at S1 har større påvirkning på segmenteringens ytelse enn H1, noe som indikerer at valget av instansstørrelse er mer kritisk enn oppløsning for effektiv deteksjon av lekkasjer. Dette stemmer overens med de fysiske egenskapene til lekkasjer, som vanligvis manifesterer seg i områder av bestemte størrelsesområder innenfor luftfartsinfrastruktur.

Analyse av feilklassifiseringer viser at de fleste feil skjer mellom lekkasje- og strukturelle segmentklasser, som deler visuelle egenskaper i visse områder. De røde stiplete boksene fremhever områder hvor segmenteringsalgoritmen med suksess skiller lekkasjer fra bakgrunnselementene, til tross for deres visuelle likhet for menneskelige observatører. Dette viser metodens effektivitet i å identifisere subtile mønstre som kan unnslippe manuell inspeksjon.

For å sette vår tilnærming i kontekst, ble ytelsen sammenlignet med moderne uovervåkede metoder for punkt-sky-segmentering. Tabell 5.10 presenterer omfattende resultater for forskjellige metoder på tvers av alle syv klasser, mens Figur 5.14 viser presisjon-recall-kurver for lekkasjedeteksjon. Vår foreslåtte tilnærming oppnådde de høyeste F1-scorene for de fleste klassene, med spesielt bemerkelsesverdig ytelse for lekkasjedeteksjon (F1 = 0,769) sammenlignet med alternative metoder. Den nest beste metoden for lekkasjedeteksjon, Brich, oppnår en F1-score på 0,674, noe som bekrefter den betydelige fordelen ved vår integrerte projeksjons- og visjonsmodelltilnærming. Sammenlignet med GrowSP, som har sterke resultater for rørsegmentering (F1 = 0,986), men sliter med lekkasjedeteksjon (F1 = 0,309), fremheves de unike utfordringene med å identifisere lekkasjeområder i punkt-sky-data.

Presisjon-recall-kurvene i Figur 5.14 illustrerer disse forskjellene ytterligere, der vår tilnærming opprettholder høyere presisjon på alle recall-nivåer for lekkasjedeteksjon. Denne ytelsesfordelen stammer fra den spesialiserte projeksjonsteknikken som fremhever subtile lekkasjeegenskaper og den adaptive etikettkorrigeringen som finjusterer segmenteringsgrensene.

Vår uovervåkede tilnærming ble også sammenlignet med overvåkede metoder for punkt-sky-segmentering. Tabell 5.11 viser segmenteringsresultatene for lekkasjer med forskjellige overvåkede metoder, samt vår uovervåkede tilnærming. Merk at vår tilnærming, til tross for at den ikke benytter merkede treningsdata, oppnår konkurransedyktige resultater sammenlignet med de overvåkede metodene. F1-score på 0,769 nærmer seg den beste overvåkede metoden, UnrollingNetv2 (F1 = 0,824), og overgår flere andre overvåkede teknikker. IOU-poengsummen for vår metode (0,616) er høyere enn tre av de overvåkede metodene (PCT, DGCNN og PointMLP), mens presisjon (0,783) er bedre enn de fleste overvåkede metodene, unntatt PointNet2. Denne konkurransedyktige ytelsen demonstrerer effektiviteten til vårt uovervåkede rammeverk for scenarier der det å skaffe merkede treningsdata er både kostbart og logistisk utfordrende.

I studien som undersøker bidragene fra de ulike komponentene i vår rammeverk, ble en ablasjonsstudie gjennomført. Dette studiet inkluderte progressive moduler for å forstå hvordan hver enkelt del bidrar til den samlede ytelsen. På denne måten kan man forstå hvordan integreringen av disse komponentene forbedrer evnen til å oppdage lekkasjer i punkt-sky-data.

Vår tilnærming har derfor flere praktiske fordeler, spesielt når det gjelder overvåking av luftfartsinfrastruktur. Ved å eliminere behovet for omfattende manuell merking, tilbyr metoden en fleksibilitet som er essensiell når lekkasjeforholdene varierer betydelig mellom fasiliteter og miljøforhold.