Den foreslåtte metoden, Spatial-Spectral Graph Contrastive with Hard Sample Mining (SSGCC), viser seg å være et effektivt verktøy for hyperspektral bildeklustering, spesielt når det gjelder å forbedre nøyaktigheten og diskrimineringskapasiteten. Denne metoden er bygget på et dypt læringsrammeverk som kombinerer to hovedkomponenter: (i) valg av superpikselbaserte ankerpunkter sammen med grafautoencoder (GAE) for funksjonsekstraksjon, og (ii) en konsistenslæringsmekanisme som øker semantikken til noder ved å justere likhetsstrukturer både i det romlige og spektrale domenet.

Resultatene fra eksperimentene indikerer at de ulike modulene i modellen spiller en vesentlig rolle. Når clustering-konsistens-tapet og kontrastivt tap blir fjernet, opplever man betydelige reduksjoner i modellens nøyaktighet på tvers av de testede datasettene, noe som understreker viktigheten av hver komponent i netværkets arkitektur. For eksempel, når tapene er fraværende, reduseres nøyaktigheten med opptil 8.24 % på ett datasett, noe som demonstrerer at disse tapene er avgjørende for modellens ytelse.

Videre er betydningen av augmenteringsstrategier også tydelig. Tradisjonelle metoder som funksjonsmaskering, støying og kantmodifikasjon har vist seg å introdusere semantisk støy og forvrengning av funksjonene. SSGCC, derimot, bruker en mer robust tilnærming ved å konstruere dobbelte visninger gjennom ekstraksjon av romlige og spektrale funksjoner. Dette minimerer støyen som kan komme fra de mer konvensjonelle tilnærmingene og forbedrer dermed modellens nøyaktighet.

Når det gjelder kontrastiv læring, demonstrerer SSGCC en økning i ytelsen sammenlignet med grunnleggende kontrastiv læring. Metoden benytter hard prøvemining, som gir en dynamisk justering av vektene for prøvene. Denne tilnærmingen har ført til en økning i nøyaktigheten på tvers av alle datasettene, og viser at hard prøvemining kan være en effektiv teknikk for å forbedre modellens diskrimineringskapasitet.

Eksperimentene videre belyser innvirkningen av ulike hyperparametre på modellen. For eksempel, ved å justere hyperparameterne ww og MM, som styrer det romlige omfanget og antallet superpikseler, har modellen vist seg å være sensitiv overfor datasettene, spesielt de med lavere homogenitet. Å inkorporere nabolagsromlige funksjoner har ført til en betydelig forbedring i nøyaktigheten, men for store verdier av ww kan føre til forringelse av ytelsen, da irrelevant støy kan bli inkludert. På samme måte har verdien av hyperparameteren σ\sigma vist seg å ha en stabil effekt på tvers av datasettene, noe som betyr at modellen er robust til endringer i denne parameteren. Spesielt på Pavia University-datasettet ble en betydelig forbedring i nøyaktigheten observert når σ2\sigma_2 ble satt til verdier større enn 100, som indikerer at vanskelige prøver kan dra nytte av denne strategien.

Videre har hyperparameteren β\beta en kritisk innvirkning på hvordan prøvene veies i modellen. Når β\beta er for lav, tilordnes for mye vekt til enkle prøver, noe som resulterer i dårligere ytelse. På den annen side, når β\beta er for stor, fjernes bidraget fra enkle prøver, noe som også fører til nedsatt nøyaktighet. Basert på eksperimentelle funn er det optimale området for β\beta 2 for datasettene Pavia og XuZhou, og 3 for de andre datasettene.

Kombinasjonen av superpikselbasert ankerpunktvalg, grafautoencoder-funksjonsekstraksjon og den cluster-aware konsistenslæringsmekanismen representerer en kraftig fremgangsmåte for hyperspektral bildeklustering. Når disse teknikkene benyttes i tandem med hard prøvemining, kan modellen oppnå imponerende resultater, selv på utfordrende og heterogene datasett.

I tillegg til de nevnte teknikkene og tilnærmingene, er det viktig å forstå hvordan valget av hyperparametre påvirker resultatene. For eksempel kan valget av det optimale antallet nabolag (k) være avgjørende for å oppnå balanse mellom å fange relevant informasjon og unngå støy. Videre er det viktig å merke seg at mens hard prøvemining kan forbedre diskrimineringskapasiteten, kan det også føre til problemer med overtilpasning hvis det ikke brukes riktig. Det er derfor essensielt å utføre grundig hyperparametertuning og eksperimenter for å optimalisere modellen for spesifikke datasett.

Hvordan kan kontrastlæring og grafbaserte metoder forbedre hyperspektral bildeklassifisering?

Hyperspektral bildebehandling (HSI), som har utviklet seg betydelig gjennom fremskritt innen fjernmåling, har fått økt oppmerksomhet som et kraftig verktøy for analyse på tvers av ulike domener som miljøovervåkning, geologiske analyser, målidentifikasjon og militære operasjoner. HSI’s evne til å fange detaljerte spektrale data gjør det til et essensielt verktøy for presis overvåkning og klassifisering av jordoverflater. En grunnleggende oppgave i HSI-analyse er klassifiseringen av hvert piksel til ulike klasser, som har vært gjenstand for omfattende forskning.

De tradisjonelle metodene for HSI-klassifisering har i stor grad vært basert på maskinlæringsteknikker som logistisk regresjon, k-nærmeste naboer, støttemaskiner (SVM) og tilfeldige skoger. I tillegg har dyp læring med arkitekturer som konvolusjonsnevrale nettverk (CNN) og transformatorer også blitt brukt, og disse er i stor grad basert på overvåket eller semi-overvåket læring. Disse tilnærmingene krever annoterte treningsdatasett, som krever betydelig ekspertise og manuelt arbeid for å lage. Et problem med disse metodene er at de er utsatt for datalekkasjer, som kan forringe nøyaktigheten i modellene.

I motsetning til dette, har usuperviserte metoder som klynging blitt stadig mer populære for deres evne til å operere uten merkelapper på dataene. Imidlertid krever slike metoder en sterk funksjonsuttrekking for å gjenkjenne de underliggende mønstrene og forholdene i de spektrale og romlige dataene. Klynging i HSI har som mål å gruppere piksler med samme landdekke, ved å optimalisere den interne homogene og mellom-klasse separasjonen. De tidlige forsøkene på klynging benyttet tradisjonelle algoritmer som k-means og fuzzy c-means, men disse metodene har vist seg utilstrekkelige når det gjelder å håndtere de komplekse spektrale dataene i HSI.

For å møte disse utfordringene har subspace-klynging blitt introdusert, der datapunktene representeres som lineære kombinasjoner innen delte underrom. Denne tilnærmingen gjør det mulig å inkorporere både romlige og spektrale trekk, noe som forbedrer klyngingens presisjon. Metoder som Sparse Subspace Clustering (SSC) og dens l2-normvariant har vært viktige i denne utviklingen, men de tradisjonelle teknikkene lider fortsatt under begrensede nøyaktigheter, hovedsakelig på grunn av deres grunnleggende funksjonsrepresentasjoner.

De siste årene har det vært en økning i dyp læring for klynging, som benytter ikke-lineær funksjonsuttrekking for bedre å håndtere de kompliserte sammenhengene i hyperspektral data. Zhao et al. benyttet for eksempel regulariserte lineære modeller for å lære strukturelle trekk i dataene, mens Hu et al. anvendte kontrastlæring på de romlige og spektrale dataene. Grafbaserte metoder har også bidratt betydelig til fremgangen i dette feltet ved å utnytte de relasjonelle strukturene mellom pikslene. Metoder som grafdrevet spektral klynging og bruk av anker-grafer har blitt brukt til å utnytte spektrale og romlige egenskaper. Hypergrafer og piksel-superpiksel-grafer har fanget høyere ordens korrelasjoner og forbedret robustheten i funksjonene ved hjelp av kontrastlæringsrammeverk.

Et fremtredende problem i dagens metoder er følsomheten for støy og de høye beregningskostnadene. Dette er spesielt viktig for store hyperspektrale datasett, som kan inneholde store mengder støy og krever betydelige ressurser for behandling. For å overvinne disse utfordringene foreslår denne studien et selv-supervisert lav-pass kontrastivt grafklyngingsrammeverk (SLCGC). Metoden begynner med bygging av superpixel-baserte grafer, etterfulgt av en lav-pass denoisingsmekanisme for å undertrykke støy gjennom nabolagsaggregering. Dual multilayer perceptrons (MLPs) benyttes deretter for å forbedre de høyere ordens spektrale og romlige funksjonene, mens Siamese-enkodere genererer forsterkede visninger for kontrastlæring. Et nytt tverrsynstap (cross-view loss) forbedrer den strukturelle konsistensen, og K-means benyttes på latente funksjoner for den endelige klyngingen.

Hovedbidragene til SLCGC-metoden er flere. Den introduserer et banebrytende denoisingsystem for å eliminere høyfrekvent støy i grafstrukturer, samtidig som den bevarer de jevne nodefunksjonene gjennom nabolagsinformasjon. Dette forbedrer den strukturelle stabiliteten ved å prioritere bevaringen av lavfrekvente signaler. Videre benyttes dual MLP-er for å kode de denoiserte graffunksjonene, samtidig som Gaussisk støyforstyrrelser brukes for å generere duale visninger for kontrastiv læring.

For leseren som ønsker å dykke dypere i temaet, er det viktig å forstå hvordan de forskjellige metodene for støyreduksjon, som lav-pass filtrering, kan påvirke resultatene i grafbaserte modeller. I tillegg er det verdt å merke seg at selv om kontrastlæring kan forbedre stabiliteten i modellen, krever det også store mengder data for å lære effektive representasjoner, noe som kan være en utfordring i praksis for visse applikasjoner. Videre, selv om kontrastlæring gir muligheter for usupervisert læring, er det viktig å ha en forståelse av hvordan modellen kan generalisere til nye data uten merkede etiketter, noe som er en vesentlig utfordring i fjernmåling.