I dagens snabbt utvecklande teknologiska landskap är klustring av hyperspektrala bilder en kritisk uppgift, särskilt inom områden som fjärranalys och bildigenkänning. För att förstå hur nya metoder kan förbättra resultat inom detta område är det viktigt att granska och jämföra olika klustringsprestanda, både klassiska och nyare tillvägagångssätt. Här beskrivs en metod för att utvärdera klustringseffektiviteten och visar hur den nyutvecklade CMSCGC-ramverket presterar överlägset i jämförelse med andra etablerade modeller.

För att börja, används flera mått för att mäta klustringens kvalitet. En av de mest spridda metoderna är Overall Accuracy (OA), som beräknar andelen korrekt klassificerade prover. Formeln för OA är ganska enkel: ∑N map(c) OA = 1 δ(yi, ci), där N representerar det totala antalet prover, yi är den sanna etiketten och ci är den predikterade etiketten. Indikatorfunktionen δ(·) har värdet 1 om yi = map(ci), och 0 annars. Denna metod är användbar för att ge en allmän förståelse av hur bra klustringsmodellen presterar i sin helhet.

Vidare används Normalized Mutual Information (NMI) för att mäta likheten mellan två klustringsresultat, det vill säga för att kvantifiera hur mycket information som delas mellan de verkliga etiketterna och de förutsagda etiketterna. Ett högre värde på NMI innebär att klustren i den predikterade modellen stämmer bättre överens med de verkliga etiketterna, vilket är ett tecken på en mer exakt klustring. NMI ges av formeln:

I(y, ci)
NMI = √ (3.15)
H(yi) H(ci)

där I(yi, ci) representerar den ömsesidiga informationen mellan de verkliga och de förutsagda etiketterna, och H(·) är entropin som mäter den genomsnittliga informationsmängden.

Kappa-koefficienten, å andra sidan, är ett annat viktigt mått som används för att bedöma överensstämmelsen mellan den verkliga och den förutsagda klustringen. Formeln för Kappa, som är något mer komplex, är:

Kappa = ∑N m ∑m hii − ∑m (hi + h + i) / ∑ (3.16)

här representerar hii antalet korrekt klassificerade prover i kategori i, medan m är det totala antalet kategorier. Det är också viktigt att förstå att dessa mått ofta kombineras för att få en mer heltäckande bild av modellens prestanda.

I den aktuella studien jämförs CMSCGC med flera andra etablerade klustringstekniker som Spectral Clustering (SC), Sparse Subspace Clustering (SSC) och olika avancerade metoder. De klassiska teknikerna som t.ex. k-means, som är ett exempel på en traditionell metod för obevakad inlärning, har visat sig vara mindre effektiva än de mer moderna metoderna, såsom GR-RSCNet, som använder djupa nätverk och grafregularisering. Dessa metoder demonstrerar påtagliga framsteg jämfört med mer traditionella tekniker.

En av de viktigaste insikterna som framkommer är hur kombinationen av djupinlärningstekniker och regulariseringsmekanismer har lett till en markant förbättring i klustringens noggrannhet. Traditionella metoder som använder CNN för funktionsutvinning lider av begränsningar, då de inte bevarar de spatiala relationerna tillräckligt bra, vilket minskar deras diskriminerande förmåga. Däremot visar metoder som l2-SSC och EGCSC på en ökad noggrannhet genom att införa ytterligare regularisering och grafbaserade tillvägagångssätt.

En annan betydande förbättring inom CMSCGC är integration av fler vyer av data, där flera komplementära datatyper används för att berika representationsinlärningen. Till exempel, genom att kombinera spektrala och texturala attribut och tillämpa grafkonvolutionella nätverk (GCN) för att aggregera lokala strukturella mönster, uppnås en markant förbättring i klustringens precision.

Slutligen är resultaten från experimenten mycket lovande, där CMSCGC-ramverket överträffade alla andra modeller på alla fyra benchmark-datamängderna: Indian Pines, Pavia University, Houston och XuZhou. Modellen uppnådde en noggrannhet på upp till 97.61% för Indian Pines och 96.69% för Pavia University, vilket demonstrerar effektiviteten hos de tre centrala innovationerna: integration av fler vyer, kontrastiv inlärning och uppmärksamhetsbaserade funktionfusioner.

Det är också viktigt att notera att klustring av hyperspektrala bilder innebär att man måste hantera stora datamängder och komplexa mönster. Därför är användningen av metoder som kan bevara både spektrala och spatiala egenskaper avgörande för att förbättra resultatens precision och relevans för praktiska tillämpningar. Vidare kan modeller som CMSCGC också erbjuda fördelar när det gäller skalbarhet och anpassning till olika datamängder och applikationer.

Hur en effektiv lågpassgraf för kontrastiv inlärning förbättrar klustring av hyperspektrala bilder

Korrelationsmatrisen QRhw×NQ \in \mathbb{R}^{hw \times N} som introducerats av SLIC definieras som Qi,j=1Q_{i,j} = 1, om xiSix_i \in S_i, och 0 annars. Grafprojektion kan kodificera den ursprungliga pixelnivå HSI (hyperspektrala bilder) till superpixelnivåns grafnoder genom matris-multiplikation, vilket kan uttryckas som:

V=TProjection(X;Q)=Q^Flatten(X)V = T\text{Projection}(X; Q) = \hat{Q} \text{Flatten}(X)

där Q^\hat{Q} är den kolumnnormaliserade versionen av QQ, dvs. Q^i,j=Qi,jmQm,j\hat{Q}_{i,j} = \frac{Q_{i,j}}{\sum_{m} Q_{m,j}}. Flatten()\text{Flatten}(·) representerar en m-fördelning av HSI baserat på de spatiala dimensionerna.

Lågpassgrafavbrusning

Nyligen har graffilter visat sig ha en betydande inverkan på prestandan hos graf-konvolutioner. Inspirerat av detta har en lågpassgrafavbrusningsmekanism designats för att filtrera bort brusinterferens i grafstrukturen och erhålla en jämnare strukturgraf. Denna metod gör det möjligt att effektivt filtrera bort högfrekvent brus i grafnoderna.

Det är välkänt att glattheten hos grafsignaler kan mätas genom Rayleigh-kvoten:

R(L,X)=iVxi2(i,j)E(xixj)2R(L, X) = \frac{\sum_{i \in V} x_i^2}{\sum_{(i,j) \in E} (x_i - x_j)^2}

Där XX är signalen på grafnoderna, och LL är grafens Laplaciangrammat. En glattere signal har en mindre Rayleigh-kvot, vilket innebär att en lågpassfiltrering av högfrekventa signaler bevarar den lågfrekventa strukturen.

En graf Laplacian-filter kan definieras som:

H=U(IkΛ)UT=IkL^H = U (I - k\Lambda) U^T = I - k\hat{L}

där kk är en koefficientparameter, och L^\hat{L} är den symmetriskt normaliserade graf Laplaciangrammat. Genom att stapla t-lager av graf-Laplacian-filter:

Xt=i=1tHXX_t = \prod_{i=1}^t H X

kan man bevara de lågfrekventa spektrala funktionerna, vilket förbättrar klustringens prestanda.

Grafstrukturens kontrastiva inlärning

För att behålla grafens strukturella konsistens och minska den beräkningsmässiga komplexiteten, har en grafstruktur-kontrastiv inlärning föreslagits. Till skillnad från tidigare metoder används inte en grafkonvolutionell nätverksmodell (GNN) för att koda de jämnade grafsignalerna. Istället kodas de jämnade nodfunktionerna med två oberoende MLP-kodare (Multilayer Perceptron) och normaliseras med hjälp av 2\ell_2-normen:

Zl1=MLP1(Xt),Zl2=MLP2(Xt)Z_{l1} = MLP_1(X_t), \quad Z_{l2} = MLP_2(X_t)

För att bevara de olika semantiska representationerna mellan två kodare införs slumpmässigt Gauss-brus för att göra att Zl1Z_{l1} och Zl2Z_{l2} skiljer sig åt. Detta gör nätverket mer robust mot störningar i data.

Funktionsfusion och klustring

De kontrastiva nodinbäddade funktionerna lärs i föregående steg. Därefter slås de två augmenterade visningarna samman på ett linjärt sätt:

Z=12(Zl1+Zl2)Z = \frac{1}{2} (Z_{l1} + Z_{l2})

De sammanfogade funktionerna används för att erhålla klustringsresultaten genom att applicera K-means algoritmen på den resulterande nodfunktion ZZ. För att ytterligare förbättra nätverkets strukturella konsistens och effektivisera inlärningen, introduceras en ny kontrastiv förlustfunktion baserat på skillnaden mellan den beräknade likhetsmatrisen och självloopad närhetsmatris.

Beräkningskomplexitet

Beräkningskomplexiteten för den föreslagna metoden är förhållandevis låg och hanterbar. Lågpassgrafavbrusning har en komplexitet på O(Nd2)O(Nd^2), medan den kontrastiva inlärningen av grafstrukturer har en komplexitet på O(2Ndd1+2Nd1d2)O(2Ndd_1 + 2Nd_1d_2). Om SLCGC-nätverket itererar TT gånger under träning, blir den totala beräkningskomplexiteten:

O(Nd2+2Nd1(d+d2)T)O\left( Nd^2 + 2Nd_1(d + d_2)T \right)

Denna analys bekräftar att den föreslagna nätverksstrukturen är mycket effektiv ur beräkningsperspektiv.

Viktig förståelse

För att till fullo förstå och implementera denna metod är det väsentligt att förstå både de teoretiska och praktiska aspekterna av grafbaserad inlärning. Genom att använda graf-Laplacian-filter för att avlägsna högfrekvent brus i samband med kontrastiv inlärning, uppnås en effektivare och mer robust klustring av hyperspektrala bilder. Vidare är det viktigt att förstå hur variation i nätverksparametrar, såsom antalet lager i den kontrastiva inlärningen och graden av Gauss-brus, påverkar prestanda och stabilitet hos modellen. Klusterresultaten och den övergripande nätverksstrukturen kan förbättras ytterligare genom att finjustera dessa parametrar för att passa specifika dataset och tillämpningar. En noggrann balans mellan beräkningskostnader och nätverksprestanda är också avgörande för att modellen ska vara användbar i realtidsapplikationer.