Hyperspektral billedregistrering er en kompleks proces, der involverer flere metoder og teknikker for at opnå præcise sammenligninger og analyser af billeder optaget over tid eller under forskellige forhold. Blandt de mest anvendte teknikker er metoder til udvælgelse af spektralbånd og nøglepunktudtrækning, som hjælper med at forbedre nøjagtigheden og robustheden af registreringen. En vigtig komponent i denne proces er udvælgelsen af spektralbånd, hvor forskellige metoder er blevet udviklet for at identificere de mest relevante bånd for specifikke opgaver.

En af de information-baserede metoder til båndudvælgelse er den, der blev udviklet af Cariou et al. [35], som anvender en klusteringsteknik for at opdele spektralbåndene i to adskilte grupper. Dette gøres ved at minimere den indbyrdes information mellem de mulige kombinationer af spektrale grupper. En alternativ tilgang blev præsenteret af Ordonez et al. [38], som udnytter entropien i spektralbåndene på en mere avanceret måde. I denne metode beregnes entropien for hvert spektralbånd i både de hyperspektrale billeder, der anvendes til registreringen. Det spektralbånd, der har den mindste entropiværdi, tildeles den relevante region for videre analyse. De udvalgte bånd med størst entropi og de, der er adskilt af mindst D succesive bånd, anvendes derefter til funktionsekstraktion. Resultaterne af eksperimenterne viste, at metoder, der beregner information baseret på begge hyperspektrale billeder i stedet for at anvende dem individuelt, resulterede i bedre ydeevne.

Når spektralbåndene er blevet udvalgt, er den næste vigtige opgave at udtrække nøglepunkter fra billederne og matche dem på tværs af de registrerede billeder. En af de mest anvendte metoder til nøglepunktudtrækning og matching i hyperspektral billedregistrering er den skaleringsinvariante funktionstransform (SIFT), som blev udviklet af Lowe [39]. SIFT anvender ekstrempunkter i både skala- og koordinatplanet i 3D-billedkubus, som er opnået ved hjælp af forskellige Gaussiske skalaer. Herefter beregnes den dominerende orientering omkring disse punkter, som bruges som reference til at udtrække descriptorer for disse punkter. Resultaterne fra denne metode er skalerings- og rotationsinvariante, hvilket gør dem yderst effektive til matching af billeder med forskelle i både rotation og skalering.

I hyperspektral billedregistrering anvendes SIFT ofte sammen med forskellige teknikker som Harris-punkter og SURF (Speeded Up Robust Features) til at forbedre nøjagtigheden af registreringen. For eksempel anvendte Goncalves et al. [23] SIFT-punktsudtrækning og matching på PCA-komponenter for registreringen af hyperspektrale billeder, der blev optaget af Hyperion-satellitten på forskellige tidspunkter. For at øge robustheden mod ændringer i belysningen i satellitbillederne brugte de også en ekstra udstødningstrin ved at vælge de matchende punkter i den tætte del af den 2D-fejl histogram, som viser afstanden mellem matchene.

Andre forskere har optimeret SIFT-parametrene for at øge antallet af matchende punkter, især når de arbejder med hyperspektrale billeder med forskellige spektralbånd. Sima og Beckley [18] fokuserede på optimering af SIFT-parametrene for at øge antallet af matches i SWIR HS og EO-billeder, som opstod på forskellige tidspunkter. En af de interessante metoder, der blev foreslået, var at udføre matching på tværs af flere spektralbånd i stedet for kun at bruge et enkelt bånd, som kan være utilstrækkeligt på grund af forskellene mellem de spektrale bånd i billedet.

Der er dog nogle begrænsninger ved de traditionelle SIFT-metoder, som blev adresseret af Ordonez et al. [38]. I stedet for at bruge de oprindelige SIFT-descriptorer ændrede de orienteringsværdierne i descriptorvektorerne fra et interval mellem 0 og 360 grader til et interval mellem 0 og 180 grader, hvilket førte til en lille forbedring af ydeevnen. Men denne tilgang kunne ikke helt afhjælpe problemerne forårsaget af rotationsforskelle mellem de indfangede billeder. For at imødegå denne udfordring udviklede Vural et al. [41] en ny metode kaldet Orientation Restricted SIFT (OR-SIFT), som kombinerer elementer af descriptorvektorerne i modsatte retninger og danner en descriptorvektor af dimension 64. Denne tilgang gjorde det muligt at opnå større robusthed mod ikke-lineære intensitetsændringer i hyperspektrale billeder, der var optaget på forskellige tidspunkter.

I stedet for at anvende SIFT alene til nøglepunktudtrækning, præsenterede Mukherjee et al. [19] en metode, der udvider SIFT-punktsudtrækning til 3D-billedkubus. I denne metode blev der anvendt en skala-rum Gaussisk filtrering på 3D-kuberne, og ekstrempunkter blev fundet ved at ordne pixelvektorerne i forhold til deres naboer. Denne metode viste sig at have bedre ydeevne end SIFT over enkeltbånd, men den havde også nogle udfordringer i forhold til betydningen af spektralbåndene, som varierer betydeligt fra bølgelængde til bølgelængde.

En anden tilgang, som benytter flere spektralbånd til SIFT-punktsudtrækning og matching, blev foreslået af Ordonez et al. [38]. I denne metode blev der først bestemt de relevante spektralbånd for regionsekstraktion baseret på entropien af spektralbåndene i begge hyperspektrale billeder. Derefter blev der fundet Maximally Stable Extremal Regions (MSERs) på spektralbåndene og matchet dem på tværs af de to hyperspektrale billeder. MSERs defineres som områder, hvor alle pixels inden for regionen har højere eller lavere værdier end alle pixels uden for regionens grænse. Disse regioner blev anset for at være mere robuste og karakteristiske end SIFT-punkter til registreringen af hyperspektrale billeder.

Når man vurderer præstationen af nøglepunktbaserede metoder til hyperspektral billedregistrering, anvendes forskellige metrikker som procentdelen af korrekt matchende punkter, gennemsnitlig rumlig afstand mellem nøglepunkterne i det første (reference) billede og det andet billede efter den estimerede transformation, samt den strukturelle lighed og gensidige information mellem billederne. Disse metrikker giver en grundlæggende måling af registreringens nøjagtighed for et givent billedepar, og performance for en gruppe af par kan vurderes ud fra procentdelen af korrekt transformerede billeder i forhold til det samlede antal billedepar.

Vigtige observationer vedrørende båndudvælgelse og nøglepunktmatching i hyperspektral billedregistrering er, at det er nødvendigt at tage hensyn til krydsrelationen mellem spektralbåndene i de anvendte hyperspektrale billeder, når man udvælger bånd. Det er ikke tilstrækkeligt at anvende de individuelle billeder separat. Derudover viser det sig, at metoder som MSERs kan være mere robuste og stabile end SIFT-punkter, især når man arbejder med hyperspektrale billeder, der er optaget under forskellige forhold.

Hvordan forbedringer af registrering af hyperspektrale billeder kan løse lokale misjusteringer og fremtidige udfordringer

Registreringen af hyperspektrale billeder (HS) i LWIR-båndet (langbølget infrarød) er et teknisk krævende område, hvor nøjagtighed i udjævning af lokale misjusteringer efter global geometrisk transformation er en udfordring. I den litteratur, der findes om emnet, beskrives det, hvordan de fleste metoder benytter et standardiseret nøglepunktsbaseret registreringssystem. Dette system er effektivt til at justere billeder i globale termer, men det er ikke tilstrækkeligt, når der opstår lokale misjusteringer i bestemte områder af billedet.

For at tackle dette problem foreslår Koz og Efe en metode, der er baseret på en detaljeret behandling af misjusteringerne, efter at de er identificeret ved hjælp af globale transformationer. Metoden begynder med en 2D-konvertering og en global transformation baseret på de nøglepunkter, der er udtrukket og matchet fra to billeder. Efter dette anvendes en blockwise refinement, der deler billedet op i blokke og justerer disse blokke ved at vælge de nærmeste nøglepunkter i hver blok. Disse nøglepunkter repræsenterer den geometriske transformation mere præcist end tilfældigt udvalgte punkter fra hele billedet.

Når denne blockwise refinement er anvendt på alle blokke i billedet, går processen videre med en pixelwise refinement, som yderligere korrigerer misjusteringer på pixelniveau. Denne metode har vist sig at være effektiv i at rette misjusteringer, som opstår i kanten af blokke eller langs billedets kanter. Resultaterne fra eksperimenterne har vist, at en pixelwise tilgang kan korrigere misjusteringer, som tidligere var svære at rette med mere traditionelle metoder.

Den foreslåede metode er blevet sammenlignet med andre eksisterende registreringsmetoder, som georeferencering og metoder baseret på dyb læring som SuperGlue og D2-Net. Disse dybdelæringsmodeller antager en global stiv transformation og kan ikke tilpasse sig de lokale misjusteringer, som den foreslåede metode adresserer. Figuren, der sammenligner de forskellige metoder, afslører, at de traditionelle metoder og dybdelæringsmodeller ikke er i stand til at justere billedelementer præcist i overlapningsområder, hvor misjusteringer er tydelige. Den foreslåede metode med blockwise og pixelwise refinements giver derimod meget bedre resultater.

Derudover viser de gennemførte studier, at registreringens effektivitet også er afhængig af tidspunktet for billedoptagelsen. Hvis to billeder tages på samme dag, er registreringen langt mere præcis, mens det bliver mere udfordrende at opnå samme niveau af præcision, når billederne er taget på forskellige tidspunkter. Dette afslører en af de store udfordringer i hyperspektral billedregistrering – variationen i miljøforhold og sensorer over tid.

Et af de centrale emner, der ikke er blevet behandlet i den eksisterende litteratur, er krydsregistreringen af hyperspektrale billeder mellem reflekterende bånd (VNIR og SWIR) og termiske bånd (MWIR og LWIR). Der er endnu ikke nogen metode, der kan håndtere kombinationen af reflektions- og emissivitetsinformationer fra disse to typer hyperspektrale billeder. Forskellen i spektrale karakteristika mellem de to bånd udgør en stor udfordring, da radianceinformationerne i de termiske bånd og refleksionsinformationerne i VNIR og SWIR ikke svarer til de samme fysiske koncepter. Dette betyder, at det er svært at finde fælles funktioner mellem billeder fra disse bånd.

I praksis kræver dette udvikling af nye deskriptorer og metoder til at flette billeder, hvilket kræver et omfattende datasæt for at kunne håndtere de forskellige spektrale bånd. Et eksempel på dette er billedmatchning ved hjælp af SIFT-punkter, hvor der er utilstrækkelige matchende punkter mellem billeder taget i VNIR- og LWIR-båndet. Dette gør det vanskeligt at estimere den geometriske transformation præcist og understreger behovet for nye teknikker og metoder til at håndtere krydsregistrering af billeder fra forskellige spektrale bånd.

Der er også en voksende interesse i brugen af dyb læring til registrering af hyperspektrale billeder, især da dyb læring har givet store forbedringer i billedanalyse og klassifikation. Men dyb læring har ikke været så effektivt i hyperspektral billedregistrering,

Hvordan neuralnetværk fungerer i maskinlæring og billedklassifikation

Når man arbejder med maskinlæring, er det vigtigt at forstå de forskellige typer af netværk og deres egenskaber. Et væsentligt aspekt ved udviklingen af modeller er at finde den rette balance mellem underfitting, fitting og overfitting. Underfitting opstår, når modellen er for simpel og ikke kan fange de underliggende mønstre i dataene, hvilket resulterer i dårlig præstation både på træningsdata og testdata. En model, der lider af underfitting, vil have en høj bias, hvilket betyder, at den laver de samme typer fejl på tværs af forskellige datasæt. Fitting, også kaldet god tilpasning, sker, når modellen præcist fanger mønstrene i dataene. En veltilpasset model vil præstere godt både på trænings- og testdata. I modsætning hertil opstår overfitting, når modellen passer træningsdataene alt for tæt og derefter klarer sig dårligt på usete testdata, hvilket viser høj varians og gør modellen ekstremt følsom over for små ændringer i træningsdataene.

En af de mest udbredte typer af maskinlæringsmodeller er kunstige neurale netværk (ANN). Inspirationen til disse netværk kommer fra den menneskelige hjernes struktur og funktion. Et ANN består af sammenkoblede noder, kaldet neuroner, der bearbejder og transmitterer information. En af de mest almindelige typer af ANNs er feedforward neurale netværk, som består af et inputlag, et eller flere skjulte lag og et outputlag. I disse netværk flyder information unidirektionelt fra inputlaget gennem de skjulte lag til outputlaget. Hvert neuron modtager input fra andre neuroner, og en ikke-lineær aktiveringsfunktion bestemmer outputtet af hver neuron. Resultatet af aktiveringsfunktionen sendes derefter videre til andre neuroner i netværket.

I denne sammenhæng beskrives outputtet af en neuron i det skjulte eller outputlaget ved hjælp af en matematisk formel, hvor vægtene, forbindelserne mellem neuronerne, spiller en central rolle. Den funktion, der anvendes til aktivering, kan være en ReLU-funktion, som står for Rectified Linear Unit, en populær funktion i mange moderne netværk, da den bidrager til effektiv træning.

Et andet vigtigt netværk i billedklassifikation er de konvolutionelle neurale netværk (CNN). CNN’er er særligt velegnede til billedbehandlingsopgaver, da de kan lære og genkende mønstre i billeder, som kan være svære for mennesker at skelne. En CNN kan operere på data med én, to eller tre dimensioner – en-dimensionelle, to-dimensionelle og tre-dimensionelle konvolutionelle netværk (henholdsvis 1D-CNN, 2D-CNN og 3D-CNN). De mest almindelige CNN’er arbejder med to-dimensionelle data, som billeder. I sådanne netværk bruges konvolutionelle lag til at anvende et sæt filtre på billedet. Disse filtre er designet til at fange specifikke mønstre eller træk i billedet.

For eksempel i en 2D-CNN, som er den mest udbredte type til billedklassifikation, anvendes konvolutionelle lag til at identificere funktioner som kanter, teksturer og objekter i et billede. Disse lag er efterfulgt af pooling-lag, som hjælper med at reducere størrelsen af dataene og beholde de mest vigtige funktioner. De fuldt tilsluttede lag til sidst i netværket forbinder alle de opnåede funktioner og bruges til at lave den endelige klassifikation.

En anden type neuralt netværk er de rekursive neurale netværk (RNN), der er ideelle til at arbejde med sekventielle data som tekst, audio, video eller tidsseriedata. I RNN’er er forbindelserne mellem neuronerne ikke kun rettet fremad, men også tilbage, hvilket betyder, at information fra tidligere trin kan bruges til at informere beslutninger på nuværende trin. Denne funktion gør RNN’er særligt nyttige til opgaver, der kræver kontekstforståelse over tid, som for eksempel sprogbehandling. Der findes flere typer RNN-arkitekturer, herunder Long Short-Term Memory (LSTM) og Gated Recurrent Unit (GRU), som hjælper med at håndtere problemer som forsvindende gradienter ved at bruge hukommelsesceller.

Transformer-modellen, der blev introduceret af Vaswani et al., har revolutioneret behandling af sekventielle data, især inden for naturlig sprogbehandling. Transformer-modellen er kendt for sin brug af self-attention mekanismen, hvor hver del af inputdataene vægtes afhængigt af dens relation til andre dele af dataene. Denne mekanisme gør det muligt at fange komplekse afhængigheder i dataene, hvilket har gjort Transformer til en af de mest succesfulde arkitekturer i maskinlæring, især i opgaver som maskinoversættelse og tekstgenerering.

For læseren er det vigtigt at forstå, at valget af netværk afhænger af den specifikke opgave og datatypes natur. For eksempel vil billedklassifikation oftest blive behandlet bedst med en CNN, mens tekst eller tidsserier måske kræver en RNN eller Transformer. Derudover er det nødvendigt at balancere kompleksiteten af modellen med mængden af tilgængelige data for at undgå overfitting. For meget kompleksitet kan føre til, at modellen lærer detaljer, der ikke generaliserer godt til nye data, mens for simpel en model kan have svært ved at fange de underliggende mønstre. Det kræver erfaring og ofte forsøg og fejltagelse at finde den optimale model for en given opgave.

Hvordan Transfer Learning kan Forbedre Klassifikation af Hyperspektrale Data

Transfer Learning (TL) repræsenterer en fundamental tilgang inden for maskinlæring, hvor viden fra tidligere lærte scenarier genbruges for at forbedre præstationen på nye, men beslægtede opgaver. Konceptet blev først foreslået af Bozinovski og Fulgosi i 1976 og har siden da været en grundpille i mange moderne applikationer af dybe neurale netværk. TL gør det muligt at overføre viden fra en kildemodel (ofte kaldet en forudtrænet model) til en målmodel, hvilket kan forbedre klassifikationer, især når der er mangel på tilstrækkeligt mærkede data.

En af de væsentligste udfordringer i maskinlæring er at arbejde med store datamængder, som kan være ujævnt mærkede eller ufuldstændige. TL løser disse problemer ved at udnytte allerede eksisterende viden, som kan overføres fra et relateret domæne. For eksempel, når man skal identificere små skibe på havet, kan man anvende viden, der er opnået fra at identificere store skibe og fartøjer. Dette kan reducere træningstiden betydeligt og forbedre nøjagtigheden af modelprediktioner.

Der findes flere tilgange til TL. En af de mest anvendte er den udviklede modeltilgang, hvor en kildemodel først designes og trænes, hvorefter viden overføres til en målmodel. Den anden tilgang involverer at vælge en eksisterende kildemodel og derefter overføre viden til den målmodel, der skal forbedres. Inden for TL findes der yderligere klassifikationer som Homogen TL og Heterogen TL. I Homogen TL er kildedataene og måldataene repræsenteret i samme egenskabsrum, mens de i Heterogen TL befinder sig i forskellige egenskabsrum. Denne forskel kan have stor betydning for, hvordan data behandles og analyseres.

Processen for Transfer Learning kan opdeles i to væsentlige faser: feature extraction og fine-tuning. I den første fase anvendes den allerede opnåede viden til at udtrække relevante træk fra de nye data. I fine-tuning-fasen fryses de dybe lag i kilde-modellen, mens de sidste lag i kilde-modellen og målmodellen trænes sammen. Dette gør det muligt at bevare de generelle karakteristika, som er blevet lært i kilde-modellen, samtidig med at de specifikke træk ved målproblemstillingen finjusteres.

Hyperspektrale billeder (HSI) spiller en vigtig rolle i mange af de områder, hvor TL anvendes, såsom fjernmåling, miljøovervågning og landdækningsklassifikation. Et typisk HSI-dataset kan have hundreder af spektrale bånd, hvilket giver mulighed for at opnå meget præcise klassifikationer af forskellige objekter og overflader. For at kunne udnytte disse data effektivt er det nødvendigt at have præcise og omfattende datasæt, såsom Indian Pines (IP), Pavia University (PU), og Salinas (SA), som alle er blevet brugt til at træne TL-modeller.

I tilfældet med IP-datasættet, som stammer fra AVIRIS-hyperspektralsensorer, omfatter de 224 spektrale bånd en række vegetationsklasser, herunder græs, majs og bygninger. Disse data er blevet justeret i forhold til vandabsorption, og de bånd, som indeholder information om vandabsorption, er blevet udelukket for at undgå fejlkilder. På samme måde er både PU og SA datasæt brugt i studier af landdækning, og de indeholder et væld af forskellige klasser, som kan anvendes til at træne og finjustere modeller via TL.

Evalueringen af TL-modeller kræver præcise målinger af klassifikationsnøjagtighed. En almindeligt anvendt metrisk er den overordnede nøjagtighed (OA), som beregnes som forholdet mellem korrekt klassificerede data og det samlede antal testpunkter. En forvirringsmatrix, der afspejler præstationen af klassifikationen, kan bruges til at beregne denne nøjagtighed. En høj OA indikerer, at modellen er i stand til at klassificere data præcist og korrekt.

Udover de nævnte teknikker er det også vigtigt at forstå de særlige krav og udfordringer, som opstår i forbindelse med brug af TL i hyperspektrale data. F.eks. kræver brugen af TL i HSI-data stor præcision i både dataforberedelsen og udvælgelsen af relevante egenskaber for at sikre, at overførslen af viden ikke forvrænger klassifikationen. Dette kan indebære at tilpasse modelparametre og justere dataudtrækningsteknikker for at opnå de bedste resultater i specifikke anvendelser.