CoOp demonstrerer imponerende evner innen few-shot læring, der bare to merkede eksempler per klasse er nok til å oppnå betydelige forbedringer sammenlignet med CLIP. Ved å bruke 16 eksempler per klasse, blir ytelsen ytterligere forbedret, med en gjennomsnittlig forbedring på omtrent 15 %. Resultatene viser at CoOp er effektivt i å lære relevante oppgaver med begrensede data, og denne styrken er spesielt synlig i spesialiserte oppgaver som EuroSAT og DTD, hvor ytelsesøkningen overstiger 45 % og 20 % henholdsvis.

CoOp viser betydelig bedre resultater på fine-grained datasett som Flowers102, StanfordCars og FGVCAircraft, samt på oppgaver relatert til scenegjenkjenning og handlinger (for eksempel SUN397 og UCF101). For det utfordrende ImageNet-datasettet, som består av 1000 kategorier, er forbedringen på 4,77 % også verdt å merke seg. Likevel er gevinstene på mer fine-grained datasett som OxfordPets og Food101 mindre markante. Spesielt på Food101 kan dette tilskrives støyende treningsdata med for sterke farger og enkelte feilmærkede bilder. Når man ser på ytelsestrender for OxfordPets og Food101, ser man at forbedringene avtar etter hvert som mer treningsdata benyttes, noe som tyder på en risiko for overfitting. Dette kan løses med sterkere regulariseringsteknikker, som økt vektfall.

Når CoOp sammenlignes med en lineær probe-modell, er det tydelig at CoOp har en klar fordel i ytelse. Lineær probing krever flere eksempler for å oppnå samme ytelse som en null-shot-modell, mens CoOp allerede viser imponerende forbedringer ved bare fire eksempler. Det er spesielt i scenarier med ekstremt lite data, som for én eller to skudd, at CoOp skiller seg ut, og viser seg langt mer effektiv enn å lære en lineær klassifikator fra bunnen av i slike få-shot-læringssituasjoner.

Sammenlignet med prompt ensembling, der flere forhåndsdefinerte promptene kombineres for å forbedre ytelsen, viser CoOp seg å være overlegent. Selv om prompt ensembling kan være nyttig, viser de gjennomførte testene at CoOp gir bedre resultater. Dette er spesielt relevant for modeller som bruker CLIP, som allerede har vist sterke egenskaper i forhåndstrente feature-spaces. Selv i forhold til alternative fine-tuning metoder, som å justere CLIPs bildeencoder eller optimalisere et transformasjonslag på tekstencoderens utdata, gir CoOp bedre resultater. Fine-tuning av bildeencoderen gir kun marginale forbedringer, og optimalisering av transformasjonslaget eller bias-termene er ikke tilstrekkelig for å matche CoOp.

CoOp skiller seg også ut på benchmarker for domene-generaliseringsytelse, hvor den viser seg å være mer robust for distribusjonsforskyvninger. Dette tyder på at de lærte promptene er svært generaliserbare, og at CoOp kan tilpasses nye oppgaver mer effektivt. I motsetning til lineære probe-modeller som gir langt dårligere resultater på mål-datasett, forbedrer CoOp ytelsen selv under domene-skift.

Når det gjelder valg av kontekstlengde, viser eksperimentene at kortere kontekstlengder, som 4 tokens, faktisk kan være mer effektive i domene-generaliseringsscenarioer. Økningen i kontekstlengde forbedrer vanligvis ytelsen, men det er ingen universell regel for hvilken lengde som er optimal. Å velge den riktige kontekstlengden krever en balansering mellom høy ytelse på spesifikke oppgaver og robusthet mot distribusjonsforskyvninger i bredere anvendelser.

En annen viktig vurdering er hvordan man initierer kontekstvektorene i prompt-læring. To vanlige metoder inkluderer å starte med forhåndsdefinerte verdier eller ved å lære initieringen gjennom trening. Dette valget kan ha stor betydning for hvordan modellen tilpasser seg ulike oppgaver.

Endtext

Hvordan fungerer ulike prompting-strategier for CLIP, og hva betyr det for modellens generalisering og ressursbruk?

Prompting-strategier for CLIP, en sentral modell innen visjon-språk-læring, varierer betydelig når det gjelder lærbarhet, behov for treningsdata og adaptivitet til individuelle input. Noen metoder, som håndlagde prompts, krever verken treningsdata eller treningstid, men mangler fleksibilitet og lærbarhet. På den andre siden har vi metoder som CoOp og CoCoOp, som er lærbare, men krever omfattende treningsdata og lange treningsprosesser, henholdsvis med 16 000 treningsprøver og opp til 800 000 treningsiterasjoner. Dette resulterer i betydelig tids- og ressursforbruk, selv om de ofte gir gode resultater på kjente datasett.

En nyere metode, Test-Time Prompt Tuning (TPT), skiller seg ut ved å være både lærbar, ikke kreve treningsdata og være input-adaptiv. Den største kostnaden ved TPT ligger i testtid, spesielt i én optimaliseringssteg som involverer backpropagasjon gjennom tekstkoderen i CLIP. Denne prosessen er mer ressurskrevende enn andre metoder, men den kan parallelliseres delvis gjennom dataaugmentering uten stor minneøkning. Viktigere er det at TPT ikke krever noe treningsbudsjett i forkant, noe som gjør den særlig attraktiv for scenarier hvor man ønsker rask tilpasning uten tilgang til store treningssett.

En kritisk innsikt er at metoder som unngår ekstra trening, men justerer prompten under testtid, kan generalisere bedre til ukjente distribusjoner. Dette er essensielt i praktiske anvendelser hvor modeller ofte møter nye, uforutsigbare data. Tradisjonell finjustering kan overtilpasse seg treningsdata og dermed prestere dårlig på out-of-distribution (OOD) data. TPT og lignende tilnærminger demonstrerer at adaptiv prompting kan bidra til økt robusthet og fleksibilitet.

Ved evaluering av effektiviteten til disse strategiene må man derfor ikke bare se på nøyaktighet, men også på ressursbruk og robusthet mot datasettforskjeller. Et balansert valg av prompting-strategi avhenger av bruksområdet: kreves høy gjennomstrømning og lav latency, eller prioriteres tilpasningsevne til varierende data? TPT gir en mellomting ved å ofre noe hastighet under inferens til fordel for bedre generalisering uten behov for ekstra trening.

I tillegg til disse tekniske aspektene, bør man forstå hvordan slike metoder påvirker videre utvikling av grunnmodeller (foundation models). Disse er fundamentale i dagens AI-økosystem, og evnen til effektiv prompt-tuning uten tunge treningskostnader åpner for bredere anvendelse i forsknings- og industrisammenheng. Det understreker også viktigheten av å utvikle modeller som er fleksible nok til å tilpasses på ulike måter uten omfattende omskolering.

Det er videre verdt å merke seg at den faktiske ytelsen og robustheten til disse prompting-strategiene avhenger av flere faktorer: tekst- og bildeencodere, datasettets natur, og den underliggende arkitekturen. Optimaliseringsteknikker og valg av hyperparametere, som for eksempel korrelasjonskoeffisienten ρ i TPT, spiller også en rolle for resultatene.

Avslutningsvis er det avgjørende å forstå at mens prompt-tuning tilnærminger, særlig test-time metoder som TPT, tilbyr løfter om bedre generalisering uten kostbar trening, representerer de ikke en universalløsning. Kombinasjonen av ulike teknikker og nøye tilpasning til spesifikke oppgaver vil fortsatt være nødvendig. Forståelsen av ressursbruk, adaptivitet og robusthet er sentral for å kunne utnytte disse teknologiene optimalt i virkelige anvendelser.

Hvordan optimalisere parameter-effektiv tilpasning i visuelle modeller med NOAH

NOAH (Neural prOmpt seArcH) representerer et skritt fremover i automatiseringen av optimalisering av parameter-effektive tilpasningsmetoder. Denne tilnærmingen behandler eksisterende metoder som Adapter, LoRA og Visual Prompt Tuning (VPT) som promptmoduler, og benytter et neural architecture search (NAS) algoritme for å finne de beste konfigurasjonene. Ved å anvende NAS på Transformer-blokker, utføres en presis søking etter optimale parametre som for eksempel Adapter-dimensjoner eller VPT-tokenlengder.

I tradisjonelle NAS-tilnærminger er søket knyttet til hele nettverksarkitekturen, men NOAH har en unik tilnærming der ryggvirvelmodellen forblir fryst, og søket kun fokuserer på parameter-effektive scenarioer. Dette skaper en mer effektiv tilpasning som er spesielt nyttig når det gjelder ressursbegrensede miljøer. Resultatene fra eksperimenter på VTAB-1k-datasettet viser at NOAH signifikant overgår individuelle metoder på 10 av 19 datasett, med konkurransedyktig ytelse på de resterende datasettene.

Metoden viser også lovende resultater på flere andre områder, som få-skudd læring og domene-generaliseringsoppgaver, hvor den overgår håndlagde promptmoduler. Ytterligere eksperimenter på tett prediksjon og naturlige språkoppgaver fremhever NOAHs allsidighet, og viser at den kan utvides til oppgaver som krever forskjellige modaliteter eller tilsynssignaler. Dette demonstrerer et bredt potensial for NOAH innen ulike applikasjonsområder.

Relaterte Arbeider og Tidligere Tilnærminger

Den raske veksten i modellstørrelser har ført til økt interesse for utvikling av parameter-effektive metoder for tilpasning. Disse metodene tar sikte på å tilpasse store forhåndstrente modeller til spesifikke oppgaver ved å endre bare et lite utvalg av parametere, eller ved å legge til små trenbare moduler. Metodene kan grovt deles inn i to grupper: 1) Finjustering av et lite utvalg av parametere, som for eksempel skjevheter, og 2) Legging til små trenbare moduler, som Adapter og LoRA, som er relevante for denne studien. Adapter og LoRA deler lignende arkitekturer som fungerer som flaskehalser, men de er plassert forskjellig: Adapter-moduler legges typisk til utgangen av et nettverksblokk, mens LoRA-moduler fungerer som residualer for projeksjonsmatriser i Transformer-blokker.

Et annet relevant konsept er Prompt-læring, som oversetter tekstbaserte prompt til trenbare vektorer. Visual Prompt Tuning (VPT) er en visuell variant som introduserer lærbare "piksler" som input til visuelle modeller som ViT (Vision Transformer). Effektiviteten av disse tuning-metodene varierer imidlertid betydelig avhengig av modellens arkitektur og datasettet, noe som er bekreftet gjennom flere nyere studier.

Til tross for at det finnes flere alternative tilnærminger som forsøker å kombinere disse metodene, skiller NOAH seg ut ved å fokusere på finjustering via NAS og utforske spesifikke hyperparametere som tokenlengder og dimensjoner på embeddingene. Denne tilnærmingen er spesielt egnet for ressursbegrensede scenarier, og det er et voksende behov for slike metoder i moderne applikasjoner.

Metoden Bak NOAH: Bruken av NAS i Parameter-Effektiv Tuning

NOAH benytter NAS for å utføre en systematisk søk etter optimale konfigurasjoner i parameter-effektiv tilpasning. Ved hjelp av NAS-teknologi kan vi målrette nøyaktig de riktige hyperparametrene som bestemmer hvordan adapterne, LoRA eller VPT-modulene skal utformes. Dette gir et mer presist og målrettet kontroll over hvordan tilpasningen skal finne sted, og gir bedre ytelse enn metoder som er manuelt designet. Det er viktig å merke seg at NOAH er designet for å operere i scenarioer med strenge ressursbegrensninger, hvor tradisjonelle tilnærminger kanskje ikke er praktiske.

Adapter, LoRA og Visual Prompt Tuning i NOAH

De tre grunnleggende metodene som inngår i NOAH-tilnærmingen, Adapter, LoRA og VPT, kan beskrives som følger:

  • Adapter: Adaptermetoden introduserer et flaskehals-lignende nevralt nettverk, som bruker ned- og opp-sampling av dimensjoner for å lære modifikasjoner til eksisterende representasjoner i modellen. Denne metoden gir en effektiv måte å tilpasse store modeller uten å måtte endre hele arkitekturen.

  • LoRA: LoRA-metoden implementerer lav-rang dekomponering av projeksjonslagene i Transformer, og fokuserer på å oppdatere query- og key-matriser på en lavere dimensjonsnivå. Dette gjør det mulig å tilpasse modellen med en minimal mengde endringer, samtidig som den bevarer ytelsen.

  • Visual Prompt Tuning (VPT): VPT benytter lærbare tokens som ekstra input til Transformer-blokker, og kan ses som å legge til "virtuelle piksler" til inngangsdatasettet. Dette muliggjør en fleksibel tilpasning som kan anvendes på forskjellige datamodaliteter.

Alle disse metodene er representert i NOAHs søkeområde, og integreres effektivt for å finne den beste kombinasjonen av parametere som gir optimal ytelse på forskjellige oppgaver.

NOAH har også en spesiell fordel i forhold til tidligere NAS-baserte tilnærminger, ettersom den tar i bruk et vektdelingssystem som effektivt lar undersett som er prøvesamplet fra en supermodell dele vektene. Denne strategien reduserer beregningskostnadene betydelig, noe som gjør NAS langt mer effektivt i praksis.

Betydningen av tilpasning i moderne maskinlæring

I maskinlæring er tilpasning et nøkkelområde, spesielt når det gjelder store forhåndstrente modeller som Vision Transformers. Ved å bruke metoder som NOAH, kan vi tilpasse disse modellene til spesifikke oppgaver med minimal ressursbruk. Dette er spesielt viktig i situasjoner hvor beregningsressurser er begrenset, eller hvor rask implementering og justering er nødvendige.

Videre har det blitt stadig mer kritisk å utvikle modeller som er fleksible nok til å håndtere et bredt spekter av oppgaver og datatyper. NOAHs evne til å tilpasse seg både visuelle og tekstbaserte oppgaver, samt dens bruk av NAS for å finne de beste parameterinnstillingene, gjør den til en lovende tilnærming for fremtidig forskning og praktisk anvendelse i maskinlæring.

Hvordan kan åpne vokabular-detektering forbedre menneske-maskin-interaksjon?

Åpen-vokabular objektdeteksjon er en avansert teknikk som tar sikte på å oppdage og gjenkjenne objekter fra et ubegrenset sett med kategorier. En ideell åpen-vokabular detektor bør kunne tilpasses til å produsere rammebokser basert på brukerens input, enten det er en naturlig språkbeskrivelse eller et eksempelbilde. Dette bidrar til økt fleksibilitet og forbedrer brukeropplevelsen i interaksjonen mellom menneske og datamaskin. I denne sammenhengen introduserer vi OV-DETR, en åpen-vokabular detektor bygget på Detection Transformer (DETR) arkitekturen. Etter opplæring kan OV-DETR oppdage ethvert objekt, gitt enten klassens navn eller et eksempelbilde.

Hovedutfordringen med å tilpasse DETR for åpen-vokabular deteksjon er mangelen på tilgang til et klassifikasjonskostnads-matrise for nye klasser, ettersom det ikke finnes merkede bilder av disse klassene. Dette hindrer modellen fra å gjøre nøyaktige prediksjoner for nye, usette objekter. For å løse denne utfordringen reformulerer vi læringsmålet som en binær samsvaringsoppgave mellom input-spørringer og de tilsvarende objektene. Denne strategien gjør det mulig for modellen å lære robuste korrespondanser som generaliserer godt til usette spørringer under testing.

Under trening kondisjoneres Transformer-dekoderen på input-embeddingene som er hentet fra en forhåndstrent visjon-språk-modell, som CLIP. Dette gir mulighet for å matche både tekst- og bilde-spørringer, og dermed åpne muligheten for mer fleksible brukergrensesnitt der både tekstbeskrivelser og bilder kan brukes for å gjenkjenne objekter. Gjennom omfattende eksperimenter på LVIS og COCO-datasett har vi vist at OV-DETR, som er den første end-to-end Transformer-baserte åpen-vokabular detektoren, overgår eksisterende metoder på flere viktige områder.

En viktig komponent i utviklingen av åpne vokabular-detektorer som OV-DETR er å overvinne de tradisjonelle begrensningene som følger med kjente datasettene som Pascal VOC og COCO. Disse datasettene inneholder et begrenset antall objektklasser, og modeller trent på slike datasett kan kun gjenkjenne objekter fra disse forhåndsdefinerte klassene. Det betyr at dersom deteksjonsmodellen aldri har sett et spesifikt objekt under treningen, vil den ikke kunne gjenkjenne det, selv om det er tilstede i bildet. Dette er et klart hinder for anvendelser hvor det er behov for å oppdage objekter fra et potensielt ubegrenset sett med kategorier.

For å løse dette problemet benytter man ofte teknikker som "zero-shot learning", hvor modeller er i stand til å gjenkjenne objekter fra klasser de ikke har sett under trening. Dette gjøres ved hjelp av teknologier som ord-embedding projeksjoner, hvor tekstlige representasjoner av objektene kan kobles til bilder, og dermed skape en bro mellom visuelle og tekstuelle data. Men de fleste tradisjonelle metodene som benytter seg av "zero-shot learning" har sine begrensninger når det gjelder nøyaktighet og generell anvendelighet.

En annen fordel med åpen-vokabular deteksjon er at den kan gjøre modeller mer effektive i den virkelige verden, hvor det ofte ikke er praktisk eller økonomisk mulig å samle et stort nok datasett for hver tenkelig objekttype. Å kunne anvende en modell som generaliserer godt til nye, usette objekter, uten behov for omfattende merking og retrening av modellen, er derfor en viktig utvikling innenfor datavisjon og maskinlæring.

I tillegg er det viktig å merke seg at implementering av slike åpne vokabular-detektorer ikke bare handler om deteksjon i tradisjonelle bilder, men kan også utvides til flere modaliteter, som video og punkt-skydata. Ved å bruke teknikker som "Detection Transformers", som er i stand til å håndtere både sekvensielle og romlige data, kan det være et viktig skritt mot mer fleksible og robuste systemer i en rekke applikasjoner – fra autonomi til sikkerhetsindustrien.

En annen viktig innsikt er at den kontinuerlige utviklingen av vision-language modeller, som CLIP, gir et fundament for å bygge slike åpne vokabular-detektorer. Disse modellene lærer ikke bare å forstå bilder, men også hvordan de er relatert til tekst, og dermed kan de håndtere et bredere spekter av input fra brukeren. Det gjør det mulig for modeller som OV-DETR å operere på en måte som tidligere ville vært umulig med tradisjonelle metoder. For eksempel, ved å bruke tekstforståelse og visuell representasjon på en sammenkoblet måte, kan systemer bedre forstå konteksten bak objektene, noe som gir mer presise og effektive resultater.

Endtext