For å oppnå realistisk tekststyrt 3D-avataranimasjon starter prosessen med å transformere avatarens stående posisjon til en nøytral basisposisjon ved hjelp av en invertert lineær blend skinning (LBS). Denne metoden gjør det mulig å reversere deformasjonene som har oppstått i den opprinnelige posisjonen, slik at modellen bringes tilbake til en grunnleggende nullposisjon. Når denne basisposisjonen er etablert, kan enhver ønsket posisjon påføres med standard LBS, som sørger for anatomisk korrekt og jevn deformasjon av avataren gjennom ulike bevegelser.

Når det gjelder generering av bevegelse basert på naturlige språklige beskrivelser, har CLIP-modellen vist seg å ha begrensninger. CLIP egner seg ikke godt til å evaluere sammenhengen i hele bevegelsessekvenser eller deres naturlige flyt, men fungerer godt for å sammenligne individuelle poser med tekstbeskrivelser. Derfor anvendes en to-trinns prosess: først genereres kandidatposer som passer til den tekstlige beskrivelsen, deretter brukes disse posene som referanser for å skape sammenhengende bevegelsessekvenser.

Kandidatposene hentes fra en kodebok som er konstruert ved hjelp av en latent variabelmodell (VPoser) og datasettet AMASS. Ved å redusere dimensjonaliteten på posene til et latent rom, klustres posene i K grupper ved hjelp av K-means, og man velger deretter de mest tekstlig relevante kandidatposene basert på likhetsscore mellom tekst- og posefunksjoner. Denne fremgangsmåten unngår problemene med direkte optimalisering, som ofte resulterer i urealistiske positurer.

Den videre genereringen av bevegelsessekvenser skjer ved å trene en bevegelsesvariabelautoenkoder (VAE). Denne modellen består av en encoder som koder inn bevegelsessekvenser til latentrommet, en reparametriseringsmodul som produserer en sannsynlighetsfordeling, og en decoder som rekonstruerer bevegelsene. Treningen balanserer mellom rekonstruksjonstap og en Kullback-Leibler-divergens som sikrer at latentfordelingen holder ønsket form.

Optimalisering av bevegelseslatentkoden skjer med tre nøkkelbegrensninger: at genererte bevegelser nærmer seg referanseposene (Lpose), at bevegelsesintensiteten kontrolleres for å unngå overutjevning (Ldelta), og at posene i sekvensen samsvarer med den tekstlige bevegelsesbeskrivelsen (Lm_clip). Denne kombinasjonen sørger for både troverdighet og overensstemmelse med det ønskede innholdet.

I sum muliggjør denne metoden tekststyrt, zero-shot animasjon av 3D-figurer som opprettholder anatomi og bevegelsesrealistisk flyt. Det kombinerer kraften i tekst-til-bilde-modellen CLIP for å vurdere poselikhet med dyp læring i latentrom for både posisjon og bevegelse, og et velbalansert tap for å sikre optimal animasjon.

Det er viktig å forstå at animasjonens kvalitet ikke bare avhenger av evnen til å matche tekstbeskrivelser, men også av bevegelsenes dynamikk og sammenheng. Dermed er integrasjon av bevegelsespriorer avgjørende for at sekvensene skal fremstå naturlige og troverdige, og det understreker begrensningene ved kun å bruke tekstbasert veiledning uten ekstra modellering av fysisk bevegelse. For den som ønsker å utvikle eller anvende slike systemer, er kjennskap til både inverse deformasjonsteknikker og latent variabelmodellering essensielt, samt en forståelse av hvordan optimalisering kan balansere flere motstridende krav i generert animasjon.

Hvordan kan Vision-Language Modeller revolusjonere vår forståelse av kunstig intelligens?

Vision-Language modeller (VLM) representerer en fascinerende tverrfaglig tilnærming der datamodeller kombinerer både visuell og språklig informasjon for å forstå og generere innhold. Disse modellene har på kort tid revolusjonert måten vi ser på samspillet mellom syn og språk i kunstig intelligens. Gjennom en integrering av bilder og tekst har vi nå muligheten til å bygge systemer som kan forstå, analysere og generere innhold som både er visuell og språklig i naturen. Dette gjør at maskiner kan løse oppgaver som tidligere var utilgjengelige, som bildetekst-generering, bildeklassifisering basert på tekstbeskrivelser, eller til og med forståelse av video gjennom både tekst og bilder.

I de siste årene har det vært en eksplosjon i utviklingen av Vision-Language modeller. Dette har ført til nyvinninger innen et bredt spekter av anvendelser, fra autonom kjøring og helsesektoren til kunstig intelligens som kan forstå filmklipp og bilder i en kontekstuell sammenheng. Samtidig har denne utviklingen gitt nye utfordringer. For å forstå hvorfor, er det nødvendig å utforske noen av de viktigste prinsippene bak disse modellene.

Vision-Language modellene bygger på grunnleggende konsepter fra både datamaskin-syn og naturlig språkprosessering. På den ene siden lærer modellen å forstå bilder gjennom tradisjonelle syn-algoritmer, som konvolusjonsnevrale nettverk (CNN), som er effektive på oppgaver som bildegjenkjenning. På den andre siden integrerer de språklige prosesser ved å bruke modeller som transformer-baserte teknologier, slik som GPT eller BERT, som gir en dyp forståelse av tekst og kontekst.

Denne dualiteten skaper et kraftig rammeverk for læring, men også for utfordringer. For eksempel er det teknisk krevende å utvikle metoder for effektivt å kombinere informasjon fra to svært forskjellige kilder: visuell og språklig. En modell som kan generere en tekstbeskrivelse fra et bilde, eller som kan besvare spørsmål basert på bilder, krever at modellen ikke bare forstår hva som vises i bildet, men også den sammenhengen som bildet er en del av. Denne utfordringen blir spesielt kompleks når man prøver å bygge modeller som kan generalisere til nye og ukjente situasjoner.

En viktig fremgangsmåte for å forbedre Vision-Language modellene er ved å bruke pre-treningsteknikker som gjør at modellen kan lære grunnleggende representasjoner fra store mengder data før spesifikke oppgaver blir adressert. Dette gjør at modellene kan få en mer generisk forståelse av visuelle og språklige mønstre, som deretter kan finjusteres for mer spesifikke anvendelser. Et slikt rammeverk er avgjørende for å lage modeller som kan håndtere et bredt spekter av oppgaver, fra enkle bildegjenkjenningstester til komplekse interaktive applikasjoner.

Når man ser på fremgangen av Vision-Language modeller, er det tydelig at det ikke bare er selve teknologien som er viktig, men også hvordan den brukes og tilpasses spesifikke oppgaver. Modellenes evne til å forstå og generere innhold er direkte knyttet til hvordan man forbereder dataene og hvilke spesifikke teknikker som benyttes for å optimalisere deres prestasjoner. Dette har ført til utviklingen av teknikker som test-tid prompt tuning og differensierbare prompt-læringsmetoder, som gir modellene fleksibilitet til å tilpasse seg nye oppgaver uten behov for omfattende trening fra bunnen av.

Utover de tekniske aspektene, er det viktig å merke seg de etiske og praktiske konsekvensene av å utvikle og implementere slike systemer. Et spørsmål som stadig tas opp er hvordan disse modellene håndterer sensibelt innhold. Ettersom disse systemene kan brukes til å analysere og generere bilder som kan være potensielt misvisende eller skadelige, er det avgjørende at utviklingen av slike modeller også innebærer strenge retningslinjer og ansvarlige tilnærminger. Det er for eksempel viktig å forstå at en modell som er trent på et ensidig datasett kan ende opp med å skape skjeve eller forutinntatte resultater.

For leseren er det avgjørende å forstå at suksessen til Vision-Language modellene ikke kun ligger i teknologien, men i den nøyaktige bruken og tilpasningen av disse modellene til konkrete oppgaver. Den teknologiske fremgangen har allerede vist potensial for å revolusjonere mange forskjellige bransjer, fra medieindustrien til helsesektoren og bilindustrien. Det som også må vurderes er de kontinuerlige utfordringene knyttet til modellens etiske implementering og hvordan vi kan bruke disse modellene på en ansvarlig måte for å unngå utilsiktede negative konsekvenser.

I tillegg til de tekniske og etiske spørsmålene er det viktig å anerkjenne de potensielle anvendelsene av disse modellene. Det å bygge bro mellom bilder og tekst åpner nye muligheter for interaktive og adaptive systemer som kan forstå og responderer på menneskelige behov på en mer naturlig måte. Ved å bruke en multimodal tilnærming kan vi forvente mer dynamiske og intelligente applikasjoner, som kan ha en betydelig innvirkning på alt fra automatisert kundeservice til mer presis medisinsk diagnose og behandling.

Hvordan kan visjon-språk-modeller forbedres med lette adaptere i få-skuddsscenarier?

CLIP har etablert seg som en banebrytende visjon-språk-modell ved å utnytte store mengder bilde-tekst-par for å lære felles representasjoner, noe som muliggjør kraftig nullskudds-klassifisering. Modellen benytter to separate kodere for visuelle og tekstuelle data, og genererer et felles semantisk rom gjennom kontrastiv læring. Likevel oppstår et betydelig prestasjonsgap når modellen brukes i få-skuddsscenarier uten videre finjustering. I møte med dette utfordringsbildet har ulike tilnærminger blitt foreslått for å effektivt tilpasse CLIP til nedstrømsoppgaver.

CoOp representerer et forsøk på å optimalisere kontinuerlige tekstuelle prompt, og viser tydelig forbedringer i ytelse ved å justere hvordan kategorier representeres språklig. Men til tross for suksessen med prompt-optimalisering, er dette ikke den eneste veien videre. Tip-Adapter og CLIP-Adapter introduserer en alternativ strategi, der lette adaptermoduler integreres inn i den visuelle banen av CLIP uten å endre de forhåndstrente vektene direkte. Dette gir en langt enklere og mer effektiv vei til tilpasning.

Tip-Adapter, i sin opprinnelige form, benytter hurtigbufferlagrede nøkler og verdier fra nullskudds CLIP, og bruker dem som referanser for få-skudds klassifisering uten behov for opplæring. Dette oppnår nesten like høy nøyaktighet som CoOp, men uten kostnaden ved å kjøre lange opplæringsrunder. Likevel kan ytelsen ytterligere forbedres med en minimal mengde finjustering. Dette skjer i Tip-Adapter-F, hvor de hurtigbufferlagrede nøklene gjøres trenbare og optimaliseres over bare 20 epoker. Resultatet er bemerkelsesverdig: modellen når ny toppytelse på ImageNet med drastisk redusert treningsbelastning – fra 200 epoker i CoOp til bare 20. Samtidig bevares både inferenshastighet og minneforbruk på et lavt nivå.

I motsetning til CoOp og CLIP-Adapter, som krever omfattende ressurser og lang treningstid, tilbyr Tip-Adapter-F en attraktiv balanse mellom nøyaktighet, effektivitet og enkel implementasjon. Den er i stand til å bevare den semantiske dybden fra CLIP samtidig som den tilpasser seg nye oppgaver med minimal innsats.

Innenfor rammen av multimodal AI har dette arbeidet dype implikasjoner. Tidligere metoder for visjon-språk-integrasjon, som ViLBERT, LXMERT og UNITER, bygget på BERT-lignende strukturer og krevde tungtrente komponenter for å oppnå tverrmodal forståelse. CLIP, og senere ALIGN og DeCLIP, snudde dette paradigmet ved å bruke kontrastiv læring på internett-skrapede datasett, og dermed skape robuste, generaliserbare representasjoner. Imidlertid gjenstår spørsmålet om hvordan man effektivt tilpasser slike modeller til spesifikke oppgaver uten å ofre generaliserbarhet eller regnekraft.

Adapter-baserte løsninger er et svar på dette spørsmålet. Ved å legge til lette moduler som kan trenes uavhengig av kjernen i CLIP, unngår man både omtrening av hele modellen og problemer knyttet til katastrofal glemsel. CLIP-Adapter, inspirert av lignende metoder brukt i NLP, fungerer som en slags bro mellom nullskudds-generalisering og oppgave-spesifikk finjustering. Den bygger videre på ideen om parameter-effektiv læring, hvor man får mest mulig ut av minimale justeringer.

Tip-Adapter og spesielt Tip-Adapter-F går enda lenger i å redusere barrierene for praktisk bruk. Eksperimentene viser at selv med bare noen få eksempler per klasse – som i et 16-skudd ImageNet-oppsett – kan adapteren konkurrere med langt mer komplekse tilnærminger. Samtidig opprettholdes både lav GPU-bruk og rask inferens, noe som er avgjørende for distribuerte eller ressurssvake systemer.

Det som er viktig å forstå er at denne tilnærmingen ikke bare handler om ytelse i klassiske metrikker. Den peker mot en bredere metodologisk endring innen AI-modellutvikling, der modularitet, lav ressursbruk og fleksibilitet blir like viktige som nøyaktighet. Adapterbaserte teknikker, som tidligere var en nisje innen NLP, viser seg å ha enormt potensial også i visjon-språk-domener. De åpner for tilpasning av store modeller i kontekster der datatilgang er begrenset, eller der hurtig distribusjon er nødvendig.

Dette bringer oss til en dypere erkjennelse: i en verden der modeller trenes på uoverskuelige mengder data, og hvor ressurser ikke alltid er tilgjengelige for finjustering, kan løsningen ligge i minimale, målrettede modifikasjoner. Adaptere representerer en slik løsning – ikke som en midlertidig omvei, men som en strukturell innovasjon som gjenspeiler behovet for skalerbar, effektiv og bærekraftig AI.

Hvordan effektivt finjustere visjonsmodeller med Neural Prompt Search (NOAH)

De siste årene har størrelsen på visjonsmodeller vokst eksponentielt, spesielt med fremveksten av Vision Transformers. Denne raske veksten har ført til utviklingen av parametereffektive tilpasningsmetoder, som adapter-lag eller lav-rank tilpasningslag, som gjør det mulig å finjustere en liten delmengde av modellens parametere mens flertallet av de forhåndstrente parametrene forblir fryst. Men utformingen av en effektiv tilpasningsmetode er ikke en enkel oppgave: det innebærer ofte å utforske flere designvalg, og hvert nedstrømsdatasett kan kreve skreddersydde løsninger.

I denne sammenhengen introduserer vi Neural prOmpt seArcH (NOAH), en nyskapende tilnærming som bruker en nevrale arkitektur-søk algoritme for å automatisk lære det optimale designet for promptmoduler i store visjonsmodeller, spesifikt tilpasset hvert nedstrømsdatasett. Dette kapittelet utforsker de forskjellige metodene for effektiv finjustering og diskuterer hvordan NOAH representerer et skritt videre i å forbedre tilpasningen av visjonsmodeller.

Visjonsmodeller har gjennomgått en betydelig utvikling, fra de første arkitekturene som ResNet, som bestod av titalls millioner parametere, til dagens Transformer-baserte modeller som inneholder hundrevis av millioner eller til og med milliarder av parametere. Denne veksten har ført til store fremskritt på tvers av flere oppgaver, men har også introdusert nye utfordringer, spesielt relatert til overfitting i transfer learning-sammenhenger. Større modeller er mer tilbøyelige til å overtilpasse seg, noe som skaper behov for nye tilnærminger som kan optimalisere disse modellene uten å kreve enorm datakraft eller ressurser.

I kampen mot overfitting har forskere utviklet forskjellige metoder for å finjustere visjonsmodeller, som adaptere, lav-rank tilpasninger (LoRA), og Visual Prompt Tuning (VPT). Adapter-metoden innebærer å legge til et lite nettverk som fungerer som en flaskehals i et blokkutsagn, mens LoRA bruker rang-dekomponerte residual-lag. VPT derimot, introduserer lærbare "tokens" i inngangen til Transformer-blokker, på en måte som minner om å legge til kunstige "piksler". Hver av disse metodene har sine styrker, men ingen av dem har vist seg konsekvent å være den beste løsningen på tvers av alle datasett.

En gjennomgang av disse metodene på VTAB-1k-benchmarken, som dekker 19 ulike visjonsdatasett, viser flere begrensninger. Først og fremst presterer ingen metode jevnt over alle datasett. For eksempel, mens VPT utmerker seg i oppgaver relatert til forståelse av scene-struktur, som SmallNORB/azimuth, har den problemer på oppgaver som SmallNORB/elevation og Clevr/count, der Adapter og LoRA gir bedre resultater. Dette peker på nødvendigheten av omfattende evalueringer for å finne den beste metoden for hvert spesifikt datasett.

For å løse disse utfordringene har datamaskinsynsamfunnet vendt seg mot parametereffektive tilpasningsmetoder. Disse teknikkene har som mål å tilpasse forhåndstrente modeller ved å endre bare en liten del av parametrene deres, vanligvis gjennom tillegget av kompakte, trenbare komponenter som er optimalisert for spesifikke oppgaver. Med slike metoder kan vi unngå behovet for å finjustere hele modellen, noe som sparer både tid og ressurser.

NOAH tar det et steg videre ved å kombinere flere av disse metodene i en effektiv, automatisert prosess. Ved å bruke en nevrale arkitektur-søk algoritme, lærer NOAH automatisk det beste designet for promptmodulene, tilpasset hvert spesifikke datasett. Dette betyr at metoden kan tilpasse seg forskjellige oppgaver og utfordringer uten å måtte påføre manuell justering for hvert nye problem. Dette kan føre til mer presise modeller som er bedre i stand til å tilpasse seg varierte og komplekse datasett, og dermed utløse potensialet til store visjonsmodeller på en mer effektiv måte.

En annen viktig komponent ved NOAH er hvordan det overgår de eksisterende metodene som Adapter, LoRA og VPT. Det er viktig å merke seg at ingen av disse metodene er perfekte på alle typer oppgaver. En stor fordel med NOAH er at det kan kombinere styrkene til flere metoder, og dermed forbedre den generelle ytelsen. I tillegg kan den automatiserte prosessen med å finne det beste designet for promptene gjøre det enklere å tilpasse modeller til nye, ukjente datasett.

For å forstå potensialet til NOAH fullt ut, er det viktig å erkjenne hvordan nevrale arkitektur-søk fungerer. Dette er en teknikk der et nevralt nettverk benyttes til å utforske forskjellige arkitekturvalg og finne de beste kombinasjonene for en bestemt oppgave. I tilfelle av NOAH, søker algoritmen etter den optimale sammensetningen av promptmoduler som kan finjusteres for spesifikke visjonsmodeller. Denne tilnærmingen gjør det mulig å håndtere de utfordringene som oppstår ved finjustering av store modeller, som for eksempel beregnings- og lagringsbehovene.

For leseren er det viktig å forstå at ikke alle visjonsmodeller kan tilpasses på samme måte. De forskjellige metodene for finjustering har sine egne fordeler og svakheter, og det kan være nødvendig å bruke flere teknikker i kombinasjon for å oppnå best mulig resultat. NOAH tilbyr en lovende løsning ved å kombinere disse metodene på en intelligent og automatisert måte, og gjør det lettere å tilpasse store visjonsmodeller til en bredere rekke oppgaver og datasett. Med tiden kan slike metoder revolusjonere måten vi finjusterer visjonsmodeller på og muliggjøre mer effektiv bruk av ressurser i maskinlæring.

Hvordan OV-DETR Forbedrer Åpen-Vokabular Objektgjenkjenning

OV-DETR er en avansert tilnærming til objektgjenkjenning som tar sikte på å utvikle en effektiv og presis detektor som kan identifisere objekter beskrevet av tilfeldige tekstuelle innganger eller eksemplifisert gjennom bilder. Denne metoden tar utgangspunkt i suksessen til DETR, som elegant omformulerer objektgjenkjenning som et end-to-end settmatchingproblem for lukkede sett. Dette eliminerer behovet for manuelle komponenter som for eksempel anker-generering og ikke-maksimal undertrykkelse, og legger dermed til rette for en mer strømlinjeformet og effektiv prosess.

Mens DETR fungerer bra for lukkede sett hvor alle objektene er kjente og klassifiserte på forhånd, står det overfor betydelige utfordringer når det gjelder å håndtere objekter uten kjente etiketter. Den tradisjonelle tilnærmingen innebærer trening av en klassespesifikk modul som håndterer alle kjente klasser, som i metoden ViLD, men dette er utilstrekkelig for å oppdage objekter som ikke har noen forhåndsdefinerte etiketter eller bilder.

OV-DETR løser dette ved å reformulere den konvensjonelle settmatching-oppgaven til et betinget binært matchingrammeverk. I stedet for å skille objektene fra "ikke-objektene" i lukkede sett, bruker OV-DETR betingede innganger som tekstbeskrivelser eller eksempelbilder for å matche objektene i et åpent vokabular. Dette gjør at modellen kan generalisere til nye klasser som ikke har tilknyttede merkede bilder eller objekter i treningssettet.

For å gjøre dette, begynner OV-DETR med en standard DETR-modell som er designet for lukkede sett, og integrerer deretter betingede innganger som kan være tekstuelle beskrivelser eller bilde-embeddinger generert fra CLIP-modellen. Denne endringen i tilnærming gjør at systemet kan matche objekter med en viss grad av fleksibilitet, som gjør det mulig å oppdage objekter i et åpent vokabular – både for kjente og ukjente klasser.

Grunnleggende for denne metoden er endringen i måten matching skjer på. I stedet for den vanlige bipartite matching tilnærmingen som brukes i lukkede sett, hvor det gjelder å finne en optimal en-til-en korrespondanse mellom prediksjoner og sannhetsverdier, bruker OV-DETR en betinget matching der matching skjer på tvers av betingede innganger og gjenkjente objekter. Dette gir en mer fleksibel tilnærming som er i stand til å håndtere objekter som er beskrevet av både tekst og bilder.

En viktig del av treningen er at modellen benytter både tekst- og bildebaserte betingede innganger for å trene. Ved å bruke CLIP-modellen kan både tekstlige beskrivelser og bilder konverteres til embeddinger som deretter benyttes som innganger i den transformerbaserte dekoderen. Dette gjør at modellen kan lære å matche objekter på tvers av flere modaliteter og dermed tilpasse seg nye og ukjente klasser ved hjelp av både tekst og bilder.

Treningsprosessen for OV-DETR innebærer også å generere ekstra objektforslag for novel klasser, ettersom noen av disse klassene kanskje ikke har tilknyttede tekstbeskrivelser. For novel-klasser uten tekst, bruker modellen kun bildeembeddingene som betingede innganger for å sikre at treningsdataene blir så mangfoldige som mulig.

Ettersom teknologien utvikles, gir OV-DETR nye muligheter for gjenkjenning i scenarioer hvor objektene kan være utenfor de tradisjonelle lukkede klassene. Denne fleksibiliteten gjør den godt egnet for applikasjoner som krever rask tilpasning til nye objekter eller miljøer hvor det er vanskelig å forutse hvilke objekter som kan dukke opp.

For å få mest mulig ut av OV-DETR, er det viktig å forstå at modellen ikke nødvendigvis vil fungere perfekt på alle typer data uten videre tilpasning. For eksempel, i tilfeller hvor objekter har ukonvensjonelle representasjoner eller hvor det ikke finnes tilstrekkelig treningseksempler, kan det være utfordrende for modellen å gjøre presise prediksjoner. I tillegg kan kompleksiteten i å håndtere flere modaliteter (tekst og bilder) føre til at det kreves mer omfattende treningsdata og beregningsressurser.

I tillegg er det viktig å merke seg at denne tilnærmingen, som all annen avansert maskinlæring, er avhengig av kvaliteten på inngangene. Hvis de betingede tekstene eller bildene som brukes til å matche objektene ikke er presise eller representative, kan det føre til unøyaktigheter i gjenkjenningen. Dermed kreves det en grundig evaluering og justering av treningsprosessen for å sikre at modellen lærer effektive representasjoner.