Transformers har blitt en dominerende arkitektur i feltet maskinlæring, og har vist seg å være særdeles effektive for oppgaver relatert til både tekst og bilder. De grunnleggende prinsippene for transformer-nettverk ble først introdusert i artikkelen "Attention is All You Need" av Vaswani et al. (2017), som introduserte den revolusjonerende ideen om selvoppmerksomhet (self-attention) for å behandle sekvenser av data. Denne tilnærmingen har siden blitt tilpasset og videreutviklet for visuelle oppgaver, med en rekke varianter og forbedringer.

Den mest kjente tilpasningen til visuelle data er Vision Transformer (ViT), som er en direkte anvendelse av transformer-arkitekturen på bilder. I motsetning til tradisjonelle konvolusjonelle nevrale nettverk (CNN), som behandler bilder i form av lokale filtre, deler ViT bildet opp i mindre biter (patcher) og bruker en lineær projeksjon for å behandle disse bitene som sekvenser, lik hvordan ord behandles i tekstbaserte transformers.

Videre har flere nyere tilnærminger som Swin Transformer og MobileViT forsøkt å forbedre på ViT ved å introdusere hierarkiske strukturer og vekt på mobilvennlighet. Swin Transformer, for eksempel, bruker en metode kjent som "shifted windows" for å forbedre beregningshastigheten og redusere den nødvendige beregningskompleksiteten. Dette gjør modellen spesielt godt egnet for oppgaver der både detaljer og bredde er nødvendige for å forstå bildet.

Selv om transformer-modeller har hatt stor suksess på visuelle oppgaver, er det ikke bare deres anvendelse på bilder som har vært innovativ. Modellen ViLBERT og senere CLIP har åpnet opp muligheten for å koble sammen visuelle data med tekst, og dermed muliggjøre dypere forståelse av multimodale data. Dette har ført til utvikling av vision-language modeller som kan utføre oppgaver som visuell spørsmålsbesvarelse, bildebeskrivelse og bildetekstgenerering med høy presisjon. I denne sammenhengen har transformer-modeller vist sin styrke i å koble kontekstuelle informasjon fra bilder og tekst for å generere meningsfulle, tverrfaglige representasjoner.

Spesielt har modeller som GPT-4 og BLIP brukt transformers til å integrere visuelle og tekstlige komponenter på en måte som gjør at de kan "forstå" bilder og tekst på et mer kontekstuell nivå. Dette har ført til betydelige fremskritt i maskinforståelse av hvordan bilder og tekst er sammenkoblet, og hvordan slike koblinger kan utnyttes for oppgaver som krever både visuell og språklig resonnering.

Samtidig er det viktig å merke seg at det finnes flere utfordringer som fortsatt må overvinnes for å maksimere potensialet til transformers i visuell representasjonslæring. En stor utfordring er beregningskompleksiteten som oppstår med større datamengder. Selv om transformer-modeller har vist seg å være kraftige, krever de ofte enorm regnekraft, noe som kan gjøre dem utfordrende å implementere på ressurssvake enheter som mobile enheter. Nye arkitekturer som MobileViT prøver å adressere dette problemet ved å optimalisere transformer-strukturene for bruk på mobile enheter, men det er fortsatt et aktivt forskningsområde.

En annen utfordring er behovet for store mengder merket data for å trene transformer-modeller. Selv om transformerbaserte modeller har vist lovende resultater på oppgaver som bildegjenkjenning, er de fortsatt avhengige av store mengder annoterte data for å lære effektive representasjoner. Selv om selvsupervisert læring, der modellen lærer fra umerkede data, er et voksende område, er det fortsatt mange aspekter ved visuell representasjonslæring som kan dra nytte av ytterligere innovasjon på dette feltet.

For å oppsummere, transformer-modeller har ført til en dramatisk forbedring i evnen til å håndtere visuelle data, spesielt når de kombineres med tekst. Gjennom utviklingen av ulike modeller og arkitekturer har transformer-modeller ikke bare revolusjonert hvordan vi behandler bilder, men har også gjort det mulig å koble sammen ulike modaliteter på en måte som tidligere var utenkelig. Dette har åpnet døren for en rekke spennende applikasjoner, fra forbedrede bildesøk til multimodale spørsmål-svar-systemer.

Det er imidlertid viktig å merke seg at dette området fortsatt er i rask utvikling. For å utnytte transformer-modellenes fulle potensial, kreves det fortsatt betydelig innsats for å overvinne utfordringer knyttet til beregningskraft og datamengder, samt å forbedre tilnærmingene for selvsupervisert læring og andre teknikker som kan lette bruken av transformers på mobile enheter. Videre er det behov for å utforske hvordan transformer-modeller kan tilpasses spesifikke domener, for eksempel medisin eller kunst, for å oppnå mer spesialisert forståelse og anvendelse av visuelle data.

Hvordan kan naturlig språk brukes til å generere realistiske 3D-bevegelser?

Utviklingen innen tekstbasert generering av tredimensjonale menneskelige bevegelser markerer et paradigmeskifte i samspillet mellom menneskelig uttrykk og datagenerert bevegelse. I stedet for å være avhengig av dyre og teknisk krevende motion capture-systemer eller manuell animasjon i programvare som Blender og Maya, introduserer nyere forskning metoder som gjør det mulig å generere realistiske og varierte bevegelsessekvenser utelukkende basert på naturlig språk. Dette muliggjør en mer demokratisk tilnærming til 3D-produksjon, hvor både amatører og profesjonelle får tilgang til verktøy som tidligere krevde spesialisert kunnskap og infrastruktur.

MotionDiffuse er et sentralt eksempel på hvordan den generative kraften i diffusjonsmodeller kan utnyttes for å heve kvaliteten på bevegelsesgenerering betraktelig. Tidligere metoder som TEMOS og MotionCLIP ble begrenset av sin manglende evne til å produsere stiliserte og komplekse bevegelser, særlig når det gjaldt å tolke varierte eller nyanserte tekstbeskrivelser. De kunne kun håndtere korte instruksjoner og manglet mulighet for finjustering. MotionDiffuse angriper disse utfordringene ved å tilpasse diffusjonsteknikker – som tidligere hovedsakelig har vært brukt i bildegenerering – til det mer krevende domenet for tidsavhengige, kinematiske sekvenser.

Kjernen i MotionDiffuse ligger i en effektiv arkitektur som kombinerer semantiske tekstegenskaper med bevegelsesdata i en felles representasjon. Dette muliggjør generering av bevegelse som er både koherent og nyansert i forhold til det språklige input. Modellen opererer ikke bare på nivået av syntetisk rekonstruksjon, men inkorporerer også en strukturert forståelse av menneskelig motorikk. Dermed kan den generere bevegelser som både er fysiologisk plausible og estetisk overbevisende.

Men selv med disse forbedringene forblir spørsmålet om kreativ fleksibilitet sentralt. Derfor introduserer forskerne et konsept kalt retrieval-augmented generation. Dette innebærer at modellen henter relevante bevegelseseksempler fra en database – basert på både semantiske og kinematiske trekk – og inkorporerer disse som veiledning i den generative prosessen. Dette gir modellen et rikere kontekstgrunnlag og fungerer som en bro mellom datadrevne bevegelsesarkiv og generative algoritmer. ReMoDiffuse, som bygger videre på dette rammeverket, demonstrerer hvordan slike hybride tilnærminger kan oppnå høyere presisjon og mangfold i utdata, og samtidig redusere usikkerheten i modellens prediksjoner.

Et annet kritisk aspekt er finmasket kontroll. For at slike systemer skal være nyttige i praksis – enten det gjelder filmproduksjon, spillutvikling, trening av roboter eller virtuell virkelighet – må brukeren kunne justere bevegelser i detalj, for eksempel ved å spesifisere tempo, stil, intensitet eller emosjonell valør. Løsningene foreslått i denne forskningen integrerer latente variabler som kan manipuleres eksplisitt, noe som gjør det mulig for brukeren å finjustere resultatet uten å måtte formulere nye tekstbeskrivelser hver gang.

Virkningen av denne teknologien strekker seg langt utover det

Hvordan kan uavhengig kontroll av kroppsdelene forbedre 3D-menneskelig bevegelsesgenerering?

I prosessen med støyfjerning predikerer MotionDiffuse støytermen εθ (xt , t, text) ∈ F×D R, hvor F representerer antall rammer, og D er dimensjonaliteten til hver posisjon. Denne støytermen styrer retningen for støyfjerning i hele kroppen. Inspirert av interpolasjon av latent kode, introduserer MotionDiffuse en "støyinterpolasjonsmetode" for uavhengig kontroll over forskjellige kroppsdelene. Under hver støyfjerningsprosess beregnes støytermen for hver kroppsdel εj = εθ (xt , t, Text∗,j ), j ∈ [1, NS]. Disse termene kombineres gjennom et spesifikt uttrykk som involverer en vektor som indikerer den aktuelle kroppsdelens betydning. Denne tilnærmingen muliggjør finjustering av bevegelsen på et detaljert nivå ved å kontrollere bevegelsen av hver kroppsdel uavhengig av de andre.

Tiden er en viktig faktor i bevegelsesgenereringen, og MotionDiffuse benytter en tidsavhengig kontrollmekanisme for å håndtere forskjellige tidsintervallers påvirkning på bevegelsen. Dette gjør det mulig å kontrollere hvordan støytermen utvikler seg over tid, samtidig som den reduserer uønskede variasjoner mellom de forskjellige tidsintervallene. Løsningen er å interpolere støytermene for hvert tidsintervall og korrigere eventuelle avvik ved hjelp av en gradientbasert tilnærming. Denne metoden muliggjør en jevn overgang mellom forskjellige tidsstadier, samtidig som den bevarer den overordnede bevegelseskohesjonen.

Det er også viktig å merke seg hvordan fine-grained generering introduserer utfordringer for tradisjonelle metoder. I testing kan MotionDiffuse produsere glatte bevegelser i enkle scenarier, men den mangler fleksibiliteten til å håndtere komplekse, detaljrike bevegelsesbeskrivelser på en effektiv måte. For å adressere dette introduseres FineMoGen, som bruker rom-tid uavhengig modellering i oppmerksomhetsmodulen for å forbedre resultatene under testing. Denne metoden innebærer en kombinasjon av romlig og tidsmessig oppmerksomhet for å generere mer presise bevegelsesmønstre som holder seg konsistente gjennom hele sekvensen.

En annen viktig komponent i FineMoGen er basert på en blanding av effektiv selv- og tverr-oppmerksomhet. I denne tilnærmingen projiseres bevegelses- og tekstfunksjonssekvenser lineært ved hjelp av vektorer, og et matriseprodukt brukes til å generere globale maler som senere blir raffinert gjennom oppmerksomhetsmekanismer. Denne prosessen gjør at modellen kan behandle forskjellige sekvenser samtidig og effektivt kombinere informasjon fra flere kilder.

Den rom-tid uavhengige modelleringen forbedres ytterligere ved introduksjonen av Spatio-Temporal MIxture Attention (SAMI). SAMI deler opp oppmerksomheten i to grener: en tidsgren og en romlig gren. Den tidsmessige grenen modellerer interaksjoner mellom forskjellige tidsintervall, mens den romlige grenen fokuserer på de ulike kroppsdelene. Ved å tildele hver oppmerksomhetshode en spesifikk kroppsdel, muliggjør SAMI mer presis og detaljert modellering av bevegelse. Dette gjør det mulig å håndtere komplekse interaksjoner mellom kroppsdeler og tid på en måte som ikke var mulig med tidligere metoder.

SAMI forbedrer også samspillet mellom kroppsdelene ved hjelp av et læreparameterviktsystem som fanger den relative betydningen av hver kroppsdel i forhold til de andre. Denne metoden gjør at modellen kan forstå og generere bevegelse på et nivå som respekterer de naturlige samhandlingene mellom kroppsdeler.

I tillegg til tekniske forbedringer gir denne tilnærmingen flere praktiske fordeler. Ved å kunne kontrollere og forutsi bevegelse på så detaljert nivå, åpnes nye muligheter for applikasjoner innenfor animasjon, spillutvikling og medisinsk rehabilitering, der presis kontroll over menneskelige bevegelser er essensielt. Dette gjør teknologien spesielt verdifull for bruksområder som krever stor nøyaktighet i bevegelsesanimasjoner.

Den rom-tids uavhengige oppmerksomhetsmodellen åpner også muligheten for å implementere mer avanserte teknikker for generering av realistiske og dynamiske 3D-bevegelser. Ved å forstå og kontrollere hvordan bevegelse utvikler seg både i tid og rom, kan man oppnå en høy grad av realisme og fleksibilitet i genereringen av menneskelig bevegelse, som igjen kan brukes i en rekke innovative bruksområder.

Hvordan kan finjusterte visjon-språkmodeller kalibreres for åpne vokabularer uten å gå på bekostning av klassifikasjonsnøyaktighet?

Visjon-språkmodellen CLIP fungerer ved å sammenligne bilde- og tekstrepresentasjoner for å avgjøre hvor godt et bilde samsvarer med en tekstlig klassebeskrivelse. I denne sammenhengen spiller modellens evne til å tilpasse seg nye, åpne vokabularer—det vil si klasser som ikke var eksplisitt representert under trening—en avgjørende rolle for anvendbarheten i praksis. Mens CLIP som pretrent modell har vist god kalibrering ved zero-shot klassifisering, blir dette mer utfordrende etter finjustering med prompt-tuning metoder som CoOp og CoCoOp. Disse metodene søker å lære kontekstuelle tekstprompt ved hjelp av et sett av lærevillige token, som forbedrer ytelsen i spesifikke oppgaver, men samtidig oppstår ofte et problem med påliteligheten av de predikerte sannsynlighetene.

Forventet kalibreringsfeil (Expected Calibration Error, ECE) måler hvor godt den predikerte sannsynligheten for en klasse samsvarer med den faktiske klassifiseringsnøyaktigheten. Empiriske studier viser at finjusterte VLM-er ofte opplever en paradoksal effekt: de har en tendens til å være underkonfidente på treningsklassene, men overkonfidente på nye, uobserverte klasser. Dette fenomenet utfordrer antagelsen om at modellens prediksjoner skal bli mer pålitelige med økt finjustering.

For å adressere dette, anvendes post-hoc kalibreringsmetoder som temperaturskalering (TS) og densitetsratio-kalibrering (DEN), samt binning-baserte metoder som isotone regresjon. Disse metodene kan effektivt forbedre kalibreringen på treningsklassene, men de generaliserer dårlig til nye klasser i åpne vokabularsettinger. Det skyldes blant annet at binning-metodene er avhengige av data fra kjente klasser, noe som gjør dem uegnet for zero-shot prediksjoner, mens skalering ofte fører til overkonfidens for ukjente klasser. Dermed står vi overfor en betydelig utfordring: Hvordan kan vi utvikle kalibreringsmetoder som fungerer like godt for både kjente og ukjente klasser?

Åpne vokabularer introduserer en betydelig tekstuell og visuell avstand mellom treningsdata og nye data, noe som reflekteres i den felles innebygde representasjonen mellom bilde- og tekstmodaliteter. Denne gapen, målt gjennom avstandsbaserte metrikker i det felles innebygde rommet, er en nøkkelfaktor som påvirker kalibreringsproblematikken. Å forstå og kvantifisere denne avstanden gir grunnlag for nye kalibreringsstrategier som tar høyde for denne domene- eller klassedivergensen.

Det er viktig å være oppmerksom på at høy nøyaktighet alene ikke er tilstrekkelig i anvendelser som krever pålitelige sannsynlighetsestimater. Modellens kalibrering har direkte implikasjoner for hvordan vi kan stole på dens prediksjoner i kritiske situasjoner, som medisinsk diagnose eller sikkerhetsrelaterte systemer. Et godt kalibrert system gir bedre grunnlag for risikovurderinger og beslutningstaking under usikkerhet. Derfor må utviklingen av visjon-språkmodeller og deres finjustering ikke bare fokusere på å maksimere klassifikasjonsytelse, men også sikre at sannsynlighetsfordelingene er meningsfulle og reflekterer modellens faktiske usikkerhet.

Videre krever robust kalibrering i åpne vokabularinnstillinger en dypere forståelse av samspillet mellom visuelle og tekstlige representasjoner, samt hvordan disse påvirkes av finjustering og prompt-design. Det innebærer at fremtidige metoder må integrere kalibrering som en grunnleggende del av læringsprosessen, og ikke som et rent post-hoc tiltak. Samtidig er det avgjørende å undersøke hvordan ulike typer tuningmetoder påvirker modellens tillitsestimater og hvordan disse kan forbedres gjennom kontekstuelle og adaptative mekanismer.

Hvordan oppnår man pålitelig kalibrering i kontrastive visjon-språk modeller?

Kontrastive visjon-språk modeller har vist seg å være svært effektive i oppgaver som krever samspill mellom visuell informasjon og naturlig språk. Disse modellene lærer å representere bilder og tekst i et felles latent rom, hvor likhet mellom visuelle og språklige elementer kan måles direkte. Et sentralt problem i denne sammenhengen er imidlertid hvordan modellens prediksjoner kan kalibreres for å reflektere pålitelig usikkerhet, det vil si at modellens sannsynligheter samsvarer med faktiske utfall.

Kalibrering handler om å justere modellens prediksjoner slik at konfidensnivået stemmer overens med sannsynligheten for korrekt klassifisering. For visjon-språk modeller med kontrastiv læring innebærer dette utfordringer knyttet til hvordan visuelle og språklige modaliteter samvirker, samt hvordan usikkerhet sprer seg i det felles representasjonsrommet. Flere nyere studier har vist at standard metoder for kalibrering, slik som temperaturskalering, ofte ikke er tilstrekkelig for å oppnå god kalibrering i slike multimodale systemer.

I stedet har det vist seg nødvendig å ta hensyn til hvordan distribusjonen av prompt-tekster påvirker modellens ytelse. Fordelingen av språkprompten har direkte effekt på modellens respons og kan endre hvordan usikkerheten manifesterer seg. Distribusjonsbevisst prompt-tuning har vist lovende resultater for å forbedre kalibreringen ved å tilpasse modellens respons til den faktiske språklige konteksten den skal operere i.

Samtidig spiller valg av datasett en avgjørende rolle for å teste og videreutvikle kalibreringsmetoder. Store og varierte datasett som Food-101, EuroSAT, og ImageNet gir ulike utfordringer innenfor visjon-språk domener, spesielt når det gjelder fin-granulær klassifisering og håndtering av out-of-distribution eksempler. Metoder som inkluderer utvalg av ulike typer outlier-data og tilpasset temperaturjustering for prøver med varierende usikkerhet, har vist seg å være effektive strategier.

Et annet aspekt som påvirker kalibreringen, er modellens arkitektur og treningsprosess. Fine-tuning av store forhåndstrente modeller med teknikker som selvregulerende prompts og multi-modale promptlæringsmetoder kan forbedre modellens evne til å tilpasse seg nye domener uten å glemme tidligere kunnskap, noe som er essensielt for stabil og pålitelig kalibrering i praktiske anvendelser. Videre har skaleringsstrategier innen visjon-språk pre-trening vist seg å øke modellens evne til å håndtere variert tekst- og bildeinput, noe som også påvirker kalibreringsnøyaktigheten positivt.

Det er viktig å forstå at kalibrering ikke bare handler om tekniske justeringer i modellens output, men også om å erkjenne og håndtere det iboende skillet mellom visuell og språklig informasjon – den såkalte modalitetsgapet. Dette gapet skaper ofte utfordringer i hvordan likheter mellom bilder og tekst tolkes, og krever at kalibreringsmetoder adresserer både modalitetsspesifikk usikkerhet og samspill mellom modalitetene. En dypere forståelse av dette gapet er derfor avgjørende for å utvikle mer robuste og pålitelige visjon-språk systemer.

I tillegg må man være oppmerksom på hvordan målinger av kalibreringsfeil gjennomføres. Standard metoder kan undervurdere usikkerhet på grunn av skjevheter i estimering, noe som understreker behovet for mer sofistikerte evalueringsmetoder som tar høyde for datadistribusjon og modellens kompleksitet.

Det er også vesentlig at leseren erkjenner kompleksiteten i å overføre resultater fra forskningssettinger til reelle anvendelser. Kalibrering må ses i sammenheng med brukskontekst, og modeller må kontinuerlig monitoreres og oppdateres for å bevare kalibreringskvalitet over tid og under skiftende forhold.