Hvordan tekstdrevne bevegelsesmodeller forbedrer generering av 3D-menneskebevegelser

Tekststyrt bevegelsesgenerering har nylig blitt et sentralt tema innen 3D-grafikk og bevegelsessyntese. I denne sammenhengen introduserer vi en videreutviklet tilnærming til bevegelsesmodellering, spesielt gjennom teknikker som forbedrer tradisjonelle modeller ved hjelp av diffusjonsmodeller, og utforsker mulighetene for mer presis og detaljert kontroll over genererte bevegelsessekvenser. Denne metoden tillater at bevegelse kan styres direkte av tekstbeskrivelser, og åpner dermed for muligheten til å generere svært varierte og naturlige menneskelige bevegelser basert på beskrivende tekstlige input.

En av de mest betydningsfulle utviklingene innen tekst-drevet bevegelsesgenerering er teknologien som gir brukeren mulighet til å spesifisere kroppsdelsinndelinger og tidssegmenter. Denne teknologien gjør det mulig å gi forskjellige tekstbeskrivelser for ulike kroppsdeler og tidsintervall. Dette kan være spesielt nyttig for applikasjoner der detaljerte og dynamiske bevegelsessekvenser er nødvendige, som i animasjon og simuleringer.

En viktig implementering av denne teknologien er brukt i MotionDiffuse, en diffusjonsmodell for bevegelse. I inferensfasen genererer denne modellen komplette bevegelsessekvenser for hver tekstprompt parallelt, og de ulike bevegelsene smelter sammen under en serie av støyreduksjonsprosesser. En annen metode, kalt FineMoGen, bruker en rom-temporal uavhengig modelleringsteknikk. Denne modellen inkorporerer kroppsdelsmodellering i FFN-strukturen (Feedforward Neural Network) og kinetisk modellering i oppmerksomhetsmekanismen, noe som gir presis kontroll over ulike kroppsdeler og tidssegmenter.

Definisjonen av et bevegelsessekvensproblem innebærer at en sekvens av bilder representeres som en matrise med dimensjoner $F \times D$ , hvor $F$ er antall rammer (frames) og $D$ er dimensjonen til hver posisjonstilstand. Hver bevegelse er representert gjennom et sett av posisjoner og hastigheter for de ulike leddene i en kropp. Dette kan variere i henhold til de forskjellige datasettene som benyttes, som for eksempel HumanML3D og KIT-ML, der koordinatsystemene for kroppens posisjoner er standardisert for å tillate presis beregning av bevegelsene.

Tekst-drevet bevegelsesgenerering innebærer at treningsdataene består av tekst og tilhørende bevegelsesmønstre. Målet under inferens er å generere en bevegelsessekvens som samsvarer med en gitt tekstbeskrivelse. Dette kalles ofte tekst-til-bevegelse (T2M) oversettelse, og det er nært knyttet til handling-betinget bevegelsesgenerering (A2M), der målet er å generere bevegelsessekvenser basert på forhåndsdefinerte handlinger. I dette tilfellet erstatter MotionDiffuse kategoribegrensninger med semantiske tekstbeskrivelser, og dermed kan handling-betinget generering forenes med T2M-pipelinen.

Når det gjelder valg av modeller, har tradisjonelle generative nettverk som GANs (Generative Adversarial Networks), AEs (Autoencoders) og VAEs (Variational Autoencoders) hatt en sentral plass i bevegelsessyntese. Likevel har disse modellene flere begrensninger, spesielt når det gjelder kompleksiteten i tekstbeskrivelser. GANs har vanskeligheter med trening, AEs og VAEs kan mangle detaljrikdom i tekstbeskrivelsene som er nødvendig for å generere svært varierte bevegelsesmønstre, og de har en tendens til å gjøre forutsigbare bevegelser. Diffusjonsmodellen som benyttes i MotionDiffuse er derfor et interessant alternativ, da den gradvis forbedrer støyende data til et mål, og kan håndtere komplekse tekstbetingelser på en mer presis og fleksibel måte.

Diffusjonsprosessen i modellen begynner med å introdusere støy i dataene, og deretter bruker modellen en revers prosess for å gradvis fjerne støy og rekonstruere den opprinnelige bevegelsen. Modellen lærer å forutsi og fjerne støy ved hjelp av tekstbeskrivelsene som veiledning, og på den måten kan en bevegelsessekvens genereres som er både relevant og realistisk i forhold til den opprinnelige teksten.

Den grunnleggende ideen bak diffusjonsmodellene er å bruke en støyprosess der dataene gradvis forvandles til hvit støy, og deretter bruke en revers prosess for å gjenopprette de originale dataene. Dette skjer gjennom en serie med iterasjoner, der hver iterasjon tar i bruk en "denoising"-prosess for å forbedre kvaliteten på de genererte bevegelsene. På denne måten kan modellen gradvis bygge opp bevegelsessekvenser som er både presise og naturlige.

En annen viktig aspekt ved denne teknologien er hvordan den gjør det mulig å kontrollere bevegelsene på detaljert nivå. For eksempel, ved å bruke et tids- og romsegmentert system, kan man generere ulike bevegelser for hver del av kroppen på spesifikke tidspunkter i sekvensen. Dette åpner for mer fleksible og dynamiske applikasjoner innen filmproduksjon, spillutvikling, virtuelle realiteter og andre områder som krever presis bevegelseskontroll.

Det er også viktig å merke seg at til tross for de avanserte mulighetene diffusjonsmodellene gir, så er det fortsatt flere utfordringer knyttet til design og implementering av slike systemer. Effektiv trening av diffusjonsmodeller krever store mengder data og tid, og det er fortsatt utfordringer med å få modellene til å håndtere mer komplekse tekstbeskrivelser som involverer flere interaksjoner mellom mennesker eller dynamiske miljøforhold.

Endtext

Hvordan Emu2 Forbedrer In-Context Læring i Multimodale Modeller

Emu2 er en multimodal generativ modell som har blitt utviklet for å håndtere ulike typer data, som tekst, bilder og video, og har oppnådd bemerkelsesverdig suksess i å lære av få eksempler. Denne modellen, som består av 37 milliarder parametre, er bygget på et generativt autoregressivt mål der modellen lærer å forutsi det neste elementet i en sekvens. Dette kan være både visuelle representasjoner og tekstlige tokens, og prosessen skjer på tvers av flere typer data. Den unike tilnærmingen til Emu2 gjør det mulig å generalisere til nye, ukjente oppgaver på en effektiv måte, selv når de ikke har blitt direkte møtt under treningen.

Modellen lærer på store multimodale sekvenser, inkludert tekst–bilde-par, tekst–video-par og sammensatte tekst–bilde–video-data. Ved å trene på disse sekvensene lærer Emu2 å håndtere og kombinere ulike typer data på en måte som er både effektiv og fleksibel. En viktig funksjon ved Emu2 er dens evne til å utføre oppgaver med minimal instruksjon eller få eksempler. Dette er spesielt synlig i konteksten av visuelle spørsmålsbesvarelser, der Emu2 viser forbedret ytelse etter hvert som antallet eksempler i konteksten øker.

Emu2s evne til å håndtere multimodal data gjør den til en svært fleksibel modell som kan bruke både tekstlige og visuelle signaler i en oppgave, og dermed åpner den døren for et bredt spekter av nye muligheter. En interessant egenskap ved Emu2 er dens evne til å reagere på visuelle ledetråder, som for eksempel sirkler tegnet på bilder. Dette viser modellens dynamiske respons på visuelle signaler, noe som er et skritt fremover i utviklingen av multimodale systemer.

Modellen har også vist fremragende resultater på visuelle spørsmål-besvarelse-oppgaver, hvor den har overgått modeller med mer komplekse arkitekturer. Ved hjelp av instruksjonsfinjustering på samtaledata har Emu2 levert topp ytelse på visuelle spørsmål-besvarelse-oppgaver, noe som understreker dens evne til å følge spesifikke instruksjoner og tilpasse seg nye oppgaver raskt.

Emu2 kan videre brukes for kontrollert visuell generering, der den mottar tekst, plassering og bildeinput for å generere bilder som er grunnlagt på de spesifiserte betingelsene. Denne evnen gjør den til et verdifullt verktøy i mange sammenhenger, fra datagenerering til praktisk applikasjon innen kunstig intelligens og kreativt arbeid.

I tillegg til de tekniske fremskrittene, er det også viktig å reflektere over de samfunnsmessige konsekvensene ved bruken av slike modeller. Det er klare bekymringer rundt misbruk og de etiske implikasjonene ved utrulling av så kraftige teknologier. Derfor er det avgjørende å balansere fremdriften med ansvarlig implementering og etiske retningslinjer.

En viktig utfordring fremover er hvordan man kan videreutvikle modellens evne til in-context læring, ikke bare for kjente oppgaver, men også for ukjente eller sjeldne situasjoner som kan oppstå. Dette betyr at fremtidige modeller bør være i stand til å håndtere ikke bare standardiserte datasett, men også tilpassede eller ukjente oppgaver som kan være nyttige i virkelige applikasjoner.

For leseren er det avgjørende å forstå hvordan Emu2 og lignende modeller ikke bare lærer fra data de er trent på, men også hvordan de lærer å generalisere fra minimal informasjon. Denne egenskapen gjør dem mye mer dynamiske enn tidligere modeller, som trengte store mengder data for å lære nye oppgaver. Emu2 viser at det er mulig å utvikle AI som er fleksibel, effektiv, og som kan tilpasse seg endringer på en måte som minner om menneskelig læring.

Det er også viktig å merke seg at den teknologiske utviklingen på dette området går raskt, og hva som virker banebrytende i dag, kan være standard praksis i nær fremtid. Fremover vil det være avgjørende å følge med på hvordan slike modeller blir integrert i både industrielle applikasjoner og i samfunnet generelt, og hvordan de kan påvirke alt fra arbeidsmarkedet til personvern og etikk.

Er manual og tilfeldig initialisering effektive for modelloptimalisering?

I manuell initialisering benyttes innlemmingene fra en meningsfull frase – for eksempel "et bilde av en" – for å initialisere kontekstvektorene på tvers av 11 datasett. For å sikre en rettferdig sammenligning, ble konteksten satt til en lengde på 4 for begge metodene. Observasjonen her er at valget mellom tilfeldig og manuell initialisering ikke har betydelig innvirkning på ytelsen (med en forskjell på mindre enn 0,01 % i gjennomsnitt). Selv om finjustering av initialiseringsfrasene kan gi små forbedringer, er det i praksis tilstrekkelig og mer praktisk å bruke enkel tilfeldig initialisering. Denne tilnærmingen gir praktikere muligheten til å fokusere på andre aspekter ved modelloptimalisering uten å måtte bruke tid på å nøye velge initialiseringsfraser.

Når det gjelder visualisering og tolkning, kan det være utfordrende å forstå de lærte promptene, ettersom kontekstvektorene er optimalisert i et kontinuerlig rom. For å få en bedre forståelse, benytter man en indirekte metode ved å søke i vokabularet etter ord som er nærmest de lærte vektorene, basert på den euklidske avstanden. Det er viktig å merke seg at CLIP bruker BPE-representasjon for tokenisering, og derfor inkluderer vokabularet underordnede ord som ofte forekommer i tekst, som for eksempel “hu” (som inngår i ord som “hug” og “human”). Tabell 5.5 viser søkeresultatene på noen datasett. Her observerer vi at noen ord er relevante for oppgavene, som for eksempel “enjoyed” i Food101, “pretty” i DTD, og “fluffy” og “paw” i OxfordPets. Men når man ser på alle de nærmeste ordene sammen, gir ikke promptene mye mening. Videre, når man bruker manuell initialisering (som "et bilde av en"), er de nærmeste ordene for de konvergerte vektorene hovedsakelig de som ble brukt for initialisering. Dette tyder på at de lærte vektorene kanskje koder betydninger som går utover det eksisterende vokabularet.

Det er også viktig å merke seg at tolkningen av de lærte promptene kan være upresis. Semantikken til vektorene er ikke nødvendigvis relatert til de nærmeste ordene, og dermed kan bruk av de nærmeste ordene til å tolke de lærte promptene være misvisende. Derfor er det vanskelig å trekke faste konklusjoner basert på disse observasjonene. Det betyr at det ikke nødvendigvis er en direkte sammenheng mellom hva en vektor representerer og hvilke ord som er nærmest knyttet til den i et vokabular. Dette er et viktig aspekt å forstå når man prøver å tolke og bruke de lærte promptene i praksis.

For å forstå bruken av CLIP-lignende modeller i praksis, er det nyttig å merke seg at disse modellene, til tross for deres imponerende evne i forskjellige nedstrømsapplikasjoner, ofte krever tilpasning gjennom automatiserte teknikker for å forbedre ytelsen og effektiviteten på spesifikke oppgaver. Denne tilpasningen kan innebære prompt-læring, som har vist seg å være en lovende tilnærming for å optimalisere multimodale modeller, slik som CoOp. Selv om CoOp er en læringsbasert metode, har den vist seg å være mer effektiv enn manuelle prompt-metoder på tvers av ulike domener.

Når det gjelder videre lesning for de som er interessert i temaet, finnes det flere ressurser som gir en dypere innsikt i emnet. Det kan være nyttig å utforske studier som tar for seg generaliseringsproblemer knyttet til vanlige prompt-læringsmetoder, eller multimodale prompt-læringsmetoder som balanserer ytelse og treningseffektivitet. Det finnes også omfattende oversiktsverk om visuelle og visuelle-språklige modeller, samt deres anvendelser innen datavisjon.

Endtext

Hvordan forbedre ytelsen til CLIP med funksjonsadaptere for visjon-språkmodeller

Contrastive Language-Image Pretraining (CLIP) har vist seg å ha fremragende generaliseringsevne innen bildekategorisering på tvers av generelle visuelle domener. Til tross for dette, sliter CLIP med å oppnå tilfredsstillende resultater på noen spesifikke nedstrømsoppgaver, ofte på grunn av semantiske gap. Dette har ført til utviklingen av metoder som CoOp, som benytter lærbare prompt-tokens for å forbedre ytelsen ved få opplæringseksempler. I denne sammenhengen introduseres CLIP-Adapter som en alternativ løsning for å forbedre ytelsen ved få opplæringseksempler i bildekategorisering. CLIP-Adapter benytter en adapterarkitektur etter CLIP sin visjon-encoder for å tilføre nedstrømskunnskap på en effektiv måte.

Enkelte oppgaver, særlig de som involverer lite data, kan være spesielt utfordrende for CLIP. Dette har ført til at nye tilnærminger, som Tip-Adapter og Tip-Adapter-F, har blitt utviklet for å forbedre ytelsen ved få opplæringseksempler uten behov for omfattende trening. I tillegg til å introdusere CLIP-Adapter, presenteres disse metodene for å håndtere fåskuddslæring effektivt, uten å ofre ytelse.

CLIP-Adapter er en lettvektsmetode som fokuserer på å justere bare et lite sett av ekstra parametere, og dermed unngå omfattende endringer i de forhåndstrente representasjonene. I stedet for å endre alle CLIP-parametrene, introduserer CLIP-Adapter en "flaskehals"-arkitektur som legger til to lineære lag etter den siste lagene i enten visjon- eller språk-encoder. Denne metoden reduserer risikoen for overtilpasning i scenarier med få data, samtidig som den opprettholder høy beregningsmessig effektivitet. CLIP-Adapter bruker også en residual-stil blanding, som kombinerer opprinnelige zero-shot visuelle eller språklige innbygd med de finjusterte funksjonene, og muliggjør en balanse mellom generalisering og tilpasning.

Selv om CLIP-Adapter gir gode resultater, krever det fortsatt ytterligere trening og beregningsressurser for å optimalisere de nylig introduserte parameterne. Dette kan begrense den iboende generaliseringsevnen til CLIP, og skape et behov for alternative metoder som ikke er avhengige av omfattende trening.

En løsning på dette er Tip-Adapter, en metode som ikke krever trening, men som fortsatt oppnår god ytelse. Tip-Adapter introduserer en ikke-parametrisk adapter som legges til det frosne CLIP-modellen. I stedet for tradisjonell trening, benytter denne metoden en "cache"-modell som konstrueres ut fra et lite sett med data. Den ekstrakter visuelle funksjoner ved hjelp av CLIPs visjon-encoder, og konverterer tilhørende etiketter til one-hot-koding. Disse funksjonene og kodene lagres deretter som nøkler og verdier i en cache-modell. Under inferens beregnes prediksjonene ved å sammenligne testbildenes funksjoner med de lagrede nøklene, og de tilhørende verdiene brukes til den endelige prediksjonen. Denne prediksjonen kombineres deretter med CLIPs originale utgang via en residualforbindelse, som effektivt blanding kunnskapen fra både CLIP og den lille datamengden.

For å maksimere effekten av disse metodene, er det viktig å forstå at både CLIP-Adapter og Tip-Adapter er designet for å takle utfordringer knyttet til fåskuddslæring, der tradisjonelle metoder ofte kan føre til overtilpasning eller høy beregningskostnad. Disse metodene tillater en mer effektiv tilpasning til nye, små datasett uten å gå på bekostning av CLIPs iboende generaliseringsegenskaper.

I tillegg er det viktig å merke seg at både CLIP-Adapter og Tip-Adapter på en eller annen måte forsøker å overvinne de iboende begrensningene i tradisjonelle metoder for bildeklassifisering som baseres på store mengder merkede data. Ved å bruke adaptere og residualforbindelser som en mekanisme for å inkorporere ny informasjon, bevarer disse metodene både effektivitet og nøyaktighet. De er gode eksempler på hvordan man kan utvikle løsninger som er både tidseffektive og ressursbesparende, mens man fortsatt får betydelig forbedret ytelse på oppgaver som involverer få eksempler.

I en verden som stadig er mer dominert av maskinlæring, kan tilpasningsevnen til modeller som CLIP og dens varianter være avgjørende for å møte kravene til spesifikke applikasjoner og datasett. I tillegg til de tekniske metodene som er beskrevet, er det også viktig å forstå at effektivitet og nøyaktighet ikke alltid er et spørsmål om mer data eller mer trening. Noen ganger kan en velutviklet tilpasningsteknikk som de som er diskutert her, gjøre det mulig å oppnå eksepsjonelle resultater selv med et begrenset antall eksempler.

Hva ligger bak kravene om hemmelighold og trusselen om utpressing?
Hvordan forbedre elektro-kjemisk ekstraksjon av uran ved hjelp av hydroksylgrupper og ladningsseparasjonsteknologi
Hvordan håndtere intern korrosjon i rørledninger: Effektive metoder og tilnærminger
Hva er de grunnleggende prinsippene og effektiviteten til Insertion Sort, Merge Sort og Quick Sort?
Hvordan mytene om frontiersmenn ble til: Daniel Boone og amerikansk nasjonsbygging