Moderne metoder for tekststyrt generering av 3D-menneskelig bevegelse, som ReMoDiffuse, kombinerer flere avanserte teknikker for å sikre både semantisk konsistens og kinematisk relevans i de produserte animasjonene. Kjernen i denne prosessen er en hybrid hentingsteknikk, som utnytter både semantisk og kinematisk likhet for å finne relevante bevegelses- og tekstpar fra en database som best matcher den gitte tekstbeskrivelsen og den forventede bevegelseslengden.
Den semantiske likheten beregnes ved hjelp av et forhåndstrent CLIP-modell, som representerer tekstbeskrivelser som tekstspørringsfunksjoner i et innebygd rom, og dermed muliggjør en effektiv sammenligning på tvers av varierte beskrivelser. Samtidig tas det hensyn til kinematisk likhet, som i praksis ikke direkte kan måles under testing da målbevegelsen ikke er kjent, men som delvis kompenseres for ved å sammenligne forventet bevegelseslengde med lengden til tilgjengelige bevegelseseksempler. Dette gir et balansert likhetspoeng som guider utvalget av hentede par.
En nøkkelfunksjon i ReMoDiffuse er den semantikk-modulerte oppmerksomheten (SMA), som integrerer informasjon fra flere kilder i oppmerksomhetsmekanismen. SMA bruker støyete bevegelsessekvenser som spørringsvektor, mens nøkkel- og verdi-vektorene kombinerer bevegelsesfunksjoner, tekstbetingelser og hentede funksjoner fra databasen. Denne arkitekturen gjør det mulig å modulere bevegelsessekvensen basert på både lavnivåbevegelsesdata og høyere semantisk informasjon, noe som fremmer generering av bevegelse som er tro mot både tekst og realistisk dynamikk.
Under inferens anvendes en teknikk kalt condition mixture, en videreutvikling av klassisk classifier-free guidance i betingede diffusjonsmodeller. Ved å justere vektene for ulike kombinasjoner av betingelser – tekst, hentede bevegelseseksempler, eller begge – oppnås en optimal balanse som gir høy-fidelitets og tekst-konsistente bevegelser. Denne justeringen kan optimaliseres ved å minimere Frechet Inception Distance (FID), som korrelerer godt med presisjon i bevegelsesgenereringen.
I tillegg til standard generering, tilbyr fine-grained text-driven generering en dypere kontroll over bevegelsessekvensen ved å tillate detaljerte, tids- og kroppsdelsspesifikke beskrivelser. Her må modellen produsere koordinerte, naturlige bevegelser som oppfyller krav for hver kroppsdels aktivitet over ulike tidssegmenter. En tilnærming, som MotionDiffuse, benytter test-fase tilpassede strategier hvor sekvenser generert fra ulike prompts kan kombineres iterativt for å sikre at både delvise og helhetlige bevegelser flyter sammen sømløst.
Det som er essensielt å forstå, er hvordan slike modeller baler mellom semantisk forståelse og kinematisk realisme. Selv om semantisk matching sikrer at bevegelsen gir mening i forhold til beskrivelsen, er det kinematisk konsistens som sikrer naturlighet og troverdighet i bevegelsen. Lengde på bevegelsessekvensen, som ofte undervurderes, viser seg å være en svært effektiv proxy for kinematisk likhet og er kritisk for å unngå unaturlige bevegelser eller uønskede hopp i animasjonen.
Videre bør man merke seg betydningen av oppmerksomhetsmekanismer som SMA, som elegant integrerer flere informasjonsstrømmer for å oppnå finjustert styring av bevegelsen. Dette illustrerer en viktig trend i feltet, der flerlaget informasjonsflyt og betinget generering smelter sammen for å møte behovene for både realisme og kontroll.
Til slutt gir det fine-grained konseptet en kraftig utvidelse av mulighetene ved at brukeren kan spesifisere komplekse, varierende instrukser over tid og kroppsdeler, noe som åpner for langt mer komplekse og realistiske animasjoner enn det enklere modeller kan tilby. Dette krever at modellen ikke bare forstår enkeltbeskrivelser, men også klarer å skape helhetlige, sammenhengende bevegelser gjennom tid og rom.
Endret fokus på disse aspektene er avgjørende for å utvikle mer avanserte tekst-til-bevegelse-systemer som kan brukes i alt fra spillutvikling til avansert robotikk og virtuell virkelighet, hvor både presis semantikk og kinematisk troverdighet må gå hånd i hånd.
Hvordan vurderes og forbedres generering av menneskelig 3D-bevegelse drevet av tekstbeskrivelser?
Datasett som HumanML3D, Babel, HuMMan-MoGen, HumanAct12 og UESTC spiller en avgjørende rolle i utviklingen og evalueringen av metoder for tekststyrt 3D-menneskebevegelse. Disse datasettene inneholder et bredt spekter av bevegelsestyper, fra dagligdagse aktiviteter til komplekse sportsbevegelser, med detaljerte annotasjoner knyttet til hastighet, involverte kroppsdeler og retninger. Slik variasjon muliggjør målrettet forskning på generering av realistiske og meningsfulle menneskelige bevegelser.
Evalueringen av genererte bevegelser skjer gjennom flere målbare metrikker, der Fréchet Inception Distance (FID) fungerer som en sentral indikator på kvaliteten ved å måle avstanden mellom ekte og genererte bevegelsesfunksjoner. R-Precision måler hvor godt den genererte bevegelsen stemmer overens med den tilhørende tekstbeskrivelsen, gjennom rangering av sannsynlige beskrivelser mot tilfeldige forstyrrelser. I spesifikke oppgaver for bevegelseskondisjonering vurderes også nøyaktighet via en bevegelsesgjenkjenningsmodell, som direkte måler samsvar mellom generert bevegelse og angitt handling.
Metrikker som mangfold (Diversity) og multimodalitet (Multimodality) analyserer henholdsvis variasjonen mellom ulike genererte bevegelser basert på forskjellige tekstbeskrivelser og variasjonen i bevegelser generert fra samme beskrivelse. Multimodal Distance beregner gjennomsnittlig avstand mellom bevegelsesrepresentasjoner og tekstrepresentasjoner for å bedømme samsvar og kvalitet.
Sammenligninger mellom ulike modeller, slik som Language2Pose, Text2Gesture, MoCoGAN, MotionDiffuse og ReMoDiffuse, viser tydelig fremgang i feltet, særlig med diffusjonsmodeller som MotionDiffuse, som kombinerer fleksibilitet i tekstkondisjonering med sterke generative egenskaper. På tvers av datasett demonstrerer disse modellene en betydelig forbedring i både kvalitet og presisjon, samt i evnen til å generere variert og meningsfull bevegelse.
Det er også verdt å merke seg at evalueringene ofte benytter reelle bevegelseslengder som referanse, noe som sikrer en mer rettferdig sammenligning. Resultatene fremhever viktigheten av en helhetlig tilnærming til evaluering, hvor flere aspekter som kvalitet, samsvar med tekst og variasjon må inkluderes for å fange kompleksiteten i menneskelig bevegelse.
For å forstå denne teknologien fullt ut, er det viktig å være bevisst på at bevegelsesgenerering ikke bare er en teknisk utfordring, men også en semantisk en. Presise beskrivelser av bevegelse, inkludert kroppsdeler og tidsrammer, bidrar til å forbedre modellenes evne til å produsere realistiske og meningsfulle bevegelser. Videre påvirker datasettenes omfang og diversitet direkte hvor godt modellene kan generalisere til nye situasjoner.
Denne innsikten er essensiell for alle som ønsker å anvende eller videreutvikle tekststyrt 3D-bevegelsesgenerering, da det understreker betydningen av både omfattende data og sofistikerte evalueringsmetoder for å oppnå resultater som kan anvendes i praktiske sammenhenger, som animasjon, VR eller robotikk.
Hvordan kan InternVideo2 forbedre forståelsen av video gjennom multimodal læring?
InternVideo2 har vist seg å være et kraftig verktøy for forståelse av video, spesielt når det gjelder oppgaver som tekst-til-video (T2V) og video-til-tekst (V2T) retrieval, samt tidsmessig grunnlegging og lydrelaterte oppgaver. I forbindelse med video retrieval, viser InternVideo2 betydelige forbedringer sammenlignet med eldre modeller som CLIP og SlowFast. Spesielt når det gjelder finjustering på populære datasett som MSR-VTT, LSMDC og VATEX, har denne modellen vist seg å håndtere både korte og lange videosekvenser mer presist. Ved å bruke større kapasiteter, som InternVideo2-6B, har modellen demonstrert en evne til å effektivt håndtere spatiotemporale utfordringer, hvilket gjør den bedre i stand til å matche semantikk i korte videoklipp.
Når det gjelder tidsmessig grunnlegging, har InternVideo2 også levert imponerende resultater på datasett som QVhighlight og Charade-STA. I disse oppgavene, der det handler om å lokalisere bestemte handlinger innen videoen, har modellen vist seg å være mer presis i å identifisere og kategorisere øyeblikk i videoene med høyere nøyaktighet enn tidligere tilnærminger. Dette bekrefter at InternVideo2s større modellstørrelse og mer effektive læringsteknikker hjelper med å bedre forstå konteksten og hendelsene som skjer i videoer.
Et annet område der InternVideo2 har utmerket seg, er i audio-relaterte oppgaver, som lyd-til-tekst retrieval og lydspørsmål-svar (QA) oppgaver. Modellen er i stand til å integrere både lyd- og tekstmodaliteter gjennom kontrastiv læring, noe som har ført til state-of-the-art ytelse på datasett som AudioCaps, ClothoV1, ClothoV2, og ESC-50. Denne korsmodale læringen, som gjør at både lyd- og tekstmodellen kan dra nytte av hverandre, har vært essensiell for modellens suksess.
En viktig funksjon ved InternVideo2 er dens evne til å håndtere videobaserte dialoger. Når modellen er kombinert med VideoChat2, har den vist seg å ha en sterk ytelse på testene MVBench, Egoschema og Perception Test, spesielt på fine-grained video forståringsoppgaver som handler om sekvenser av handlinger, tidspunkter for handlinger, og forståelse av uventede hendelser. Her er InternVideo2 spesielt god til å prosessere korte sekvenser og raske hendelser. Det er imidlertid viktig å merke seg at modellen fremdeles har utfordringer når det gjelder langvarig kontekstuell forståelse, noe som betyr at mer arbeid er nødvendig for å håndtere mer komplekse oppgaver.
For oppgaver som handler om handlinger i videoer, som for eksempel å gjenkjenne hva som skjer før en person tar et teppe, kan InternVideo2 bruke sin evne til å analysere tidligere hendelser og forutsi neste steg. I et eksempel der en person tar et teppe, kan modellen korrekt dedusere at personen trolig har sittet på sofaen og enten sett på TV eller engasjert seg i en annen aktivitet. Denne type kontekstforståelse, som kan kombineres med de forskjellige multimodale inngangene (tekst, lyd, bilde), gjør InternVideo2 til en ideell kandidat for komplekse videoanalyser.
Viktige funn som kommer frem i arbeidet med InternVideo2 inkluderer at større modeller, som InternVideo2-6B, forbedrer generaliseringsevnen for handlingsgjenkjenning og video retrieval, spesielt i zero-shot scenarier. Det er også interessant å merke seg hvordan forskjellige datasett og ulike tilnærminger til finjustering kan ha en vesentlig effekt på ytelsen til modellen, spesielt i spesifikke domener som tidsmessig grunnlegging og lydbaserte oppgaver. Samtidig er det viktig å forstå at ikke alle video-relaterte oppgaver nødvendigvis drar nytte av en større modell, og i noen tilfeller kan en mer spesialisert tilnærming være bedre egnet.
Når vi ser på fremtiden for videoforståelse, er det tydelig at utviklingen av større multimodale modeller som InternVideo2 vil føre til bedre løsninger for både praktisk videoanalyse og dialogbaserte systemer. Imidlertid vil videre forskning være nødvendig for å adressere utfordringene som oppstår ved mer langvarige, komplekse videosekvenser, og hvordan disse kan håndteres på en effektiv måte.
Hvordan CLIP kan brukes for Zero-Shot Dense Segmentering
CLIP-modellen (Contrastive Language-Image Pre-Training) har fått betydelig oppmerksomhet på grunn av dens evne til å forstå og koble visuelle bilder med tekstbeskrivelser på en global skala. Denne evnen har åpnet nye muligheter innen bildesegmentering, spesielt i scenarier der det er begrenset tilgang på etiketter eller når vi ønsker å segmentere bilder basert på åpne ordbokklasser. Men til tross for disse mulighetene, finnes det flere utfordringer i å bruke CLIP-modellen i slike anvendelser, og finjustering av CLIP for segmentering har vist seg å være mindre effektiv enn forventet.
Vanligvis innebærer prosessen med å trene et segmenteringsnettverk å initialisere ryggbeinet (backbone) med forhåndstrente vekter, for eksempel de som er trent på ImageNet, og deretter legge til moduler spesifik for segmentering. Denne tilnærmingen er standard når man tilpasser CLIP for segmentering, men når vi prøver å bruke CLIP som et ferdig trenet bilde- og tekst-forståelsesverktøy for segmentering, møter vi flere problemer. En slik problemstilling oppstår når man prøver å bruke CLIP-modellen for zero-shot segmentering, spesielt når modellen skal håndtere klasser som ikke har blitt sett under treningen.
Et forsøk på å tilpasse CLIP til DeepLab, en kjent segmenteringsmodell, resulterte i at den tilpassede modellen ikke kunne segmentere usette klasser tilfredsstillende. Dette kan forklares av at den visuelle-tekstlige assosiasjonen i CLIP-modellen er blitt brutt. En av de viktigste årsakene til dette er at ryggbeinet i DeepLab er forskjellig fra bildeenkoderen i CLIP, og at vektene som er blitt finjustert under treningen, har endret den opprinnelige koblingen mellom bilder og tekst. Dessuten er det introdusert en ekstra mapper-modul som kun er trent på data med kjente klasser, noe som fører til manglende generaliseringsevne.
I stedet for å prøve å finjustere CLIP-modellen ytterligere, har det blitt foreslått en løsning som unngår å introdusere nye parametere eller endre CLIP-modellens funksjonsrom. Dette alternativet, kalt MaskCLIP, holder vektene i bildeenkoderen fryst og gjør minimal tilpasning for å bevare den visuelle-tekstlige assosiasjonen. I MaskCLIP-modellen brukes CLIP-modellens unike globale oppmerksomhetspooling-lag som en nøkkelkomponent. I motsetning til konvensjonell global gjennomsnittspooling, benytter CLIP en Transformer-stil multi-hode oppmerksomhet, hvor den globalt gjennomsnittspoolte funksjonen fungerer som spørsmålet, og funksjonen på hvert romlig sted genererer en nøkkel-verdi-par. Dette tillater at modellens output blir en romlig vektet sum av innkommende funksjoner, etterfulgt av en lineær lag.
MaskCLIP har vist seg å gi fornuftige resultater i segmentering uten behov for ytterligere finjustering eller annotasjoner. Denne tilnærmingen har flere fordeler: først og fremst kan den brukes som en gratis annotator for segmenteringsmetoder som jobber med begrensede etiketter. Videre, ettersom den visuelle-tekstlige assosiasjonen i CLIP bevares, kan MaskCLIP segmentere klasser som ikke har vært sett under treningen. Denne evnen til å håndtere åpne ordbokklasser og finere beskrivende fraser, som «hvit bil» eller «rød buss», gir et betydelig fordelaktig utgangspunkt for segmentering.
For å ytterligere forbedre ytelsen til MaskCLIP, er det blitt introdusert to strategier: nøkkelsmøring (key smoothing) og prompt-denoising. Nøkkelsmøring tar sikte på å raffinere den endelige outputen ved å bruke nøkkelfunksjonene som er trent under CLIP-pretreningen. Ved å glatte ut prediksjonene basert på likheten mellom nøkkelfunksjonene, kan vi få mer stabile og konsistente resultater på tvers av romlige steder. Dette forbedrer MaskCLIPs evne til å håndtere flere klasser og forfinne segmenteringen ytterligere.
En annen viktig tilpasning som bør bemerkes, er hvordan CLIP-modellen er trent. Siden CLIP er trent på webkuraterte bilder, har den en naturlig robusthet til endringer i bildeuttrykk og forstyrrelser som kan oppstå når modellen håndterer bilder fra forskjellige kilder eller med varierende kvalitet. Denne robustheten er en essensiell egenskap for MaskCLIP, ettersom det gir modellen en evne til å håndtere bilder fra uventede distribusjoner uten at den trenger å finjusteres på nytt for hver spesifikk situasjon.
MaskCLIP representerer et betydelig skritt fremover i bruken av CLIP for segmentering, spesielt når det gjelder zero-shot-applikasjoner. Det har vist seg å være en kraftig metode for segmentering på et pixelnivå, uten behov for omfattende omtrening, samtidig som den bevarer den visuelle-tekstlige assosiasjonen som er hjørnesteinen i CLIPs funksjonalitet. Samlet gir MaskCLIP en svært effektiv måte å utnytte CLIP til segmentering på, og åpner opp for en ny tilnærming til segmentering på tvers av et bredt spekter av applikasjoner.
Hvordan male hår: En kreativ tilnærming til stil og farge
Hvordan forbedrer federert læring og databehandling nøyaktigheten i medisinsk bildeanalyse?
Hvordan håndtere kontakter, lagring og tilkoblinger på smarttelefonen
Hvordan autoritære populister kan påvirke politiske systemer og den sivile kulturen
Hvordan påvirker globalisering og handelspolitikk ulikhet og økonomisk sikkerhet?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский