I den moderna utvecklingen av textstyrd 3D-motionsgenerering har nya tekniker och modeller gjort det möjligt att skapa realistiska och detaljerade rörelsesekvenser som är anpassade efter specifika textbeskrivningar. En av de mest framstående framstegen är användningen av ReMoDiffuse, en avancerad metod som kombinerar textbeskrivningar med rörelsedatabaser för att generera högkvalitativa och semantiskt konsekventa rörelsesekvenser.
I denna modell är en av de centrala innovationerna den hybridretrieval som gör det möjligt att hämta motions-textpar som är nära relaterade till den givna texten. Detta sker genom att först beräkna den semantiska likheten mellan texten och rörelsen med hjälp av en förtränad CLIP-modell. Vid inferensfasen utnyttjas också en teknik för condition mixture, där modellen använder både text- och rörelseinformation för att styra hur rörelsesekvenser genereras. Genom att använda denna teknik kan ReMoDiffuse uppnå imponerande resultat även vid testning, där den inte har tillgång till den önskade rörelsesekvensen utan endast textbeskrivningen och rörelselängden.
För att hämta relevanta rörelsesekvenser från databasen fokuserar algoritmen på två viktiga aspekter: semantisk och kinematisk likhet. Semantisk likhet beräknas genom att jämföra de extraherade textfunktionerna med textbeskrivningen. Eftersom vi under testfasen inte kan känna till den exakta rörelsen, tas även längden på rörelsesekvensen som en indikator på kinematisk likhet. Detta gör det möjligt att skapa en mer exakt matchning mellan textbeskrivningen och den hämtade rörelsen, även om detaljerad kinematisk information saknas.
En annan viktig komponent är den semantics-modulated attention (SMA) som introduceras för att hantera uppmärksamhet och låta modellen anpassa sina svar baserat på både rörelsens semantiska innehåll och den hämtade informationen. SMA använder tre olika datakällor: rörelseinformation, textbeskrivningar och hämtad information, vilket gör det möjligt för modellen att skapa mer informerade och dynamiska rörelsesekvenser. Denna design gör att SMA kan inkorporera både låg-nivå rörelseinformation och semantiska likheter, vilket resulterar i mer realistiska och konsistenta rörelser.
För att ytterligare förbättra resultatet använder ReMoDiffuse en teknik för condition mixture, som gör det möjligt att justera hur olika villkor påverkar den slutgiltiga rörelsen. Modellen kombinerar information från olika källor (text, rörelse och hämtad data) och optimerar processen för att generera den mest precisa rörelsesekvensen, beroende på de givna förhållandena. Hyperparametrar spelar en avgörande roll i denna kombination, och optimering av dessa kan leda till förbättrad precision och realism i de genererade sekvenserna.
Vid sidan av dessa tekniska framsteg finns också en distinkt uppdelning mellan standard textstyrd rörelsegenerering och mer fint detaljerad textstyrd rörelsegenerering. Den senare kräver att modellen inte bara skapar rörelser baserade på en övergripande textbeskrivning, utan att den också tar hänsyn till detaljerade beskrivningar som specificerar tidpunkter och kroppsdelar. Här handlar det om att bryta ner rörelsen i olika faser och kroppsdela, vilket gör det möjligt för systemet att skapa rörelser som inte bara är korrekta utan också naturligt samordnade.
För att uppnå den här finjusteringen under testfasen introducerar MotionDiffuse en metod för att generera olika sekvenser för olika prompts och sedan kombinera dessa under den iterativa processen. Detta innebär att ingen specifik kravställning behövs på modellens träningsprocess eller struktur, vilket gör det möjligt att applicera metoden på nästan vilken rörelse-diffusionsmodell som helst.
Det är viktigt att förstå att den effektiva användningen av textstyrd 3D-motionsgenerering inte bara handlar om att hitta tekniska lösningar för att skapa mer realistiska rörelser, utan även om att förstå de olika variabler som påverkar hur rörelsesekvenserna byggs upp och anpassas till textbeskrivningarna. Genom att integrera semantisk och kinematisk information samt använda avancerade tekniker som condition mixture och semantics-modulated attention, skapas en kraftfull verktygslåda för att generera detaljrika och realistiska rörelser, vilket är en stor framgång för både forskning och praktisk tillämpning inom områden som spelutveckling, filmproduktion och robotik.
Hur fungerar Emu2 för multimodal lärande och generativ visuell uppgiftshantering?
Emu2 är en avancerad multimodal modell som tränas med ett enhetligt generativt förträningsmål för att hantera olika visuell-generativa uppgifter. Träningen av modellen baseras på exempel som innehåller både text, bilder och objektlokaliseringsinformation. Varje träningsprov består av bilder där objekt är lokaliserade med hjälp av inramningar som ritas på en svart bild. Emu2 integrerar text, bildobjekt och motsvarande lokaliseringsbilder i ett enhetligt multimodalt format, där en regressionförlust appliceras endast på den slutliga bildinbäddningen.
Modellen tränas genom att frysa den visuella kodaren för att förhindra att modellen kollapsar under finjusteringen. För att förbättra robustheten används dessutom tekniker som att slumpmässigt ta bort enhetstokens och lokaliseringsinformation samt att applicera bakgrundsvariationer och beskärningar på objektbilderna. Träningen utförs med en global batchstorlek på 4096 för 3000 steg, där lärandegraden gradvis värms upp till 5 × 10−5 under de första 100 stegen och sedan följer en kosinusformad nedgång till noll. Efter detta finjusteras modellen ytterligare med 500 000 högkvalitativa par i en batchstorlek på 2048 under 900 extra träningssteg.
Under evalueringen av Emu2, som genomfördes på olika vision-språk-benchmarks som VQAv2, VizWiz och TextVQA, visade modellen exceptionell förmåga till in-context lärande. Det innebär att Emu2, även med en betydligt mindre parameterstorlek på 37 miljarder, presterade bättre än större modeller som Flamingo-80B och IDEFICS-80B på dessa uppgifter. Modellens förmåga att lära sig och prestera bra med bara ett fåtal exempel visar på styrkan hos den generativa träningsmetoden och det in-context lärande som används.
I experimenten blev det tydligt att Emu2 även är skicklig på att följa visuella uppmaningar i kontext, till exempel att identifiera röda cirklar som är överlagda på bilder. Detta gör modellen särskilt användbar i scenarier där både visuell och textuell information måste integreras för att lösa uppgifter. Resultaten från dessa experiment, där Emu2 presterade bättre än många av sina föregångare, visar att modellen kan hantera komplexa fråge-och-svar-uppgifter baserade på både bilder och text.
Vid evaluering på flera uppgifter inom bild-fråga-svar (VQAv2, OKVQA, GQA, VizWiz och TextVQA) samt video-fråga-svar uppgifter (MSVD och MSRVTT) visade Emu2-Chat en betydande förbättring, särskilt när det gäller att hantera externa kunskaper som behövs för att lösa frågor som sträcker sig bortom de givna bilderna. Dessutom, trots att modellen inte var specifikt tränad på video QA-dataset, överträffade den existerande modeller på dessa uppgifter, vilket understryker dess förmåga att generalisera över olika multimodala domäner.
Modellens starka visuell förståelse, som demonstreras på uppgifter som referensuttryckskomprehension (t.ex. RefCOCO, RefCOCO+), där Emu2-Chat uppnådde de bästa resultaten bland allmänna modeller, indikerar dess förmåga att förstå och korrekt referera till objekt i komplexa scenarier.
Vid utvärdering av Emu2:s kontrollerbara generativa kapabiliteter, som illustreras genom exempel på text- och objektbaserad generation, stilisering och redigering av bilder, visade modellen en överlägsen förmåga att rekonstruera och generera bilder baserat på specifika indata. I jämförelse med tidigare modeller, där Emu2:s visuella kodare och decoder utgör en stark autoencoder som fokuserar på utseendebeskrivningar utan positionsreferenser, visade modellen en stark perceptuell kapabilitet.
Förutom de grundläggande funktionerna i bildgenomgång och -klassificering, är en viktig aspekt att förstå att den styrka Emu2 uppvisar ligger i dess förmåga att integrera och manipulera multimodala data i realtid. Denna förmåga att behandla både text, bilder och deras inbördes relationer gör modellen väl lämpad för en rad användningsområden, från enkla uppgifter som objektidentifiering till mer komplexa uppgifter som kräver en djupare förståelse av både visuell och semantisk information.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский