Att skapa realistiska 3D-avatarer som kan användas för olika ändamål, från animation till virtuell verklighet, kräver en noggrant designad och optimerad metod. I denna process spelar både form och textur en central roll för att skapa en avatar som både ser bra ut och fungerar bra för animation. I detta avsnitt kommer vi att undersöka metoder som använder CLIP och NeuS för att skapa dessa avatarer genom en tvåstegs optimering.
När man använder CLIP (Contrastive Language-Image Pretraining) för att fråga en kodbok är det avgörande att designa lämpliga poäng för förfrågningar. Vissa attribut, såsom kroppshöjd, kan vara svåra att fastställa enbart genom renderade bilder av en kropp utan en referens. För att hantera detta problem använder vi en referens för att låta CLIP bedöma kroppens form på ett relativt sätt. Denna metod är inspirerad av användningen av CLIP inom 2D-bildredigeringsuppgifter. Här definierar vi en neutral kroppsstorlek, Mₙ, och dess motsvarande textbeskrivning, tₙ, som referens. Poängen för varje kodbokspost, si, ges av formeln:
si = 1 − norm(𝓯ᵢ) · norm(𝓯ᵗ),
där 𝓯ᵢ representerar skillnaden i bildrummet, och 𝓯ᵗ fångar den relativa riktningen definierad av texten. Den kodbokspost med högsta poängen väljs sedan som den grova formen, Mₜ, som kommer att användas för vidare optimering.
Den genererade mallnätmodellen, Mₜ, är en grov representation av den nakna kroppen. För att skapa högkvalitativa 3D-avatarer krävs ytterligare förfining både vad gäller form och textur så att de stämmer överens med den detaljerade beskrivningen av utseendet, tapp. Här används en implicit representation, specifikt NeuS, som grundmodell för 3D-datan, tack vare dess förmåga att fånga både geometri och färgdetaljer. NeuS-modellen består av två huvudnätverk: ett för att beräkna den signerade avståndsfunktionen (SDF) och ett för att generera färger vid varje punkt. För att påskynda optimeringsprocessen och säkerställa kontroll över avatarens form används en tvåstegs optimering.
I första steget optimeras en slumpmässigt initialiserad NeuS-modell, N, med hjälp av fler-vy-renderingar från Mₜ. Modellen representeras som N = { t f (p), c(p)}, där t f (p) är den signerade avståndsfunktionen och c(p) representerar färgen vid punkt p. För att säkerställa en exakt rekonstruktion används en treparts förlustfunktion som inkluderar rekonstruktionsförlust, Eikonal-regulering och maskförlust. Efter denna optimering är den resulterande modellen, N, den initiala representationen för nästa steg i optimeringen.
I andra steget introduceras CLIP för att finjustera textur och form så att de stämmer överens med den stiliserade beskrivningen av avatarens utseende. Här finns två möjliga lösningar för att behålla en balans mellan att upprätthålla den grova formen från Mₜ och lägga till detaljerade texturer. Den första lösningen innebär att fixera den signerade avståndsfunktionen, vilket gör att den slutliga formen förblir identisk med Mₜ, medan färgnätverket optimeras för att "färglägga" den fasta formen. Den andra lösningen innebär att optimera både den signerade avståndsfunktionen och introducera ett extra färgnätverk för att skapa en stiliserad version av modellen. Denna lösning bevarar den ursprungliga formen och introducerar samtidigt en ny färgnätverksfunktion, som ger möjlighet att skapa realistiska och anpassade texturer för 3D-avatarer.
NeuS-modellen som optimeras i detta steg består nu av tre nätverk: det första för den signerade avståndsfunktionen (f(p)), det andra för den ursprungliga färgnätverksfunktionen (c(p)), och det tredje för den extra färgnätverksfunktionen (cc(p)), som alla tränas samtidigt. Den andra optimeringen styrs av en justerad förlustfunktion som även inkluderar CLIP-styrd geometri- och texturgenereringsförlust, vilket säkerställer att både form och textur exakt återspeglar den stiliserade beskrivningen tapp.
Det är viktigt att notera att det för att skapa en realistisk avatar inte räcker med att bara lägga till textur till en form. Geometrin, det vill säga själva kroppens form, är lika viktig som texturen för att skapa en övertygande och funktionell avatar. Enbart textur kan inte ersätta den noggrant definierade och realistiska kroppens struktur. Vid skapandet av en avatar är det därför avgörande att bevara både detaljerna i geometrin och förmågan att stilisera dessa detaljer genom texturer.
Hur kan textdriven scenproduktion skapa detaljerade 3D-världar?
Text-till-bild-generering har varit ett populärt forskningsområde, där många metoder har försökt skapa realistiska och detaljerade bilder utifrån textbeskrivningar. Ett av de största problemen har varit att överbrygga det semantiska gapet mellan den beskrivna texten och den genererade bilden. Speciellt när det gäller komplexa scener har det varit en utmaning att säkerställa att alla detaljer stämmer överens, särskilt på högre upplösningar. För att adressera detta problem har nya metoder, som de som bygger på CLIP-modellen, öppnat upp nya möjligheter för textdriven bild- och scenproduktion utan att behöva parvisa data.
Trots dessa framsteg finns det fortfarande stora svårigheter i att direkt koppla generativa modeller till CLIP-inbäddningar. En betydande utmaning är att korrekt återge komplexa scener med alla deras nyanser, vilket är kritiskt för att uppnå visuell sammanhållning. Denna problematik gör att det inte är enkelt att tillämpa textdriven scenproduktion i praktiska applikationer som till exempel VR eller filmproduktion.
För att skapa fotorealistiska bilder från textbeskrivningar har forskare utvecklat tekniker som kan hantera HDR (High Dynamic Range) och konvertera lågupplösta bilder till högupplösta panoramabilder, som är avgörande för en realistisk återgivning av världens belysning och färgskala. En metod som har blivit populär för detta är omvänd tonkartläggning, som möjliggör omvandling av LDR-bilder (Low Dynamic Range) tillbaka till sina HDR-ekvivalenter. Denna process är dock inte utan utmaningar, särskilt när det gäller att hantera bilder på olika skalnivåer, vilket kan leda till förlust av detaljer.
En annan framgångsrik metod för att generera realistiska scener från textbeskrivningar är användningen av panoramabilder eller 360°-bilder. Panoramabilder ger en effektiv representation av en scen i VR och filmapplikationer, eftersom de täcker ett mycket större synfält än vanliga bilder. För att integrera denna metod i scenproduktion har forskare utvecklat en teknikkombination av sfärisk positionskodning och Fourier-kodning. Dessa metoder gör det möjligt för modellen att lära sig positionsspecifika egenskaper som är kritiska för att skapa realistiska scener.
När det gäller 3D-scenproduktion från text är det en komplex uppgift som innebär flera steg och har sina egna särskilda problem. För att skapa högupplösta och detaljrika 3D-scener från textbeskrivningar introducerades ett ramverk som är uppdelat i två huvudfaser: den första fasen skapar LDR-panoramabilder baserat på text, och den andra fasen skalar upp dessa bilder både i upplösning och dynamiskt omfång till HDR 4K-bilder.
Den första fasen av scenproduktionen använder en hierarkisk metod där texten används för att skapa både globala och lokala representationsmodeller av scenen. Detta görs genom två separata kodböcker, där den ena fångar den övergripande strukturen i scenen och den andra fångar detaljer på en mer lokal nivå. Den globala samplern, som är textberoende, används för att definiera den övergripande kontexten och strukturen i scenen, medan den lokala samplern använder denna information för att generera detaljerade lokala bitar av scenen. Detta gör det möjligt att skapa realistiska och konsistenta scener.
För att säkerställa att dessa detaljer inte förloras under genereringen används en teknik som kallas för text-conditionerad global sampling och strukturmedveten lokal sampling. Tillsammans gör dessa metoder det möjligt att skapa scener som inte bara är trogna den ursprungliga textbeskrivningen utan också behåller en hög nivå av detaljrikedom och konsekvens.
Den andra fasen av processen innebär en kraftfull uppskalning av dessa scener till HDR-bilder av mycket högre upplösning. Här används kontinuerliga representationsmetoder för att bevara detaljer samtidigt som de dynamiska omfången i bilden ökas. Genom att använda dessa tekniker kan forskare skapa bilder som inte bara ser realistiska ut utan också fungerar i avancerade renderingsmotorer och VR-applikationer, där upplösning och dynamiskt omfång är avgörande för att skapa en uppslukande upplevelse.
I slutändan handlar det om att bemästra den balans som krävs mellan att generera högupplösta och detaljerade bilder, och att säkerställa att dessa bilder fortfarande är trogna den ursprungliga textbeskrivningen. Detta är en pågående forskningsutmaning, men med hjälp av tekniker som CLIP och avancerad scenkodning har vi kommit ett steg närmare att skapa fullt fungerande textdrivna scenproduktioner.
Hur Token-Nivå Visuell Rekonstruktion Kan Förbättra Video- och Multimodal Förståelse
Fas 1 i utvecklingen av system för videoförståelse bygger på en token-nivå visuell rekonstruktion där två specialiserade expertmodeller används för att guida träningen. InternVL-6B och VideoMAEv2-g är de komplementära lärarmodellerna som, genom dedikerade projekteringslager, underlättar kunskapsöverföring. Under träningsprocessen bearbetas hela videosekvenser av båda lärarnätverken, där 80% av tokenen maskeras per bildruta. Denna maskering grundas på både semantisk förståelse (genom InternVL) och rörelsedynamik (genom VideoMAEv2).
Träningen fokuserar på att optimera modellen för tokenrekonstruktion genom att minimera skillnader mellan student- och lärarnätverken med hjälp av medelkvadratfel (MSE) som förlustfunktion. Rekonstruktionsmålet uttrycks som summan av två termer som vägs av koefficienterna α1 och α2, som styr bidraget från varje lärarmodell. Detta gör att modellen lär sig att rekonstruera videoinnehåll på en token-nivå med hjälp av både den visuella informationen och dynamiska rörelser. Maskering och rekonstruktion gör det möjligt att effektivt hantera stora mängder data utan att förlora essentiell information.
Detta träningsupplägg utvidgar tidigare arbeten som UMT och VideoPrism genom att skapa en encoder som inte bara är multimodalt kompatibel utan också har en förstärkt temporal förståelse för handlingsigenkänning. Efter träning tas projekteringslagren bort och en kärnencoderstruktur kvarstår, som är optimerad för att bearbeta multimodal information.
I Fas 2 är målet att ytterligare berika den semantiska förståelsen genom en tvärmodal integration av visuell, ljud- och textinformation. Arkitekturen som används består av en storskalig videoencoder och mer kompakta audio- och textkomponenter. Ljudbehandlingen använder en transformer med 12 lager, där den initiala bearbetningen sker via log Mel-filterbankspektrogram för 10-sekunders segment. Textbearbetningen baseras på BERT-Large, där de första 19 lagren fungerar som textencoder och de resterande 5 lagren används som multimodal decoder, med hjälp av tvärattentionmekanismer.
Träningens mål är att uppnå ett robust tvärmodal alignment mellan video, ljud och text genom en sammansatt förlustfunktion. Denna förlustfunktion består av tre huvudsakliga delar: en kontrastiv komponent, en modality matching-komponent och en språkmodellkomponent. Den kontrastiva förlusten säkerställer att semantiskt liknande video- och textrepresentationer är närme i den gemensamma embeddingrymden, medan modality matching-kriteriet säkerställer att rätt video och textpar matchas genom en binär klassifikation. Språkmodellen gör att systemet kan förutsäga nästa ord i en text baserat på den tidigare kontexten.
Denna fas är avgörande för att skapa en multimodal modell som kan förstå och integrera flera typer av data samtidigt. Detta gör systemet kapabelt att inte bara analysera och förstå den visuella aspekten av en video utan även att koppla den till ljud och text. Denna typ av multimodal integration är nödvändig för att bygga modeller som kan förstå och tolka komplexa videoscenarier på samma sätt som människor gör genom att kombinera syn, hörsel och språk.
En central aspekt av denna process är förståelsen av hur olika modaliteter relaterar till varandra. Modellen måste kunna hantera både semantiska och temporala samband mellan ljud och bild för att kunna tolka innehållet korrekt. Att bygga en sådan sammanhängande representation kräver noggrant utformade förlustfunktioner som kan balansera de olika modaliteterna och deras respektive vikter. Därför är det viktigt att optimera varje delkomponent på ett sätt som inte bara gynnar dess individuella prestation utan också stärker hela systemets förmåga att förstå och analysera multimodal information på en hög nivå.
I en framtida tillämpning kan detta leda till system som effektivt kan användas inom områden som automatisk video- och ljudanalys, multimodal sökning eller till och med för att skapa smarta assistenter som förstår video- och ljudinnehåll på en mer avancerad nivå än nuvarande teknologier tillåter.
Vad är de största skillnaderna mellan olika multimodala modeller för videoförståelse?
Multimodala stora språkmodeller har utvecklats för att förstå och bearbeta både visuella och textbaserade data, och används i allt från actionigenkänning till visuell språknavigation. Dessa modeller är designade för att hantera uppgifter där både video och text är centrala komponenter för korrekt tolkning och respons. Men trots deras framsteg finns det väsentliga skillnader i hur olika modeller presterar beroende på uppgiften, träningsdata och den valda lärarens specifikationer.
När man undersöker olika modeller för uppgifter som actionigenkänning, objektsorterande och eventräkning, framkommer det att vissa modeller har en mer konsekvent och exakt prestanda än andra. Till exempel, när man analyserar en uppgift som att känna igen en handling där en person skalar en banan, är det tydligt att vissa modeller, som InternVideo2-Chat, levererar korrekt information om den utförda handlingen, medan andra modeller, som Gemini Pro och GPT-4V, ibland gör felaktiga tolkningar eller hallucinationer av handlingen.
Det är även märkbart att olika modeller hanterar temporala aspekter av video på olika sätt. För uppgifter som "Video Object Temporal Recognition", där en användare visar bokstäver i en specifik ordning, tenderar InternVideo2-Chat att ge korrekt ordning med de minst antal fel, medan Gemini Pro och GPT-4V ofta blandar bokstäverna eller missar viktiga detaljer i ordningen. Det handlar om hur bra modellen är på att förstå tidsekvenser och hålla reda på objektens positioner och förändringar över tid. Detta belyser vikten av att träna modeller med tillräcklig temporal känslighet för att undvika sådana misstag.
När det gäller eventräkning, som i fallet med en person som kastar objekt på ett bord, visar det sig att InternVideo2-Chat och GPT-4V är bra på att identifiera antalet gånger en handling utförs, även när redundanta bilder eller andra handlingar blandas in i videon. Det är här de multimodala lärarnas roll blir tydlig, där vissa lärare förbättrar modellens förmåga att upptäcka sådana detaljer genom att använda specifika tekniker som motion-aware learning eller kombinationer av ljud- och videodata.
En annan aspekt som skiljer modellerna åt är förmågan att känna igen oväntade handlingar eller övergångar i en video. Till exempel, när en man i en magisk trick video gör en övergång från en 2D-elefantritning till en 3D-elefantskulptur, har modeller som Gemini Pro och InternVideo2-Chat förmågan att identifiera övergången och ge en korrekt tolkning av videons teknik. Men GPT-4V misslyckas ofta med att korrekt förklara själva övergången, även om den kan känna igen den.
Modellernas prestanda påverkas också starkt av den data de tränats på. När man undersöker effekten av träningsdata och lärarmodeller under det första steget i en multimodal träningsprocess, blir det tydligt att prestanda förbättras när modellen tränas med större och mer specifik data. Detta gäller inte bara för videodata utan även för text- och ljuddata, där rätt kombination av lärarmodeller och datamängder kan ge en markant skillnad i resultat.
Ytterligare förbättringar i multimodala modeller kan uppnås genom att lägga till olika typer av kodare, såsom ljud- eller taligenkännare, vilket ökar noggrannheten i uppgifter som video-text retrieval och video-speech-text learning. Det har visats att när både ljud- och tal-kodare läggs till i träningsprocessen, förbättras modellens förmåga att förstå och reagera på komplexa videor med ljudkomponenter.
Vidare, när man jämför användningen av olika lärarmodeller och dataset, framgår det att en multimodal lärare som CLIP, kombinerad med en rörelsesensitiv lärare som MAE, har en särskilt positiv inverkan på modellens prestanda, särskilt när det gäller handlingar som involverar mer dynamiska förändringar i videon.
För att uppnå de bästa resultaten när det gäller förståelse av video och interaktion med multimodala uppgifter, är det avgörande att inte bara välja rätt modell, utan också förstå hur träningsdata, lärarmodeller och arkitekturer påverkar den slutgiltiga prestandan. Modeller som InternVideo2-Chat, som har förmågan att hantera både text och video med minimala fel, verkar vara mer robusta än andra när det gäller att ge korrekt och konsekvent information.
Hur kan vårt ramverk för kollaborativ redigering förbättra ansiktsmanipulation och -generering med multimodala diffusionmodeller?
Vårt kollaborativa ramverk för redigering bygger på en teori som kan integrera olika unimodala, diffusionsbaserade redigeringsmetoder i en gemensam process för kollaborativt skapande. I det här avsnittet demonstreras denna möjlighet genom att vi utökar Imagic-modellen till ett multimodalt paradigm. Vi använder först Imagic för att finjustera inbäddningarna och modellerna för att bättre fånga ansiktsidentitet vid redigering. De dynamiska diffusionsmodellerna som beskrivs i föregående sektion används sedan för att kombinera de finjusterade modellerna. Den kompletta proceduren för kollaborativ redigering visas i Algoritm 3.
Finjustering av de förtränade modellerna är avsedd att bevara identiteten, ett förslag som introducerades i Imagic och är oberoende av vårt ramverk. Utvidgningen av vårt ramverk till redigering kräver dock ingen ytterligare träning av de dynamiska diffuserarna. Vår metod gör det möjligt att åstadkomma resultat som inte bara är konsekventa med de specifika villkoren, utan som också bibehåller ansiktets identitet över olika redigeringar.
Det är viktigt att förstå att även om finjustering av modellerna är nödvändigt för att bevara ansiktsidentiteten, är det inte en del av vårt ramverk för kollaborativ redigering. Vår metod kan genomföra redigeringar utan att träna om diffuserarna, vilket gör processen effektivare. En kvalitativ jämförelse mellan vår metod och andra modeller som TediGAN och Composable visar på fördelarna med vårt ramverk, särskilt när det gäller att hålla sig till både text- och maskvillkor under redigeringen. Till exempel, medan TediGAN har svårt att följa masken korrekt och Composable inte kan skapa ett skägg enligt den givna texten, producerar vårt ramverk resultat som är konsekventa med både textbeskrivning och maskering.
I den tekniska implementationen av vårt kollaborativa diffusionsramverk använder vi LDM (Latent Diffusion Models) för de unimodala diffusionsmodellerna, eftersom den balanserar kvalitet och hastighet väl. Vi arbetar med lågupplösta bilder som komprimeras via en variational autoencoder (VAE), där en encoder komprimerar bilder på 256×256 pixlar till en latent representation på 64×64 pixlar, och sedan återkonstruktion görs genom VAE-dekodaren. Diffusionsmodellerna agerar i denna latenta kod för att sakta denoisa brusiga representationer tills de återkonstrueras som en bild på 256×256 pixlar.
För att hantera textförhållanden omvandlas texten till en sekvens av tokens via BERT-tokenizer, och en inbäddning av dessa tokens används för att skapa en textinbäddning på 77×640. Maskeringsbilder nedskalas till 32×32 och kodas via en one-hot vektor för att representera ansiktskomponenter som exempelvis ögon, näsa och mun. Denna multimodala inbäddning används sedan som input till våra diffusionmodeller för att styra processen mot önskade resultat.
De dynamiska diffuserarna, som är mycket mindre än de pre-tränade diffusionmodellerna, använder tvärsatt uppmärksamhet för att bearbeta de inbäddade mask- och textdata. Denna uppmärksamhet tillåter att specifika ansiktskomponenter, såsom hårstil eller skägg, kan manipuleras på ett riktat sätt medan helheten bibehålls, vilket är avgörande för att skapa autentiska och användarvänliga redigeringsmöjligheter. Processen att samverka mellan dessa olika inbäddningar och diffusioner är det som möjliggör det kollaborativa skapandet.
När det gäller parametrar och prestanda har vi testat våra modeller på CelebA-HQ-databasen, vilket visat på goda resultat i både användartester och kvalitative jämförelser. Vi använder hyperparametrar som är optimerade för att säkerställa både snabbhet och högkvalitativa redigeringsmöjligheter.
För att bättre förstå det praktiska värdet av vårt ramverk bör läsaren beakta vikten av att kunna manipulera ansiktsbilder på ett naturligt sätt utan att förlora den autentiska identiteten. I en värld där ansiktsmanipulation används för många olika ändamål, från underhållning till säkerhet, är det avgörande att behålla människans känslighet och igenkänning. De här teknologierna kan spela en viktig roll både för skapande och för etiska tillämpningar inom exempelvis personuppgifter eller visuell media.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский