I utvecklingen av realistiska 3D-avatarer är en viktig aspekt att säkerställa att den genererade nätverksgeometrin är i linje med en förbestämd mall och redo för deformation. Denna process innebär att man först tillämpar en invers linjär blandad hudfästningsalgoritm (LBS) för att transformera avatarens stående pose, θstand\theta_{\text{stand}}, tillbaka till den neutrala nollpositionen, θ0\theta_0. Detta görs genom att applicera den inversa hudfästningstransformationen på alla vertices VV, vilket resulterar i Vθ0V_{\theta_0}, som representerar nätverket i nollpositionen. Därefter kan Vθ0V_{\theta_0} animeras genom att använda en standard LBS-algoritm för att ge avatarer en rad olika poser medan de upprätthåller korrekta deformationer och blandningsvikter. Detta gör att avatarens animationer kan definieras som M(θ)=(LBS(Vθ0,θ),F,C)M(\theta) = (LBS(V_{\theta_0}, \theta), F, C), vilket säkerställer att avatarer förblir både anatomiskt korrekta och smidigt deformeras genom olika poser.

Trots framstegen inom avatar-animationer och 3D-modellering, finns det fortfarande utmaningar när det gäller att generera realistiska rörelser baserade på naturliga språkbeskrivningar. Ett exempel på detta är användningen av CLIP (Contrastive Language–Image Pretraining), som, även om den är effektiv på att jämföra poser och textbeskrivningar, inte är optimal för att bedöma rörelsens sammanhang eller dess koherens. CLIP är därför begränsad när det gäller att generera verklighetstrogna rörelsemönster enbart baserat på textkommandon.

För att lösa denna problematik måste ytterligare moduler introduceras för att ge rörelsespecifika prioriteringar. Trots dessa begränsningar kan CLIP användas för att vägleda skapandet av enskilda poser. För att skapa rörelsemönster kan vi använda CLIP för att generera referensposer, som sedan används som grund för att utveckla en sekvens av rörelser.

Den process som vi föreslår är en tvåstegsmetod för rörelsegenerering. Först genereras kandidatorienterade poser med hjälp av CLIP, och därefter används dessa poser som referenser för att skapa en sekvens av rörelser. Processen ser ut på följande sätt:

  1. Generering av kandidatorienterade poser
    För att skapa poser som stämmer överens med en specifik rörelsedescription tmotiont_{\text{motion}}, är den mest raka metoden att direkt optimera parametern θ\theta inom SMPL-modellen eller att justera latentkodningen av en förtränad pose-VAE (t.ex. VPoser). Men den här metoden kan vara problematisk, då den ofta misslyckas med att skapa realistiska poser på grund av svårigheter i optimeringsprocessen. Istället för att optimera direkt, använder vi en metod som involverar skapandet av en kodbok baserad på AMASS-datasetet. Denna kodbok hjälper till att minska dimensionaliteten och används för att identifiera k-centroider via K-means-klustring. Dessa centroider bildar vårt poses-kodbok, BRK×dB \in \mathbb{R}^{K \times d}, där varje entry i kodboken kan avkodas för att generera motsvarande poser.

För varje rörelsedescription tmotiont_{\text{motion}} beräknas likheten mellan beskrivningen och varje pose i kodboken. De kk mest liknande posterna väljs för att bilda en uppsättning kandidatorienterade poser som kommer att användas som referenser för den efterföljande rörelsegenereringen.

  1. Referensbaserad animation med rörelseprioriteringar
    När vi har vår uppsättning referensposer, skapar vi en rörelsesekvens som stämmer överens med rörelsedescriptionen tmotiont_{\text{motion}} genom att använda en Motion VAE (Variational Autoencoder). Motion VAE:n är uppbyggd av tre huvudkomponenter: en rörelseencoder, en reparameteriseringmodul och en rörelsedekoder. Under träning optimeras rörelse-VAE:n med hjälp av rekonstruktionsförlust och KL-divergens.

För att optimera denna VAE används en latent kod zmotionz_{\text{motion}}, som styr genereringen av rörelsesekvenser. Rörelsen representeras som en sekvens av poses, där varje led är kodad som en kontinuerlig vektor av sex dimensioner. För att kontrollera rörelsens intensitet introduceras optimeringsbegränsningar för att säkerställa att rörelsen förblir realistisk och konsekvent i hela sekvensen. Dessa optimeringsmål innefattar minimisering av skillnaden mellan genererade poser och referensposer, kontroll av rörelsens intervall och säkerställande av att varje pose stämmer överens med den ursprungliga textbeskrivningen.

För att förbättra och stabilisera den slutgiltiga animationen är det viktigt att bibehålla de anatomiska proportionerna i varje rörelse, och även att säkerställa att rörelsemönstren känns naturliga i en övergripande sekvens. Genom att integrera rörelseprioriteringar som lärts genom VAE:n, kan vi säkerställa att avatarens rörelser inte bara ser bra ut i enskilda poser utan också flödar naturligt från en pose till en annan.

När man arbetar med dessa teknologier är det också viktigt att komma ihåg att processen för att skapa rörelse och animation inte bara handlar om att rendera en enskild pose, utan om att upprätthålla en helhet av anatomiska och dynamiska samband. Detta kräver en noggrant designad pipeline som kan kombinera olika teknologier och metoder för att säkerställa både realism och flexibilitet i slutprodukterna.

Hur kan textstyrd panoramisk scengeneration förbättra bildkvalitet och dynamiskt omfång?

För att säkerställa att den genererade scenen uppfyller höga kvalitetskrav tränas modellen för att förbättra både upplösning och dynamiskt omfång. Den använda metoden fokuserar på att minimera två viktiga objektiv: en för att förbättra upplösningen genom att jämföra de genererade bilderna med de verkliga bildproven, och en annan för att utöka det dynamiska omfånget genom att optimera skillnaderna mellan de genererade och de sanna bilderna. Träningsmålet omfattar därför summan av dessa två komponenter, vilket gör att modellen lär sig att både förbättra upplösning och bevara strukturell integritet samtidigt som den expanderar det dynamiska omfånget.

För att jämföra effektiviteten hos den föreslagna metoden används flera populära tekniker inom panoramabilder och textstyrd syntes. Metoder som StyleGAN2 och StyleGAN3, som genererar bilder från en latent distribution, jämförs med andra framstående tekniker som InfinityGAN och Taming Transformer. Dessa metoder visar ofta fördelar på ett kvantitativt plan, med mätningar som Fréchet Inception Distance (FID) och Inception Score (IS), där den föreslagna modellen når de bästa resultaten både i bildkvalitet och strukturell integritet.

Vid bedömningen av panoramabilder görs både kvantitativa och kvalitativa jämförelser, vilket visar att de föreslagna teknikerna erbjuder tydliga fördelar. För medan tidigare metoder som StyleGAN2 och StyleGAN3 har svårt att upprätthålla panoramaspecifika strukturer och integritet, lyckas den föreslagna modellen producera bilder som inte bara ser naturliga ut vid första anblick utan också bibehåller en hög nivå av detaljer och sammanhang. Modellen minimerar visuella artefakter, såsom förvrängda strukturer eller texturbrister som är vanliga i tidigare genererade panoramabilder.

För att utvärdera effektiviteten av den textdrivna syntesen används metoder för att skapa panoramabilder direkt från textbeskrivningar. Här visade det sig att enkla tillägg till tidigare metoder, som StyleCLIP och FuseDream, inte var tillräckliga för att skapa textuellt korrekta och strukturellt sammanhängande panoramabilder. StyleCLIP, som direkt optimerar latensutrymmet av StyleGAN med hjälp av CLIP, visar goda resultat när det gäller att skapa bilder som är visuellt nära den givna texten, men misslyckas ofta med att upprätthålla den globala sammanhangen för hela scenen. FuseDream, som tillämpar förbättringar av bildaugmentationer, kan förbättra den texturala konsistensen, men har fortfarande svårt att helt och hållet spegla den textdrivna scenen. I jämförelse har den föreslagna modellen en förmåga att bättre förena textbeskrivningen med den resulterande panoramabilderna, vilket resulterar i bilder som inte bara ser textmatchande ut utan också har en högre grad av textural och semantisk konsistens.

För att uppnå detta krävs en noggrant designad textstyrd global samplingsmekanism som optimerar genereringen av panoramabilder baserat på textinput. Resultaten är påtagligt förbättrade både i termer av bildkvalitet och semantisk noggrannhet. Modellen skapar bilder där texturer och detaljer exakt matchar textbeskrivningen, även när fria eller komplexa beskrivningar används.

Förutom de kvantitativa och visuella förbättringarna som den föreslagna modellen uppvisar, finns det också ett viktigt inslag i att förstå den interna strukturen hos de genererade bilderna. Medan föregående metoder har förlorat struktur i vissa delar av panorama, särskilt nära horisonten eller vid polerna, kan den föreslagna modellen uppnå en mer konsekvent och sammanhängande representation av panoramans geometriska och texturala egenskaper. Detta gör den till ett användbart verktyg för att skapa realistiska och semantiskt korrekta panoramabilder som är tillförlitliga för en mängd olika applikationer, från spel och virtual reality till professionella fotomontage och grafisk design.

I sammanhanget av att generera panoramabilder är det också viktigt att förstå fördelarna och begränsningarna av varje metod i ljuset av den tänkta användningen. Den föreslagna metoden, genom att integrera både text och bild med avancerade tekniker för att upprätthålla strukturell integritet och detaljnivå, erbjuder en stabil grund för skapande av panoramabilder i hög upplösning och med dynamiskt omfång. Men det är också avgörande att hålla i åtanke att metoden för textstyrd syntes fortfarande står inför utmaningar när det gäller att fullt ut förverkliga komplexa och mycket detaljerade beskrivningar.

Hur multimodala stora språkmodeller förbättrar förståelsen och genereringen av video

Multimodala modeller, som integrerar både språk och visuella data, har snabbt blivit en central komponent i framstegen inom artificiell intelligens. Genom att kombinera bild-, video- och språkinformation kan dessa modeller skapa mer robusta och användbara lösningar för videoanalys och interaktiv förståelse. I den här utvecklingen spelar stora språkmodeller (LLM) en avgörande roll genom att möjliggöra komplexa förståelse- och genereringsuppgifter som tidigare var svåra att genomföra med traditionella metoder.

En särskild riktning inom multimodal AI är utvecklingen av stora multimodala språkmodeller för videoförståelse, där språket inte bara används för att analysera bilder, utan också för att förstå och beskriva video. Ett exempel på detta är GPT-4V, som har anpassats för att behandla både text och visuell information på ett sätt som gör det möjligt att generera text från visuella indata, eller omvänt, att förstå komplexa videosekvenser genom naturligt språk.

En viktig aspekt i detta sammanhang är det ökande intresset för så kallade videomaskerade autoenkodare, som tränas på att dölja och återställa delar av videoinformation för att stärka deras förståelse av temporala relationer i videoinnehåll. Modeller som VideoMAE har visat på lovande resultat genom att använda en strategi som liknar den som används inom bildgenerering, där delar av bilden "maskeras" för att träna modellen på att återställa de saknade delarna.

Dessutom utvecklas det en växande uppsättning benchmarks som bedömer dessa multimodala system, med hjälp av stora, mångsidiga datamängder som exempelvis Moments in Time och NTU RGB+D, som ger en grund för att mäta modellernas förmåga att förstå och generera komplexa videosekvenser. Dessa datamängder är utformade för att täcka en mängd olika videoklipp med allt från människors rörelser till miljöer och objekt, vilket gör att modeller kan tränas på mer varierad och representativ data.

Förutom tekniska framsteg inom videoanalys finns det också nya innovationer för att förbättra modellen genom interaktiva och samtalsbaserade gränssnitt. Video-chatbotar som "Video-ChatGPT" är exempel på hur stora multimodala modeller används för att erbjuda mer detaljrik och användarcentrerad videoförståelse, där användaren kan ställa frågor om innehållet i videon och få svar baserade på både den visuella informationen och textbaserad analys.

Det finns också ett ökat intresse för att använda video för att tillhandahålla ny kontext och förbättra upplevelsen av att interagera med AI genom naturligt språk. Modeller som "Valley" och "Clip4Clip" har visat på potentialen för att skapa system som kan både hämta och generera videoklipp baserat på textuella frågeställningar, vilket öppnar upp för nya sätt att utföra interaktiva videobeskrivningar eller skapa skräddarsydda videoasistenter.

För att förstå detta område fullt ut är det också viktigt att inse den tekniska utmaningen i att hantera både den rika tidsdimensionen och den temporala dynamiken i video. Detta innebär att varje video inte bara behöver förstås bild för bild, utan också i relation till den rörelse och förändring som sker över tid. Att få AI att korrekt tolka dessa förändringar och ge meningsfulla svar baserat på sekventiell information är en av de stora utmaningarna som forskare arbetar med idag.

En annan aspekt som får ökad uppmärksamhet är modellen för hur dessa system tränas. Träningseffektivitet är kritisk, särskilt när det gäller att hantera enorma datamängder, vilket gör det möjligt för forskare att utveckla modeller som både är precisa och kostnadseffektiva. "Unmasked teacher" är ett exempel på en sådan metod, som syftar till att förbättra träningsmetoder genom att minimera behovet av övervakad inlärning och istället utnyttja självövervakning och semi-övervakade tekniker för att skapa mer flexibla och resursbesparande system.

Utvecklingen inom multimodala språkmodeller för video innebär också nya möjligheter för tillämpningar inom olika domäner. Inom områden som säkerhet, hälsa och utbildning kan dessa modeller användas för att skapa mer dynamiska och responsiva system som förstår både text och visuell information. Ett område med särskild potential är inlärning från svaga etiketter, där metoder som svagt övervakade inlärningstekniker kan användas för att bygga modeller som inte kräver omfattande manuellt märkta datamängder för att vara effektiva.

För den som arbetar inom forskning eller tillämpningar av AI är det viktigt att hålla sig uppdaterad om både de tekniska framstegen och de nya metoder som utvecklas inom multimodal videoanalys. De nya modellerna möjliggör inte bara bättre förståelse av video, utan även mer exakt generering och interaktiv hantering av multimodala data. Och medan teknologin fortsätter att utvecklas, bör man också beakta de etiska och samhälleliga konsekvenserna av att bygga allt mer kraftfulla multimodala system, särskilt i frågor som integritet, rättvisa och transparens.

Hur kan Test-Time Prompt Tuning förbättra vision-språkmodeller i realtid?

Test-Time Prompt Tuning (TPT) innebär en metod för att optimera promptar för vision-språkmodeller (VLM) direkt vid testtillfället, vilket eliminerar behovet av att träna om modellen på specifika dataset. Denna metod utnyttjar förmågan att anpassa textuella prompts för att förbättra bildklassificering och kontextberoende visuell resonemang vid testtillfället. Det primära målet är att optimera prediktionerna från modellen för en given uppgift genom att minimera entropin i de genomsnittliga prediktionssannolikheterna för olika augmenteringar av testbilder.

I sin kärna bygger TPT på att göra justeringar av de textuella promptarna som används för att vägleda modellen vid bildklassificering. Detta görs genom att använda en uppsättning av randomiserade bildaugmentationer, där varje augmentation representerar en ny version av en testbild. De resulterande förutsägelserna från varje augmentation sammanfattas för att producera en övergripande sannolikhetsfördelning. För att minimera entropin, vilket innebär att göra prediktionerna mer säkra och förutsägbara, introduceras ett filter som selekterar bort de augmentationer som leder till hög entropi (dvs. låg förtroende i prediktionen). Detta görs genom att välja de förutsägelser som är de mest säkra, vilket hjälper modellen att fokusera på de viktigaste och mest informativa delarna av bilden.

För att uppnå detta skapar man en mask som filtrerar bort de augmenteringar som inte har tillräcklig förtroende, med hjälp av en själventropi för att rangordna bilder från hög till låg förtroende. Denna metod säkerställer att bara de mest pålitliga förutsägelserna tas med i den slutliga sammanfattningen, vilket förbättrar modellens förmåga att korrekt klassificera även när det finns variationer i testbildens utseende eller kontext.

Förutom att minska entropin för att förbättra noggrannheten vid testtillfället, kan TPT också tillämpas på en uppsättning stödjande bilder i kontextberoende resonemang. I sådana fall, där uppgiften är att förstå visuella begrepp i relation till varandra, kan TPT användas för att lära sig de optimala binära etikett-token som representerar positiva eller negativa exempel. Detta görs genom att optimera prompts och etiketter samtidigt, vilket möjliggör mer precisa och kontextuellt anpassade förutsägelser vid testtillfället.

För att ytterligare förbättra den kontextuella resonemangsförmågan, används TPT för att direkt lära sig det visuella begreppet i form av textbaserade prompts. Denna tillvägagångssätt är särskilt användbar för uppgifter som Bongard-HOI, där bildens korrekta klassificering beror på den kontext som definieras av stödjande bilder. Genom att integrera TPT i en testtidspunkt kan modellen leverera bättre prestanda utan att behöva någon ytterligare träning på specifika uppgifter eller dataset.

I praktiken har TPT visat sig förbättra modellens generaliseringsegenskaper på flera olika benchmarktester och dataset. En viktig aspekt av TPT är dess robusthet mot naturliga distributionsförskjutningar, vilket innebär att den är effektiv även när modellen ställs inför nya, okända data eller bilder som skiljer sig från den ursprungliga träningsdatan. Detta gör TPT särskilt användbart för situationer där modeller måste vara flexibla och kunna hantera en mängd olika bildtyper, från verkliga bilder till konstnärliga tolkningar eller skisser.

Genom att använda test-tidspromptning har det visat sig att modellen kan uppnå högre noggrannhet på out-of-distribution (OOD) data, som naturliga bildvariationer, konstnärliga renditioner eller skisser, än traditionella metoder för prompttuning som kräver träning på specifika uppgifter. Detta innebär att TPT inte bara fungerar för specifika dataset utan kan också ge ökad precision vid hantering av bilder som är utanför den ursprungliga träningsdatan.

För att maximera TPT:s potential är det viktigt att förstå de olika komponenterna i metoden. Först och främst spelar bildaugmentationer en central roll i att skapa mångsidiga indata som modellen kan bearbeta. De val av augmenteringar som används, såsom slumpmässig beskärning eller förändring av bildstorlek, påverkar modellens förmåga att generalisera och optimera sina förutsägelser. Det är också viktigt att välja rätt nivå av säkerhet eller förtroende vid selektionen av prediktionssampel för att säkerställa att bara de mest tillförlitliga förutsägelserna används i slutberäkningen.

TPT är inte bara en metod för att förbättra bildklassificering på testtiden; den har också potential att revolutionera hur vi hanterar kontextuellt beroende resonemang i vision-språkmodeller. Genom att skapa dynamiska och kontextuellt anpassade prompts kan modeller bli mer effektiva i att förstå och resonera kring visuella koncept utan behov av ytterligare träning på specifika uppgifter eller dataset.

Hur hanterar Vision-Language Models (VLM) de tekniska och etiska utmaningarna?

Vision-Language Models (VLM) kräver enorma beräkningsresurser för att både träna och köra, ofta beroende på kraftfulla grafikkort (GPUs) eller tensor processorenheter (TPUs) och stora mängder minne. Träning av avancerade modeller som GPT-4 kan ta veckor av intensiv beräkning på tusentals acceleratorer, med kostnader som sträcker sig in i miljoner av dollar. Även vid inferens, särskilt för realtidsapplikationer, är kraven på beräkningskraft lika tunga, eftersom varje fråga innebär att en stor modell måste bearbetas med betydande minnes- och beräkningsöverhäng. För att hantera detta kan praktiker använda metoder för minskning av minnesanvändning, såsom nollte ordens optimerare, för att minska minnesbehovet under träning, och kvantiseringstekniker för att komprimera viktparametrarna i modellerna, vilket underlättar implementeringen.

Ett särskilt problem för VLM är hanteringen av höga dimensioner i indata, exempelvis långa videor eller bilder med hög upplösning. Att analysera en långfilm eller bearbeta medicinsk bilddata i gigapixlar kräver kolossala mängder minne och beräkningskraft. Transformatorer, som är den vanligaste arkitekturen för VLM, lider av kvadratisk komplexitet i sekvenslängd, vilket gör dem ineffektiva för att bearbeta långa sekvenser. Detta gör att fördröjningarna kan bli för stora för tillämpningar med strikta tidskrav, såsom autonom körning eller interaktiva assistenter. Optimeringstekniker som modellcachelagring, adaptiv inferens och edge computing kan minska svarstiderna, men inför dessa lösningar krävs nya sätt att hantera komplexiteten vid implementering.

När det gäller distribuerad och federerad lärande innebär träning av VLM i en distribuerad miljö över flera datornoder ytterligare utmaningar. Effektiv synkronisering och kommunikation över noder är avgörande för att undvika flaskhalsar vid uppdatering av gradienter i stor skala. Federerat lärande, där data förblir lokalt på användarnas enheter för att skydda integriteten, tillför ytterligare ett lager av komplexitet. Detta är särskilt relevant i tillämpningar där multimodala data är känsliga, såsom inom medicinsk bildbehandling eller hantering av personliga foton.

En annan central utmaning för VLM är datakvalitet och tillgång. Att skapa och använda multimodala dataset som är både representativa och högkvalitativa är avgörande för att träna bra modeller. Dock är de flesta tillgängliga dataset för VLM ofta biaserade mot specifika geografi- och kulturzoner, vilket kan leda till att modeller misslyckas i mer underrepresenterade kontexter. Därför krävs noggrant kuraterade dataset för att uppnå global mångfald och representation. Ett ytterligare problem är att kvaliteten på de enorma dataset som används, som till exempel LAION-5B, ibland kan vara bristfällig. Många av bild- och textkopplingarna i sådana dataset är inte alltid relevanta eller korrekta, vilket riskerar att dessa fel sprids och påverkar modellens prestanda.

När det gäller specifika långsvans- eller sällsynta koncept, till exempel att identifiera sällsynta arter i bilder eller förstå teknisk terminologi i vetenskapliga texter, möter VLM ofta svårigheter på grund av den ojämna fördelningen av data. Det innebär att modellen ofta tenderar att överträna på de vanligare koncepten, samtidigt som den presterar sämre på de mer sällsynta. Lösningar för att hantera dessa problem inkluderar databerikning, balanserad sampling och syntetisk dataframställning.

Etiska och sekretessmässiga frågor är också betydande när det gäller multimodala dataset. Datan samlas ofta in genom att skrapa internetinnehåll, vilket kan inkludera känslig information som privata bilder, platsdata eller upphovsrättsskyddat material. Att använda denna typ av data utan samtycke innebär risker, inte bara för de individer vars data används utan även för samhället i stort, om det leder till att fördomar eller skadligt innehåll sprids. Utvecklare måste därför etablera tydliga riktlinjer för datainsamling och annotering, samt säkerställa öppenhet genom detaljerad dokumentation av dataset. För att bygga socialt ansvariga och etiskt hållbara AI-system är det avgörande att ta hänsyn till dessa aspekter.

Inom området pre-träning och representationsinlärning har ett av de största genombrotten varit CLIP, där två modul-specifika kodare tränades från grunden på 400 miljoner bild-text-par med hjälp av kontrastiv inlärning. Framgången med CLIP bygger på tre viktiga innovationer: transformatorer, kontrastiv inlärning och multimodala dataset i webbstorlek. Kontrastiv inlärning, som redan var välkänd i datorvisionens självlärande representationer, bidrog avsevärt till utvecklingen av CLIP. Idén att lära sig ett gemensamt representationsutrymme för bild och text var dock något som hade undersökts långt innan CLIP, vilket visar på hur dessa koncept över tid har byggt vidare på varandra. En annan utveckling var användningen av maskerad språkmodellering för multimodala inställningar, där texttokens maskeras och deras återuppbyggnad konditioneras på både den visuella och textuella kontexten, vilket visat sig vara effektivt för att skapa kontextualiserade representationer.

För att lösa problemen med höga beräkningskrav och komplexa etiska frågeställningar är det avgörande att forskningen och teknikutvecklingen fortsätter att arbeta med nya teknologier och tekniker som optimerar databehandling, samt att etiska överväganden beaktas genom hela utvecklingsprocessen.