I dagens värld av digitala avatarer finns det ett tydligt gap mellan de metoder som används i nuvarande teknik och visionen om att göra skapandet av 3D-avatarer både enkelt och tillgängligt för en bredare publik. Den största utmaningen här är att förenkla de komplexa processerna som är involverade i skapandet och animationen av 3D-avatarer, samtidigt som användarna bibehåller kontroll och flexibilitet. En sådan förenkling kan uppnås genom att använda naturligt språk som en intuitiv och lättillgänglig styrsignal. Men en betydande utmaning återstår: det finns för närvarande ingen högkvalitativ dataset som kopplar text och avatarer för att underlätta en övervakad textstyrd 3D-avatar generation.
I fältet för avataranimation har några tidiga arbeten utforskat textdriven rörelsegenerering, exempelvis genom användning av motion-text dataset. Trots dessa ansträngningar är de fullt övervakade metoderna begränsade av bristen på tillräckliga data, vilket gör att deras förmåga att generalisera förblir svår. En del nya genombrott har uppkommit inom vision-språkmodeller, som CLIP, som har visat på exceptionella resultat när det gäller att skapa bilder direkt från textbeskrivningar, vilket öppnar upp för nya möjligheter för textstyrd 3D-avatar skapande och animation.
CLIP har visat sig framgångsrikt generera bilder utan att vara tränad för att förstå 3D-modeller, men det finns flera utmaningar när det gäller att skapa statiska 3D-avatarer eller rörelsesekvenser baserat på textinstruktioner. En av de största svårigheterna ligger i de tre huvudsakliga områdena vid skapandet av statiska 3D-avatarer: texturgenerering, geometrimodellering och att säkerställa att avataren är redo för animation.
För att lösa dessa problem använder man sig av en metod där CLIP-anvisningar appliceras på renderade bilder, vilket vägleder skapandet av en implicit 3D-avatar som möjliggör texturgenerering. För att förenkla optimeringsprocessen används en mänsklig mesh-template som initialiserar den implicita funktionen och styr avatarens form genom optimering. För att säkerställa högkvalitativ geometri för framtida animation, tas hjälp av en metod där ljus riktas på avatarens yta för att skapa texturlösa renderingar som guidar CLIP i skapandet av den realistiska geometrin.
För att säkerställa att avatarerna kan animeras, tas fördel av utvecklingen inom parametriska mänskliga modeller, som SMPL. Genom att registrera avataren med en SMPL-mesh kan denna styras av SMPL-skelettet för animation. Men när det gäller animation, där rörelser ska genereras från enbart textbeskrivningar, stöter man på betydande hinder, eftersom CLIP inte är tränad för att hantera sekventiella rörelser. För att lösa detta bryts processen ned i två faser: att först generera kandidatroställningar genom CLIP och därefter syntetisera smidiga rörelsesekvenser baserade på dessa poser.
Denna tvåfasapproach gör det möjligt att effektivt skapa realistiska rörelser genom att först skapa en uppsättning poser som CLIP kan välja från, och därefter använda dessa poser för att generera rörelser med hjälp av en motion VAE (variational autoencoder). Detta möjliggör skapandet av högkvalitativa 3D-avatarer och animering av dessa avatarer med realistiska rörelser, helt styrda genom naturliga språkbeskrivningar.
AvatarCLIP, en innovativ pipeline för zero-shot 3D-avatar skapande och animation baserat på textinput, kan generera och animera 3D-avatarer utan att behöva tränas på specifika dataset för 3D-motorrörelser eller text-rörelsedata. Detta möjliggör en effektiv och flexibelt anpassad användning av avatarer genom naturligt språk och gör tekniken tillgänglig även för användare utan tidigare erfarenhet av 3D-modellering eller animation.
Förutom den tekniska utvecklingen inom 3D-avatar skapande är det viktigt att notera den pågående forskningen inom 3D-modellering och rörelsegenerering. Traditionella parametriska modeller som SMPL och SMPL-X, som representerar människokroppen, erbjuder stark tolkbarhet och används ofta som grund för 3D-avatarer. Dessa modeller fokuserar dock enbart på kroppens struktur och tar inte hänsyn till kläder eller tillbehör, vilket leder till behovet av mer flexibla och detaljerade representationer av klädda människor. Här bidrar framsteg inom volymrendering och neural radiance fields (NeRF) till att skapa mer dynamiska och detaljerade 3D-modeller.
Framväxten av metoder som kombinerar NeRF med signed distance functions (SDF) har visat sig vara effektiv för att åstadkomma högkvalitativ geometri och färgrekonstruktion. Dessa teknologier erbjuder nya möjligheter för att generera mer realistiska och anpassningsbara 3D-avatarer.
Utvecklingen av textstyrda metoder för 3D-avatar skapande och animation öppnar nya möjligheter för användning inom spelindustrin, underhållning, utbildning och många andra områden. För att uppnå en verkligt sömlös integration av denna teknik i praktiska tillämpningar måste det också ske fortsatta framsteg inom förståelsen av rörelser och deras syntes från textbeskrivningar. Detta kräver att tekniker som motion VAE och andra motiongenereringsmodeller ständigt förbättras för att säkerställa smidiga och realistiska animationer i olika kontexter.
Hur InternVL överskrider sina föregångare i bild- och videoklassificering, bild-text hämtning och multimodal förståelse
InternVL är en modell som har visat exceptionell prestanda på flera banbrytande vision- och språkuppgifter. Denna modell har blivit särskilt framstående i områden som bildklassificering, videoklassificering, bild-text hämtning och multimodal förståelse. I denna kapitel utvärderas InternVL på en rad benchmarktester som belyser dess överlägsna förmåga att hantera vision-språk-uppgifter i ett zero-shot-läge, vilket innebär att modellen inte kräver någon specifik träning på de data den bedömer.
När det gäller zero-shot bildklassificering på populära datasets som ImageNet, visar InternVL att den överträffar tidigare modeller, särskilt i sin förmåga att hantera förskjutningar i distributionsdata. Detta gör modellen mer robust och konsekvent när den appliceras på olika varianter av ImageNet. Vid jämförelse med andra modeller som EVA-02-CLIP-E+, är InternVL bättre på att upprätthålla stabil prestanda över olika datadomäner. Modellen har också visat sig vara exceptionellt stark i sina flerspråkiga förmågor, vilket gör att den presterar bättre än konkurrerande modeller på flerspråkiga ImageNet-1K benchmark.
I fråga om videoklassificering, uppvisar InternVL ännu en gång sin överlägsenhet. När modellen testades på Kinetics 400, 600 och 700 datasets, gav den resultat som var överlägsna tidigare modeller, till exempel EVA-02-CLIP-E+ och ViCLIP. Genom att använda en enda centrala bildram från varje video, uppnådde InternVL topp-1 noggrannhet på 71.0%, 71.3% och 65.7% för de tre datasetsen, vilket var betydligt bättre än EVA-02-CLIP-E+, som uppnådde lägre resultat. För att ytterligare förbättra prestanda, testades modellen också med åtta bilder från varje video, vilket ledde till ytterligare förbättringar i noggrannheten.
En annan kraftfull förmåga hos InternVL är dess förmåga att genomföra bild-text hämtning, både på engelska och kinesiska. När modellen testades mot dataset som Flickr30K och COCO, överträffade den många av sina konkurrenter, inklusive EVA-02-CLIP-E+, och visade sig vara särskilt bra på att hantera flerspråkiga dataset. I de tester där den jämfördes med andra modeller som BLIP-2 och OpenCLIP, hade InternVL överlägsna resultat för både bild-till-text och text-till-bild hämtning.
Vid utvärdering på multimodala benchmarks, som OCR-relaterade uppgifter och andra komplexa tester, visade InternVL sig även där vara en ledande modell. Till exempel i OCR-relaterade tester där dokumentförståelse, diagramförståelse, infografikförståelse och tolkning av scentext bedömdes, överträffade InternVL sina konkurrenter på flera viktiga områden. Modellen presterade särskilt bra på ChartQA och OCRBench, vilket resulterade i att den slog andra avancerade modeller, inklusive de som tillhörde större företag.
För att maximera sin mångsidighet är InternVL också utrustad med förmågan att hantera matematiska uppgifter och flertrådig konversation. Modellen uppnådde höga poäng på flera relevanta benchmarktester, vilket ytterligare bekräftar dess allsidighet i att hantera olika typer av multimodala uppgifter. När det gäller matematiska tester, till exempel MathVista, visade InternVL imponerande resultat, vilket gör den användbar inte bara för text och bilder, utan även för mer komplexa domäner som matematik.
InternVL:s framgång på dessa olika tester kan tillskrivas dess förmåga att integrera och hantera både vision- och språkdata samtidigt, vilket gör att modellen kan utföra uppgifter som kräver en förståelse av kontext, relationer och mönster mellan olika datatyper. Denna kapacitet innebär en väsentlig förbättring jämfört med tidigare modeller, som ofta var mer begränsade till specifika uppgifter eller datadomäner.
För läsaren är det också viktigt att förstå att InternVL:s framgångar på dessa benchmarker inte bara beror på dess avancerade teknologiska design, utan också på den omfattande datamängd som modellen tränats på. Många av dessa framsteg bygger på tillgång till stora och varierade dataset, vilket gör att modellen kan generalisera effektivt på nya uppgifter och domäner. Detta är en avgörande faktor för dess förmåga att utföra zero-shot klassificering och hämtning, där den utan tidigare träning kan hantera helt nya bilder och texter med hög noggrannhet.
Det är också värt att notera att trots den imponerande prestandan hos InternVL, kräver användningen av sådana modeller ofta betydande datorkapacitet, vilket kan vara en utmaning för vissa användare eller organisationer. Men för de som har tillgång till tillräcklig infrastruktur, erbjuder InternVL ett kraftfullt verktyg för att arbeta med multimodal data på ett sätt som tidigare modeller inte kunnat matcha.
Hur kan vi förbättra vision-språkmodeller genom kalibrering av förtroende?
I den senaste utvecklingen av vision-språkmodeller (VLM) har vi sett en tydlig trend där dessa system kan hantera multimodala data och generera meningsfulla svar på förfrågningar i både text och bild. Men en av de stora utmaningarna som kvarstår är att förbättra dessa modellers förmåga att vara exakt och pålitlig i sina prediktioner, särskilt när de konfronteras med osäkerhet i data eller nya, okända situationer. Ett sätt att närma sig detta problem är genom kalibrering av förtroende, vilket innebär att säkerställa att modellerna inte bara gör förutsägelser, utan också kan bedöma hur tillförlitliga dessa förutsägelser är.
Traditionella vision-språkmodeller, som de som byggts på CLIP (Contrastive Language–Image Pretraining), tenderar att ha svårt att ge ett exakt mått på förtroendet för sina förutsägelser. Detta kan vara problematiskt när modellen till exempel ska avgöra om en bild verkligen matchar en viss textbeskrivning, eller om den har för hög eller låg säkerhet i sin klassificering. För att åtgärda detta krävs en sofistikerad förtroendekalibrering som tar hänsyn till modellens interna osäkerheter och justerar resultatet för att reflektera den verkliga tillförlitligheten.
För att uppnå bättre kalibrering, kan vi använda en teknik där modellen tränas på att justera sina prediktioner baserat på hur bra den vet att den gör. Detta kan ske genom att kalibrera de initiala sannolikheterna som produceras av modellen, så att de reflekterar mer exakt hur sannolika de faktiskt är. Denna process gör modellen mindre benägen att övervärdera sina egna förutsägelser i osäkra situationer och hjälper till att göra den mer robust.
I många tillämpningar av vision-språkmodeller innebär kalibreringen också att hantera ny information och okända objekt, vilket är en betydande fördel i öppna världsmiljöer där systemet inte kan förutses hantera alla möjliga objekt i förväg. Till exempel, när en modell används för objektigenkänning i bilder där vissa objekt är okända eller sällsynta, kan kalibreringen hjälpa till att ge mer pålitliga resultat även för dessa fall, utan att modellen tvingas göra osäkra eller felaktiga förutsägelser.
När vi går vidare i att utveckla denna typ av teknik måste vi också beakta att kalibrering inte bara handlar om att förbättra noggrannheten i modellen utan också om att förstå de underliggande mekanismerna som styr osäkerheten i beslutsfattandet. För att kunna kalibrera korrekt måste modellen inte bara känna igen objekt eller mönster i data, utan också förstå varför den gör dessa prediktioner, vad den är osäker om, och hur denna osäkerhet kan påverka slutresultatet.
För att verkligen kunna optimera denna process behöver vi skapa en balans mellan att förbättra förtroendekalibreringen och samtidigt behålla de vision-språkmodellers förmåga att arbeta effektivt i realtidsapplikationer. Överdriven kalibrering kan till exempel leda till att systemet blir för restriktivt och inte kan göra användbara förutsägelser i praktiska miljöer där snabbhet är en nyckelfaktor. Därför krävs en noggrant balanserad strategi som säkerställer både precision och effektivitet.
I praktiken innebär denna kalibrering också att det behövs ett mångsidigt tillvägagångssätt för att träna och testa modeller. Experiment där kalibreringen tillämpas på olika typer av multimodala data, från enkla bilder till komplexa interaktioner mellan text och bild, visar på de potentiella fördelarna med denna metod. Genom att noggrant studera hur kalibrering påverkar modellens prestanda under olika förhållanden, kan forskare identifiera de bästa metoderna för att förbättra förtroendet och hantera de osäkerheter som alltid kommer att finnas i system som arbetar med komplexa och föränderliga data.
För att stärka förståelsen hos läsaren bör det betonas att även om kalibrering är en viktig komponent, så är det inte den enda faktorn för att uppnå en robust vision-språkmodell. Den praktiska implementeringen av sådana tekniker måste alltid ta hänsyn till ytterligare faktorer som dataets kvalitet, modellens träningsmetoder och den specifika applikationens krav. Vad som också är viktigt att förstå är att denna typ av teknologisk utveckling kräver både innovativa algoritmiska lösningar och en djup förståelse för de praktiska tillämpningarna där dessa modeller kommer att användas.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский