Den senaste utvecklingen inom textstyrd 3D rörelsegenerering har gjort stora framsteg genom att använda diffusionsmodeller, vilket möjliggör mer precisa och mångsidiga rörelseskapande teknologier. Tidigare metoder hade sina begränsningar när det gäller att skapa realistiska och dynamiska rörelser från textbeskrivningar. Diffusionsmodellen, som är en form av generativ modell, visar sig vara särskilt effektiv för att översätta text till rörelse, och ger mer realistiska och varierade resultat jämfört med tidigare tillvägagångssätt.
Flera datamängder, såsom HumanML3D och HuMMan-MoGen, har spelat en central roll i att etablera grunden för denna utveckling. Dessa omfattande dataset, som innehåller en mängd olika typer av mänskliga rörelser, har gjort det möjligt att träna och förbättra modeller som kan generera rörelser från text i olika kontexter, som sport, konst eller vardagliga aktiviteter. De ger detaljerade beskrivningar av kroppens rörelser, vilket gör att modellerna kan lära sig både grova och finare detaljer i rörelsesekvenser.
En annan viktig aspekt i denna utveckling är användningen av så kallade sekventiella och ram-baserade etiketter som möjliggör mer exakt temporär inriktning av aktiviteter. Dessa etiketters förmåga att markera när olika rörelser inträffar under en längre tidsperiod ger modellerna en mer exakt förståelse av komplexa och överlappande rörelser, vilket är avgörande för realistiska animationer.
För att mäta framgången och effektiviteten hos dessa modeller används olika utvärderingsmått. Ett av de viktigaste är Fréchet Inception Distance (FID), som mäter hur nära de genererade rörelserna är de verkliga rörelserna i en datamängd. Lägre FID-värden innebär bättre kvalitet på de genererade rörelserna. Andra mått som används för att utvärdera modellerna inkluderar R-Precision, som bedömer hur väl den genererade rörelsen matchar textbeskrivningen, samt mått på mångfald och multimodalitet som belyser variationsrikedomen i de genererade rörelserna.
Modeller som MotionDiffuse och FineMoGen har visat sig vara särskilt framgångsrika när det gäller att producera rörelser som inte bara är exakt beskrivna av texten utan även varierande och dynamiska. MotionDiffuse, till exempel, presterar överlägset på flera testuppsättningar, och även om modellen inte är specifikt designad för uppgifter som action-betingad rörelsegeneration, uppvisar den ändå en imponerande flexibilitet och förmåga att hantera olika typer av textbeskrivningar.
För att förstå de tekniska framstegen bakom denna utveckling är det också viktigt att känna till olika teknologier som används för att förbättra rörelsegenerering, såsom pre-tränade modeller och effekterna av stilisering och CLIP-attention block. Dessa element spelar en viktig roll i att förbättra den visuella och temporala koherensen i de genererade rörelserna, vilket leder till mer realistiska och dynamiska resultat.
I sammanhanget av action-betingad rörelsegenerering, där rörelser genereras baserat på specifika handlingar eller aktiviteter, har modeller som MotionDiffuse visat sig vara särskilt effektiva, med exceptionella resultat på både FID och mångfaldsmått. Dessa modeller förmår generera rörelser som inte bara är realistiska utan också flexibla nog att anpassa sig till olika typer av beskrivningar och handlingar.
Det är också viktigt att förstå att kvaliteten på de genererade rörelserna är starkt beroende av kvaliteten på datamängderna som används för träning. Stora och detaljerade datamängder, som HumanML3D och HuMMan-MoGen, tillhandahåller en solid grund för dessa modeller, vilket gör det möjligt att träna system som kan skapa rörelser av hög kvalitet i en mängd olika kontexter. Men även med dessa högkvalitativa datamängder kan det fortfarande finnas utmaningar när det gäller att hantera komplexa rörelser eller aktiviteter som involverar flera samtidiga rörelser.
Det är också värt att notera att även om diffusionsmodeller representerar ett stort framsteg, finns det fortfarande utmaningar kvar att lösa. Modellerna behöver fortsätta att utvecklas för att bättre hantera komplexiteten i vissa rörelser, särskilt när det gäller att generera rörelser för mer subtila eller konstnärliga uttryck. En annan viktig aspekt är att säkerställa att genererade rörelser är temporalt koherenta, vilket innebär att rörelser inte bara ska se realistiska ut i ett statiskt ögonblick, utan även under hela rörelsens förlopp.
För läsaren som vill förstå den praktiska tillämpningen av denna teknik är det avgörande att förstå de olika metoder som används för att generera rörelser, liksom de utvärderingsmått som säkerställer att dessa rörelser är av hög kvalitet. När teknologin fortsätter att utvecklas, kommer det sannolikt att finnas fler tillämpningar inom områden som spelutveckling, filmproduktion, och fysioterapi, där realistiska och dynamiska rörelser är avgörande.
Hur kan CoOp förändra användningen av Vision-Language-modeller för bildklassificering?
Vision-språkmodeller har revolutionerat hur vi kan koppla samman bilder och text för att skapa robusta och effektiva representationssystem. Metoder som CLIP och ALIGN har etablerat sig som lovande alternativ för lärande av visuella representationer genom att använda separata inbäddare för text och bilder, och föra dessa samman genom en kontrastiv förlustfunktion. Dessa modeller har visat sig vara kapabla att generalisera till nya uppgifter genom så kallad prompting – där rätt textbeskrivningar ges som indata till en modell för att genomföra bildklassificering utan att behöva träna om den.
En av de största utmaningarna med denna metod är dock att finna de rätta "prompterna" eller textbeskrivningarna som leder till optimala resultat. Eftersom textinputen spelar en så central roll för downstream-uppgifter, har prompt engineering – processen att skapa och finjustera effektiva prompts – blivit en viktig och tidskrävande del av användningen av dessa modeller. Till exempel kan en liten förändring i ordalydelsen, som att lägga till ordet "a" framför en klassbeteckning, förbättra resultatet markant. Trots den intensiva finjusteringen är det inte alltid garanterat att man hittar den bästa lösningen. För att hantera detta problem introducerar CoOp, en metod för differentiabel promptlärning, ett sätt att automatisera och förbättra denna process.
CoOp, eller Context Optimization, är en metod som effektiviserar och automatiserar prompt engineering genom att använda lärbara vektorer för att representera kontextord i prompten. Genom att initiera dessa vektorer med antingen slumpmässiga värden eller förtränade ordinbäddningar, kan hela modellen tränas i en enda omgång utan att behöva justera parametrarna för den förtränade modellen. Detta gör det möjligt att genom en enkel optimeringsprocess minska fel i bildklassificeringen, och därmed förbättra resultatet utan att behöva finjustera själva modellen.
Genom att använda CoOp kan vision-språkmodeller omvandlas till dataeffektiva bildklassificerare som kräver så lite som en eller två exempel för att överträffa resultatet från handgjorda prompts med en signifikant marginal. Detta är en stor fördel, eftersom många klassificeringsuppgifter i verkliga applikationer ofta har begränsade träningsdata. I experiment på 11 olika dataset har CoOp visat sig vara mycket effektivare än manuellt konstruerade prompts och även överträffat den linjära probe-modellen, som ofta används som referens för få-skottslärande uppgifter. Denna förbättring blir ännu mer tydlig med ett större antal exempel, där CoOp kan överträffa handgjorda prompts med över 45 % i vissa fall.
En annan viktig fördel med CoOp är dess robusthet vid domänförskjutningar. Traditionellt har noll-skottsmodeller, som använder manuellt skapade prompts, haft svårigheter att hantera förändringar i datadomänen eller uppgifter som inte var med i träningsdatan. CoOp, å andra sidan, visar en mycket större motståndskraft mot sådana förändringar, trots att den är en lärande-baserad metod.
För att förstå och tillämpa CoOp på bästa sätt krävs det dock en god förståelse för både de underliggande teknologierna inom vision-språkmodeller och de specifika uppgifter man vill utföra. CoOp gör det möjligt för användaren att automatiskt anpassa modellerna till nya uppgifter, men för att detta ska fungera effektivt är det viktigt att ha en god kännedom om hur olika typer av prompts påverkar modellens prestanda och hur man bäst utformar dessa för specifika uppgifter.
Vidare är det viktigt att förstå att även om CoOp kan ge imponerande resultat med ett fåtal exempel, finns det fortfarande situationer där en mer detaljerad finjustering kan vara nödvändig. CoOp underlättar för många tillämpningar, men för kritiska applikationer kan ytterligare finjustering av prompts fortfarande vara en viktig aspekt. Därför är det fortfarande värdefullt att förstå både det teoretiska och praktiska aspektet av prompt engineering och hur det kan användas tillsammans med automatiserade metoder som CoOp för att uppnå bästa resultat.
Hur CoOp förbättrar få-shot lärande och jämförelse med andra metoder
CoOp visar på imponerande förmåga till få-shot lärande, där modellen effektivt kan anpassa sig till nya uppgifter med ett minimalt antal exempel. I experiment där endast två märkta exempel per klass användes, uppnådde CoOp en markant förbättring i jämförelse med den klassiska CLIP-modellen. När antalet exempel per klass ökades till 16, blev förbättringen ännu mer påtaglig, med en genomsnittlig förbättring på cirka 15 %. Den största framgången observerades på specialiserade uppgifter, där förbättringarna i vissa fall översteg 45 %, som i uppgifterna EuroSAT och DTD. Även på mer finmaskiga uppgifter, som Flowers102, StanfordCars och FGVCAircraft, samt vid scen- och handlingsigenkänning (t.ex. SUN397 och UCF101), var förbättringarna tydliga.
För den svåra ImageNet-dataseten, som består av 1000 kategorier, var förbättringen på 4,77 % betydande, även om förbättringarna på de finmaskiga uppgifterna Oxford-Pets och Food101 var mindre märkbara. En möjlig förklaring till detta är det brusiga träningsdata som innehöll för livfulla färger och vissa etikettfel. Analysen av prestationsutvecklingen på OxfordPets och Food101 visade på avtagande förbättringar vid användning av fler träningsdata, vilket antyder en potentiell överanpassning (overfitting). För att hantera detta kan starkare regulariseringstekniker, som ökat viktförfall, vara nödvändiga. Det övergripande resultatet visar på CoOps förmåga att effektivt och effektivt lära sig uppgiftsrelevanta prompts, även med begränsad data.
Jämfört med en linjär probe-modell, där mer än fyra exempel krävs för att uppnå samma resultat som CLIP:s zero-shot-modell, ger CoOp mycket bättre resultat redan vid fyra exempel per klass. Speciellt i situationer med extremt lite data, som för ett eller två exempel, är skillnaden ännu mer påtaglig. Detta visar på CoOps överlägsenhet i få-shot lärande scenarier, där det är avgörande att snabbt kunna anpassa sig till nya uppgifter. För vissa specialiserade uppgifter, som DTD och EuroSAT, samt några finmaskiga dataset, presterade den linjära probe-modellen ungefär lika bra som CoOp, vilket inte var oväntat då CLIP:s förtränade funktioner redan är mycket kraftfulla. Emellertid visade CoOp:s kontextspecifika version sig överträffa den linjära probe-modellen på dessa dataset och fortsatte att visa större potential när fler exempel tillhandahölls.
När man jämför CoOp med promptensembling, som tidigare föreslagits av CLIP:s skapare för att förbättra prestanda, visar det sig att CoOp är överlägsen även här. Promptensembling, där flera fördefinierade prompts kombineras för att skapa en ensembleklassificerare, ger visserligen vissa fördelar, men CoOp:s inlärda prompts är fortfarande mer effektiva. Detta innebär att CoOp:s metod för att lära sig relevanta prompts inte bara är mer flexibel, utan också mer exakt än manuellt skapade alternativ. En intressant aspekt för framtiden är att undersöka hur CoOp kan förbättras ytterligare genom att använda ensemblemetoder.
Vid jämförelse med alternativa finjusteringstekniker, som att finjustera CLIP:s bildencoder eller optimera ett transformationslager i textencodern, presterade CoOp betydligt bättre. Trots att finjustering av bildencoder gav vissa förbättringar, var dessa begränsade. Att optimera ett bias-termer för textencodern gav lovande resultat, men återigen var dessa långt ifrån CoOps prestationer. Detta belyser att CoOp:s förmåga att bearbeta och dra nytta av gradienter i textencodern är en av de viktigaste faktorerna bakom dess framgång.
En annan aspekt som är avgörande för CoOp:s prestanda är dess förmåga till domängeneralisering. Det visade sig att CoOp inte överanpassade sig till källdata, vilket gjorde den mer robust när det gällde att hantera förskjutningar i datadistribution. Detta är en fördel jämfört med linjära probe-modeller som presterade avsevärt sämre på dessa mål-dataset. CoOp:s inlärda prompts har visat sig vara starka i sitt förmåga att generalisera, vilket gör metoden användbar för en rad olika domäner, även i de fall där datadistributionen kan förändras mellan käll- och mål-domäner.
Valet av kontextlängd är också en viktig faktor för prestandan. Även om längre kontextlängder, som 16 token, tenderar att ge en viss förbättring i prestanda, har det visat sig att kortare kontextlängder kan ge bättre resultat, särskilt när det gäller domängeneralisering. Detta tyder på att det kan vara fördelaktigt att välja en kortare kontextlängd för att förhindra överanpassning och förbättra modellen för nya uppgifter.
En annan viktig fråga inom promptlärande är hur man initialiserar kontextvektorerna. Det finns flera sätt att börja, inklusive att använda förtränade vektorer eller börja med slumpmässiga initialiseringar. Hur denna initialisering påverkar prestanda kan variera beroende på uppgift och databas, men en väl vald metod kan potentiellt leda till snabbare och bättre anpassning till nya uppgifter.
Det är viktigt att förstå att CoOp, genom sin förmåga att effektivt hantera få-shot lärande och sin styrka i domängeneralisering, öppnar upp nya möjligheter för AI-system som kräver snabb och effektiv anpassning till föränderliga uppgifter. Den största fördelen med denna metod är dess förmåga att generalisera och anpassa sig snabbt, vilket är avgörande för att arbeta med verkliga, dynamiska data. CoOp:s styrka ligger inte bara i att hantera små mängder data utan också i att förbättra robustheten hos vision-språkmodeller i hela deras arbetsdomäner.
Hur man kalibrerar förtroendet hos finjusterade vision-språkmodeller
CLIP är en kontrastiv vision-språkmodell som bedömer hur väl bilder och text stämmer överens, vilket gör att den kan användas för zero-shot inferens på öppna vokabulärklasser. Det innebär att CLIP kan hantera nya, osedda klasser utan att behöva tränas om specifikt för varje ny klass. Modellen är byggd med två huvudkomponenter: en bildencoder och en textencoder, där båda används för att beräkna logitvärden som anger sannolikheten för att en bild tillhör en viss klass, givet en textbeskrivning.
När det gäller att finjustera CLIP för specifika uppgifter, används ofta metoder som prompttuning, där man optimerar den textbaserade prompten för att förbättra prestandan på nedströmsapplikationer. I metoder som CoOp och CoCoOp ersätts handskrivna texttokens med lärbara tokens, som under träning optimeras för att minimera förlusten baserat på etiketterade få-skottprover. Målet är att förbättra modellens förmåga att hantera öppna klasser i olika domäner.
Trots dessa framsteg kvarstår ett problem: även om modellerna kan uppnå hög noggrannhet i sina prediktioner, är de inte alltid välkalibrerade. Detta innebär att de producerade sannolikheterna för klasser inte alltid återspeglar den verkliga sannolikheten att en klass faktiskt är korrekt för en given bild. En väletablerad metod för att mäta en modells kalibrering är att använda Expected Calibration Error (ECE), som mäter skillnaden mellan modellens förtroende och dess faktiska noggrannhet.
När CLIP finjusteras för specifika uppgifter tenderar modellen att visa en intressant misskalibrering: den är ofta underkonfident för klasser som modellen redan har tränats på (dvs. bas-klasser), medan den är överkonfident för nya, osedda klasser. Detta fenomen observerades när CLIP finjusterades med sju olika tuningmetoder och testades på elva olika datasets. I vissa fall var modellen mer säker på nya klasser än på de bas-klasser den ursprungligen var tränad på, vilket går emot förväntningarna.
För att åtgärda detta, har post-hoc kalibreringsmetoder använts, som Temperature Scaling och Density-Ratio Calibration. Dessa metoder har visat sig vara effektiva för att förbättra kalibreringen för bas-klasser, men har svårigheter att hantera nya klasser. För metoder som Temperature Scaling, där en enkel skala appliceras på sannolikheterna, visade sig kalibreringen för nya klasser vara mindre effektiv, ibland till och med sämre än för en icke-kalibrerad modell.
Vidare är metoder som kräver indata från bas-klasser, som Histogram Binning och Isotonic Regression, inte lämpliga för öppna klasser eftersom de inte kan hantera sannolikheter för klasser som inte ingår i träningsuppgiften. Detta innebär att man måste utveckla nya metoder för att effektivt kalibrera modeller för öppna vokabulärklasser, där ingen explicit träning har skett.
En lösning på dessa problem kan vara att använda en metod som tar hänsyn till det textuella gapet mellan bas- och nya klasser, och därmed bättre förstå skillnaderna i inbäddningarna mellan dessa klasser. Genom att visualisera det gemensamma utrymmet för bild- och textinbäddningar kan man identifiera och kvantifiera detta gap. Detta skulle kunna ge en mer nyanserad metod för att kalibrera modeller för öppna vokabulärklasser och därmed förbättra deras pålitlighet vid inferens.
Det är också viktigt att komma ihåg att en kalibrering som endast fokuserar på de klasser som modellen har tränats på, inte alltid räcker när man arbetar med öppna vokabulärmodeller. När modellen konfronteras med nya, osedda klasser, bör kalibreringen även ta hänsyn till de unika egenskaperna hos dessa klasser och anpassa sig därefter. Det är därför av yttersta vikt att utveckla metoder som inte bara förbättrar kalibreringen på redan kända klasser, utan också för nya klasser där modellen inte har några förkunskaper.
Hur samverkan mellan unimodala modeller kan förbättra multimodal ansiktsgeneration och redigering
I denna kapitel diskuteras hur samarbetet mellan förtränade unimodala diffusionsmodeller kan möjliggöra multimodal ansiktsgenerering och redigering utan att kräva omträning. Vi presenterar ett ramverk som använder en dynamisk diffuser, vilket gör det möjligt att utöka en unimodal metod till ett multimodalt paradigm genom att förutsäga den relativa inverkan från olika modaliteter. Detta tillvägagångssätt kan vara en potentiell väg framåt för framtida arbeten inom områden som rörelse- och 3D-generering.
Diffusionsmodeller har blivit centrala inom området för bildgenerering och manipulation, och deras förmåga att generera bilder av hög kvalitet har gjort dem till ett populärt alternativ till tidigare använda metoder, såsom GAN (Generative Adversarial Networks). En av de mest intressanta aspekterna av diffusionsmodeller är deras förmåga att successivt eliminera brus från en bild för att skapa en mer realistisk eller stilistiskt anpassad representation. Detta gör det möjligt att hantera komplexa uppgifter som ansiktsgenerering och manipulation, där detaljerad kontroll över egenskaper som ansiktsuttryck eller andra finjusteringar krävs.
I vår undersökning fokuserar vi på hur unimodala modeller, som traditionellt tränats för att hantera endast en typ av data, kan integreras för att hantera multimodala uppgifter. Vi bygger på idén att dessa enskilda modeller kan samverka för att producera mer detaljerade och realistiska resultat än vad som skulle vara möjligt om varje modell endast arbetade isolerat. I synnerhet har vi identifierat att denna typ av samarbete kan skapa en synergistisk effekt där de olika modellerna kompletterar varandra och bidrar till en mer dynamisk och flexibel kontroll över den genererade bilden.
Det är viktigt att förstå att även om denna metod inte kräver att modellerna tränas om, innebär det att förmågan att förutsäga och justera de relativa influenserna från de olika modaliteterna blir en nyckelkomponent i processen. En dynamisk diffuser som kan justera dessa influenser kan vara en viktig nyckel för att uppnå mångsidig multimodal bildredigering och generering.
Samverkan mellan unimodala modeller öppnar också dörren för nya tillämpningar där olika typer av information kan sammanföras och bearbetas på ett sätt som gör det möjligt för kreatörer att ha ännu mer kontroll över slutresultatet. Detta tillvägagångssätt skulle kunna användas för att generera och redigera komplexa ansikten, och i förlängningen för att skapa helt nya sätt att interagera med generativa modeller inom områden som 3D-modellering och rörelseanalys.
Det finns dock flera faktorer att beakta när man arbetar med denna typ av multimodal samverkan. En av de största utmaningarna ligger i att hitta rätt balans mellan de olika modellerna. Om en modell får för stor vikt kan den dominera resultatet och skapa en obalans, medan om en annan modell inte får tillräcklig inflytande kan viktiga detaljer gå förlorade. För att uppnå den bästa kvaliteten måste den relativa betydelsen av varje modalitet ständigt justeras och optimeras.
Vidare är det viktigt att notera att detta ramverk inte bara är användbart för ansiktsredigering och -generering utan kan också inspirera till framtida innovationer inom andra områden av multimodal generativ bildbehandling. Vi ser potentialen för detta tillvägagångssätt att sträcka sig långt bortom ansiktsredigering, till exempel inom rörelsegenerering, där samverkan mellan olika modaliteter kan användas för att skapa mer realistiska och dynamiska rörelser.
För att ytterligare fördjupa förståelsen av diffusionsmodeller och deras användning för multimodal bildgenerering rekommenderas följande material för vidare läsning:
-
För tidigare metoder inom GAN-baserad ansiktsgenerering och -redigering kan du hänvisa till källor som [12, 15, 23, 38].
-
För en djupare förståelse av diffusionsmodeller och diffusionsbaserade metoder för bildgenerering, se [5, 9, 24, 26].
-
För mer kontrolltekniker inom diffusionsbaserad bildgenerering, konsultera [10, 21, 40].
Endtext
Är rivning en lösning för att regenerera förfallna städer?
Hur Trump förändrade medielandskapet och politisk kommunikation i USA
Vad döljer sig bakom högerextremt terrorism? – En obearbetad fara
Varför var Trump så intressant för öststatsövervakningen redan på 1970-talet?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский