Het gebruik van CLIP voor het aansturen van een codeboek in de context van 3D avatar creatie vereist zorgvuldig ontworpen query scores. Sommige attributen, zoals lichaamslengte, zijn moeilijk te bepalen puur op basis van 3D body shape renderingen zonder een referentiepunt. Daarom wordt er gebruikgemaakt van een referentie, waarbij CLIP de lichaamsvormen relatief beoordeelt. Dit is geïnspireerd door CLIP’s toepassingen in 2D beeldbewerking. De referentie bestaat uit een neutrale lichaamsvorm Mn met bijbehorende neutrale tekstbeschrijving tn. De score voor elke codeboek-invoer si wordt berekend als een functie van de genormaliseerde verschillen tussen de beeld- en tekstrepresentaties in de CLIP latente ruimte, waarbij de codeboek-invoer met de hoogste score wordt gekozen als de grove vorm Mt.
Deze initiële template mesh Mt functioneert als een grove representatie van het naakte lichaam, maar om hoogwaardige 3D avatars te creëren is verdere verfijning van vorm en textuur noodzakelijk. Dit wordt bereikt via een impliciete representatie, met name NeuS, die krachtig is in het vastleggen van zowel geometrie als kleurdetails. De optimalisatie verloopt in twee fasen. Eerst wordt een NeuS model N geïnitieerd en geoptimaliseerd aan de hand van multi-view renderingen van Mt. NeuS bestaat uit twee subnetwerken: een SDF-netwerk f(p) dat de signed distance naar het dichtstbijzijnde oppervlak bepaalt, en een kleurennetwerk c(p) dat de kleur op een punt p voorspelt. Voor deze toepassing is de afhankelijkheid van kleur van de kijkrichting weggelaten om consistentie in texturen te waarborgen, wat belangrijk is voor avatars die ideale albedo-maps moeten hebben.
De optimalisatie gebruikt een gecombineerde verliesfunctie met reconstructieverlies (Lcolor), Eikonal regularisatie (Lreg) en een maskerverlies (Lmask) om te focussen op de voorgrond. Na deze eerste fase dient N als startpunt voor een tweede fase, waarin CLIP wordt ingezet om zowel geometrische aanpassingen als textuur-stilisaties toe te voegen. Hierbij worden twee strategieën onderscheiden. De eerste fixeert f(p) om de vorm van Mt onveranderd te laten en optimaliseert enkel c(p) voor kleur. Dit is echter beperkt omdat alleen textuur wordt toegevoegd, terwijl fijne geometrische details essentieel zijn voor realisme.
De tweede strategie verfijnt tegelijkertijd f(p) en voegt een nieuw kleurennetwerk cc(p) toe dat samen met f(p) de gestileerde avatar genereert, terwijl het oorspronkelijke c(p) netwerk de template vorm behoudt. Het geüpdatete NeuS model N' bevat zo drie subnetwerken: f(p), c(p), en cc(p), waarbij alleen cc(p) willekeurig wordt geïnitialiseerd. De optimalisatie voor deze fase combineert reconstructie met CLIP-gestuurde verliezen voor zowel textuur (Lc_clip) als geometrie (Lg_clip), waarbij verschillende rendering types gebruikt worden: een gekleurde rendering via {f(p), cc(p)} en een textureloze rendering gebaseerd op oppervlaknormaal- en lichtmodellering.
Voor de textureloze rendering wordt een methode gebruikt om oppervlaknormaalvectoren te berekenen via de gradiënt van de SDF langs een straal, wat essentieel is voor belichting zonder kleurinformatie. Daarbij wordt de lichtbron zodanig gekozen dat deze niet diametraal tegenover de camera staat, zodat geometrische details goed zichtbaar blijven.
Naast deze technische aanpak is het cruciaal te beseffen dat het creëren van een realistische 3D avatar niet alleen afhangt van het toevoegen van texturen, maar minstens zo zeer van subtiele geometrische aanpassingen die de vorm nauwkeurig laten aansluiten bij de beschrijving. De kracht van CLIP in het koppelen van visuele en tekstuele informatie in een gezamenlijke latente ruimte stelt ontwikkelaars in staat om deze finetuning te sturen met een hoge mate van precisie. Daarnaast biedt het gebruik van een impliciete representatie zoals NeuS flexibiliteit om details te modelleren die met traditionele mesh-gebaseerde methoden moeilijk te realiseren zijn.
Voor lezers is het belangrijk te begrijpen dat deze methode een voorbeeld is van hoe multimodale AI-systemen, die tekst en beeld combineren, nieuwe wegen openen in 3D modellering. Het benutten van relatieve scores met een neutrale referentie maakt de aanpak robuust tegen ambiguïteiten en helpt attributen te bepalen die moeilijk direct af te leiden zijn uit visuele data alleen. Ook benadrukt het het belang van gestructureerde optimalisatieprocessen die zowel vorm als uiterlijk simultaan kunnen sturen, wat essentieel is voor bruikbare en realistische avatars in toepassingen variërend van gaming tot virtuele sociale interacties.
Hoe beïnvloedt retrieval-attentie de generatie van menselijke 3D-bewegingen?
De toepassing van diffusionmodellen in de generatie van 3D-bewegingen, aangedreven door tekst, heeft zich gepositioneerd als een veelbelovende benadering voor de realisatie van realistische en dynamische menselijke bewegingen op basis van tekstuele beschrijvingen. Het MotionDiffuse-model is daarbij een van de vooraanstaande technologieën die inspeelt op de mogelijkheden van dit concept. In deze benadering wordt de generatieve kracht van diffusionmodellen gecombineerd met efficiënte attentiemechanismen en geavanceerde retrieval-technieken om een substantiële verbetering van de gegenereerde bewegingen te bereiken. Toch komen er uit deze benaderingen ook vraagstukken voort die cruciaal zijn voor de effectiviteit en de toepassingen in de praktijk.
Een van de belangrijkste bevindingen bij het ontwerp van het MotionDiffuse-model is de impact van de diffusietijdstap op het transformerarchitectuurontwerp. Het blijkt dat het opnemen van de huidige diffusietijdstap in het ontwerp van de transformer de prestaties aanzienlijk verbetert, omdat het model hierdoor beter in staat is om ruis te reduceren en de gegenereerde bewegingen te verfijnen. Dit maakt het mogelijk om niet alleen visueel overtuigende bewegingen te creëren, maar ook om de nauwkeurigheid en stabiliteit van deze bewegingen over langere tijdspannes te waarborgen.
Naast de structurele verbeteringen aan het model, is er ook een substantiële vooruitgang geboekt in de manier waarop de bewegingen worden gegenereerd door gebruik te maken van retrieval-attentie. De experimenten tonen aan dat de toevoeging van een retrieval-mechanisme – waarbij semantisch vergelijkbare bewegingen worden opgehaald en geïntegreerd in het generatieve proces – een aanzienlijke verbetering biedt ten opzichte van traditionele modellen die geen gebruik maken van retrieval. In het geval van ReMoDiffuse, wordt duidelijk dat de combinatie van gemengde efficiënte attentie (zelf-attentie en kruis-attentie) binnen één module een robuustere basis biedt voor de modelprestaties, evenals het gebruik van classifier-vrije begeleiding om de resultaten verder te verfijnen.
Toch blijkt dat de implementatie van retrieval voor het verbeteren van de gegenereerde bewegingen niet zonder uitdagingen is. Het toevoegen van tekst om semantisch vergelijkbare bewegingen te vinden en deze direct in de attentiemodule toe te passen, geeft soms slechtere resultaten dan de baseline, hetgeen wijst op de inherente complexiteit van retrieval in de context van bewegingsgeneratie. Het blijkt dat, om significante verbeteringen te realiseren, zowel kinetische als semantische overeenkomsten tussen de opgehaalde en doelbewegingen tijdens de attentie-instellingen in aanmerking moeten worden genomen.
Verder onderzoek naar de rol van retrieval in de bewegingsgeneratie heeft aangetoond dat de mogelijkheid om temporele en ruimtelijke onafhankelijkheid tijdens het testen op een structureel niveau te modelleren, betere resultaten oplevert dan wanneer men zich uitsluitend richt op de strategieën voor het genereren van monsters. Dit benadrukt dat er nog steeds veel ruimte is voor innovatie en optimalisatie in de ontwerpprincipes van attentiemechanismen voor tekstgestuurde bewegingsgeneratie.
Het evalueren van de prestaties van dergelijke modellen op benchmarkdatasets zoals BABEL en HuMMan-MoGen toont aanzienlijke verbeteringen ten opzichte van eerdere benaderingen die gebruik maakten van VAEs en GANs, zoals de TEACH-methode. Vooral de zero-shot benadering die zowel door MotionDiffuse als FineMoGen wordt gebruikt, heeft aangetoond sterke resultaten te leveren, wat wijst op de effectiviteit van deze benaderingen bij het genereren van 3D-bewegingen zonder uitgebreide training.
Het potentieel van diffusionmodellen voor generatieve taken in 3D-beweging gaat verder dan alleen de initiële gegenereerde output. Het biedt ook verfijnde controlemechanismen die, wanneer goed toegepast, de mogelijkheden voor menselijke interacties, zoals menselijke-object- en menselijke-menselijke interacties, aanzienlijk verbeteren. Dergelijke verbeteringen zijn essentieel voor een breed scala aan toepassingen, van virtuele en augmented reality-omgevingen tot de ontwikkeling van interactieve digitale avatars.
Het is ook belangrijk om te begrijpen dat het genereren van 3D-bewegingen niet alleen afhangt van de kwaliteit van het gebruikte model, maar ook van de complexiteit van de tekstuele beschrijving zelf. Hoe gedetailleerder en specifieker de tekst, hoe gemakkelijker het voor het model is om een nauwkeurige en realistische beweging te genereren. Dit vereist echter dat modellen in staat zijn om niet alleen de semantiek van de tekst te begrijpen, maar ook de fysieke en temporele beperkingen die inherent zijn aan de menselijke beweging. De technische innovaties in de manier waarop we motion generation benaderen, zullen een grote invloed hebben op de nauwkeurigheid en effectiviteit van dergelijke systemen in de nabije toekomst.
Hoe CoOp de prestaties van CLIP verbetert in few-shot leren
CoOp toont sterke capaciteiten in few-shot leren, waarbij slechts twee gelabelde voorbeelden per klasse nodig zijn om een aanzienlijk voordeel te behalen ten opzichte van CLIP. Bij 16 voorbeelden per klasse breidt CoOp het prestatieverschil verder uit, met een gemiddelde verbetering van ongeveer 15%. Dit wordt geïllustreerd in Figuur 5.4, die de absolute prestatieverbeteringen van CoOp toont ten opzichte van handmatig ontworpen prompts. Er worden aanzienlijke verbeteringen waargenomen in gespecialiseerde taken zoals EuroSAT en DTD, waarbij de prestatieverbeteringen respectievelijk meer dan 45% en 20% bedragen. Sterke verbeteringen zijn ook zichtbaar in fijnmazige taken zoals Flowers102, StanfordCars en FGVCAircraft, evenals in scène- en actieherkenningstaken (bijv. SUN397 en UCF101). Voor de uitdagende ImageNet dataset, die 1.000 categorieën bevat, is de verbetering van 4,77% opmerkelijk. De winst op twee fijnmazige datasets, Oxford-Pets en Food101, is echter minder uitgesproken. De beperkte verbetering op Food101 lijkt het gevolg van ruis in de trainingsdata, zoals te levendige kleuren en af en toe fouten in de labels. Analyse van de prestatie-trends op OxfordPets en Food101 (Fig. 5.3) toont afnemende rendementen naarmate meer trainingsdata worden gebruikt, wat duidt op potentiële overfitting. Het aanpakken van dit probleem kan sterkere regularisatietechnieken vereisen, zoals verhoogde gewichtsverval. De algehele resultaten benadrukken CoOp’s vermogen om taakrelevante prompts effectief en efficiënt te leren, zelfs met beperkte data.
In vergelijking met het lineaire probe-model heeft CoOp een duidelijke voorsprong in termen van algemene prestaties (Fig. 5.3, boven- links). Het lineaire probe-model heeft gemiddeld meer dan vier shots nodig om dezelfde prestaties te behalen als het zero-shot model, terwijl CoOp al indrukwekkende verbeteringen laat zien met slechts vier shots. De prestatiekloof in de extreem lage-data-regio, zoals voor één of twee shots, is aanzienlijk groter, wat de effectiviteit van CoOp benadrukt in vergelijking met het leren van een lineaire classifier vanaf nul in few-shot scenario’s. Bovendien blijkt het lineaire probe-model vergelijkbare prestaties te leveren als CoOp in twee gespecialiseerde taken (DTD en EuroSAT) en op enkele fijnmazige datasets (Flowers102 en FGVCAircraft). Dit is niet verrassend, aangezien de voorgetrainde CLIP-kenmerken als krachtig worden beschouwd, waardoor het lineaire probe-model een sterke concurrent is. CoOp’s versie met klantspecifieke context overtreft echter het lineaire probe-model op deze datasets en toont aanzienlijk betere potentieel naarmate er meer shots beschikbaar komen. Later zal blijken dat CoOp veel sterkere prestaties levert dan het lineaire probe-model op het gebied van domeingeneralizatie.
Bij de vergelijking met prompt ensembling, zoals voorgesteld door de auteurs van CLIP [37], blijkt CoOp superieur te zijn. Het combineren van verschillende handmatig ontworpen prompts (zoals “een foto van de grote [KLASSE]” en “een slechte foto van de [KLASSE]”) kan de prestaties verbeteren, maar CoOp biedt zelfs nog betere resultaten. De resultaten in Tabel 5.2 demonstreren de superioriteit van CoOp, hoewel toekomstig onderzoek zich zou kunnen richten op het versterken van CoOp vanuit een ensemblingperspectief.
CoOp werd ook vergeleken met alternatieve fine-tuning-methoden, zoals het fine-tunen van de beeldencoder van CLIP, het optimaliseren van een transformatielaag die aan de tekstencoder-output is toegevoegd, en het optimaliseren van een biasterm toegevoegd aan de tekstencoder-output. De vergelijkende resultaten tonen aan dat fine-tunen van de beeldencoder slechts beperkte verbetering oplevert, terwijl CoOp opmerkelijke prestaties levert. Dit benadrukt dat de door CoOp geleerde prompts rijkere en informativere signalen vangen, wat de effectiviteit van de methode verklaart.
CoOp toont bovendien sterke prestaties op het gebied van domeingeneralizatie. Dit betekent dat het, ondanks dat het wordt getraind met gegevens van de bron-domeinen, goed in staat is om zich aan te passen aan andere domeinen zonder te overfitten. Dit wordt onderstreept door de resultaten van CoOp op verschillende domeingeneralizatie benchmarks, waar het de robuustheid van CLIP vergroot, zelfs bij verschuivingen in distributie van de gegevens.
Een belangrijk aspect van promptleren is het kiezen van de juiste lengte van de contexttokens. De resultaten uit Sectie 5.5.6 laten zien dat kortere contextlengtes gunstig zijn voor domeingeneralizatie, mogelijk vanwege verminderd overfitting wanneer minder parameters worden geleerd. Dit suggereert dat het kiezen van de juiste contextlengte afhangt van de specifieke toepassing en het gewenste evenwicht tussen prestaties en robuustheid.
Daarnaast is het belangrijk hoe contextvectoren worden geïnitialiseerd om de aanpassing van het model aan nieuwe taken te sturen. Twee gangbare methoden zijn hiervoor beschikbaar, maar de keuze tussen deze methoden kan de prestaties beïnvloeden, afhankelijk van het specifieke scenario en de aard van de data.
CoOp biedt dus een veelbelovende benadering voor few-shot leren en het verbeteren van de prestaties van CLIP, vooral op gespecialiseerde en domeingeneralizatie-taken. Het kan potentieel veel breder worden toegepast in gebieden waar weinig gelabelde data beschikbaar zijn, zoals medische beeldanalyse, waar het kostbaar of tijdrovend is om grote hoeveelheden gelabelde voorbeelden te verkrijgen. De prestaties van CoOp in combinatie met CLIP kunnen de manier waarop we naar modelaanpassingen en promptleren kijken fundamenteel veranderen.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский