AvatarCLIP er et banebrytende system som benytter seg av avanserte maskinlæringsmodeller for å skape 3D-avatarer og animasjoner utelukkende basert på tekstbeskrivelser. Ved å bruke CLIP-modellen som kobler visuelle og tekstlige data, er systemet i stand til å generere avatarer med varierte kroppstyper og utseender, samtidig som det skaper animasjoner som er i tråd med de spesifikke bevegelsesbeskrivelsene som gis. Dette representerer en ny æra av automatisk generering av virtuelle karakterer og bevegelser, uten behov for eksperter eller tradisjonelle programvareverktøy.

For å oppnå dette, tar AvatarCLIP i bruk flere komponenter som sammen jobber for å realisere realistiske og konsistente resultater. En viktig del av systemet er bruken av en vektingskoeffisient, λpose(i), som gradvis reduseres ettersom indeksen for referanseposisjoner øker. Dette sikrer at bevegelsene til avatarene blir mest påvirket av de posisjonene som er nærmest den ønskede beskrivelsen. Når man bygger opp bevegelsene, introduseres en ekstra straffeterme som straffer for unødvendig jevne bevegelser mellom posisjoner. Denne straffen, kalt Ldelta, oppmuntrer til mer dynamiske og intense bevegelser ved å redusere for glatte overganger.

Videre blir problemer som kan oppstå på grunn av uorden i sekvenser av posisjoner adressert med en CLIP-guidet tap-funksjon, som tar i bruk tekstbeskrivelsen til å sikre at hele bevegelsesforløpet er i samsvar med den ønskede handlingen. Dette forbedrer ikke bare kvaliteten på bevegelsene, men reduserer også beregningstiden ved å bruke et lite utvalg av posisjoner for å optimalisere genereringen. CLIP-modellen gir dermed mulighet for en mer konsistent tilpasning mellom tekstbeskrivelsen og de genererte bevegelsene.

I eksperimentene som ble utført for å vurdere systemets ytelse, ble det oppdaget at AvatarCLIP er i stand til å generere avatarer med en rekke kroppstyper og visuelle kvaliteter, som er tilpasset både tekstlige beskrivelser av form og bevegelse. Avatarene kan animere på en realistisk og konsekvent måte, noe som gjør det mulig å lage helt animérbare avatarer og tilhørende bevegelser gjennom en enkel tekstkommando.

Systemets evne til å generere 3D-figurer og animasjoner i en såkalt "zero-shot" modus representerer et teknologisk gjennombrudd, ettersom det ikke kreves spesifikk opplæring på individuelle data eller parrede bilde-tekst data for å oppnå de ønskede resultatene. I stedet kan det stole på de rike priorene som allerede er kodet i de forhåndstrente modellene. Det som tidligere krevde ekspertkunnskap og profesjonelle programvareverktøy kan nå gjøres gjennom enkle naturlige språkkommandoer.

I de utførte eksperimentene ble det også gjennomført ablasjonsstudier for å vurdere hvilke komponenter som hadde størst innvirkning på avatargenereringen. Spesielt ble bakgrunnsforbedringer og teksturbehandling ansett som viktige for å oppnå realistiske og detaljerte avatarer. Et viktig funn var at bakgrunnsaugmentering betydelig forbedrer teksturgenereringen. Uten denne komponenten har teksturene en tendens til å fremstå som mørkere enn ønsket, noe som kan gå på bekostning av den visuelle kvaliteten.

En annen interessant utfordring som AvatarCLIP står overfor, er effektiviteten av å bruke baselinemetoder i bevegelsesgenereringen. To forskjellige tilnærminger ble testet: én som sorterer kandidatposisjoner basert på deres likhet med beskrivelsen, og én som benytter seg av en VAE-modell for å tilføye bevegelsesprinsipper til genereringen. Begge metodene har sine fordeler og ulemper, men den sistnevnte tilnærmingen har vist seg å være mer robust når det gjelder å generere realistiske og sammenhengende bevegelsessekvenser.

En viktig komponent i hele prosessen er hvordan systemet håndterer de forskjellige delene av bevegelsene, fra å generere enkeltstående posisjoner til å animere dem i en flytende sekvens. Det er ikke nok bare å ha realistiske poser; de må også være sekvensert på en måte som reflekterer naturlig bevegelse. Det er derfor viktig at systemet ikke bare fokuserer på posenes individuelle kvalitet, men også på hvordan disse posisjonene kan settes sammen for å danne en helhetlig og dynamisk bevegelse. Dette kan innebære både posisjonering av kroppen i rommet og hastigheten av overganger mellom posisjoner.

Ved å kombinere flere forskjellige teknikker og modeller, kan AvatarCLIP generere avatarer og bevegelser som tidligere var vanskelig å oppnå uten dyptgående ekspertkunnskap. Dette åpner opp for nye muligheter i både spillutvikling, animasjon og til og med i VR/AR-applikasjoner, hvor rask generering og tilpasning av karakterer og bevegelser er viktig. Denne teknologien kan derfor revolusjonere måten vi skaper digitale karakterer på, ved å gjøre prosessen mer tilgjengelig og rask.

Hvordan FreeU forbedrer kvaliteten på genererte bilder i diffuse modeller

Diffusjonsmodeller har fått stor oppmerksomhet som generative verktøy innen datavisjon, spesielt på oppgaver relatert til bilde- og videogenerering. Disse modellene opererer gjennom to hovedprosesser: diffusjonsprosessen og denoiseringsprosessen. Under diffusjonsprosessen blir Gaussisk støy gradvis lagt til inputdataene, som etter hvert korruptes til ren Gaussisk støy. I denoiseringsprosessen gjenopprettes originaldataene fra denne støytilstanden gjennom en sekvens av inverse operasjoner. En U-Net-arkitektur blir ofte brukt til å iterativt forutsi støyen som skal fjernes i hvert steg av denoiseringsprosessen.

Den eksisterende forskningen har fokusert på bruken av forhåndstrente U-Net-modeller i diffusjonsmodeller for ulike oppgaver, mens de interne egenskapene til U-Net i disse modellene har fått mindre oppmerksomhet. For å forstå hvordan bilder faktisk blir generert fra støy i denne prosessen, er det nødvendig å analysere mekanismene som ligger til grunn for denoiseringsprosessen. En grundig undersøkelse av frekvensdomenet avslører en subtil modulasjon av lavfrekvente komponenter, som endrer seg gradvis, mens høyfrekvente komponenter viser mer markante dynamikker. Lavfrekvente komponenter bidrar til bildet ved å gi struktur og farge, mens høyfrekvente komponenter representerer detaljer som kanter og teksturer. For mye endring i lavfrekvente komponenter kan underminere bildets semantiske integritet, mens høyfrekvente komponenter er mer utsatt for støy og trenger nøye behandling under denoiseringsprosessen.

U-Net-arkitekturen består av to hoveddeler: ryggsøyle-nettverket, som inkluderer en encoder og en decoder, samt de såkalte skip-forbindelsene som kobler sammen encoder og decoder. Disse skip-forbindelsene overfører høyfrekvente funksjoner til decoder-delen, noe som gjør det lettere for modellen å gjenopprette inputdataene under trening. Imidlertid kan denne overføringen føre til en uønsket svekkelse av ryggsøylens denoiseringskapasitet under inferens, noe som kan redusere kvaliteten på de genererte bildene.

Dette er bakgrunnen for utviklingen av FreeU, en metode som tar sikte på å forbedre genereringens kvalitet uten behov for ekstra trening eller finjustering. FreeU benytter seg av en enkel, men kraftig tilnærming som innebærer å justere bidragene fra de to hovedkomponentene i U-Net: ryggsøylen og skip-forbindelsene. Dette oppnås ved å bruke to modulasjonsfaktorer under inferensfasen, som balanserer bidragene fra disse to komponentene. Den første faktoren, kalt ryggsøyle-modulasjonsfaktoren, forsterker ryggsøylens funksjoner og dermed forbedrer denoiseringsprosessen. Men selv om denne justeringen gir betydelige forbedringer, kan det noen ganger føre til en uønsket oversmøring av teksturer. For å motvirke dette introduseres den andre faktoren, skip-modulasjonsfaktoren, som balanserer effekten fra skip-forbindelsene og reduserer problemet med teksturoversmøring.

FreeU kan enkelt integreres med eksisterende diffusjonsmodeller som Stable Diffusion, DreamBooth og ControlNet, uten at det kreves ekstra opplæring eller nye lærbare parametre. De eksperimentelle resultatene viser at FreeU-metoden gir en merkbar forbedring i kvaliteten på genererte bilder, med en betydelig økning i både detaljnivå og visuell integritet. Ved å benytte FreeU under inferensfasen oppnår disse modellene en økt evne til å generere høyere kvalitet på bilder uten å øke minnebruken eller samplingstiden.

For at denne metoden skal gi optimale resultater, er det viktig å forstå hvordan det påvirker forskjellige modeller og scenarier. Ikke alle typer bilder eller genereringsoppgaver vil nødvendigvis dra nytte av FreeU i samme grad. For eksempel, i situasjoner hvor bildet krever ekstremt høy teksturdetalj, kan ryggsøyle-modulasjonsfaktoren forsterke detaljer på en måte som fører til visuell støy. Derfor er det avgjørende å tilpasse balansen mellom de to modulasjonsfaktorene avhengig av den spesifikke genereringsoppgaven.

For leseren er det viktig å merke seg at FreeU representerer en praktisk løsning for å forbedre genereringseffektiviteten i diffusjonsmodeller uten å påføre ekstra kostnader, som tid eller minne. Denne enkelheten gjør metoden særlig attraktiv for både forskere og utviklere som ønsker å implementere forbedringer i generative modeller uten omfattende omtrening eller store endringer i eksisterende systemer.