Emu2 representerer et banebrytende steg fremover innen generative multimodale modeller, der den kombinerer visuelle og tekstbaserte input for å skape mer presise og tilpassbare modeller. Som en transformer-modell som benytter en dekoder for sekvensbasert prediksjon, lærer Emu2 ved å forutsi hvert element i sekvensen, noe som muliggjør en mer dynamisk og effektiv generering av multimodale data.
Modellen ble først trent med par av bilder og tekst, og deretter utvidet til å inkludere videoer og tekst. Treningsprosessen er kompleks, og består av flere stadier, hver designet for å forbedre spesifikke aspekter av modellens genereringsevner. Først ble bildene redusert til 224x224 piksler, og optimering ble utført ved hjelp av AdamW-optimalisatoren med spesifikke parametere som β1 = 0,9, β2 = 0,95 og ε = 1 × 10−6. Læringsraten ble satt til 1 × 10−4 for de lineære projeksjonslagene og 3 × 10−5 for multimodellmodellen, noe som bidro til effektiv trening av modellen. Denne første fasen inkluderte 162 millioner bilde-tekst-prøver og 7 millioner video-tekst-prøver, og kjørte i 35 200 iterasjoner.
Etter dette ble opplæringen videreført med høyere bildeoppløsning (448x448 piksler), og Visual Encoder ble frosset for å justere kun de lineære projeksjonslagene og multimodellmodellen. Denne fasen benyttet et bredere datasett, inkludert interleaved bilde-tekst-data, interleaved video-tekst-data og språkspesifikke datasett. Prosessen resulterte i 160 millioner bilde-tekst-prøver og 3,8 milliarder tokens fra språkspesifikke data.
En sentral del av Emu2 er Visual Decoder, som er designet for å konvertere visuelle embeddinger fra Visual Encoder tilbake til bilder. Dette ble gjort ved hjelp av SDXL-base som et grunnlag, og systemet ble tilpasset for å lære å generere bilder direkte fra visuelle embeddinger. Denne tilpasningen forenkler prosessen ved å la Visual Decoder arbeide som en “detokenizer,” noe som betyr at den kan trenes uavhengig av språkmodellen, og gjør det mulig for Visual Encoder og Decoder å fungere som et enhetlig bilde-autoencoder.
Når det gjelder videodata, benytter Emu2 en diffusionsbasert tilnærming som benytter et 2D U-Net med temporale lag, som hjelper modellen å fange tidsmessige endringer i videoene. Denne tilnærmingen er spesielt tilpasset for å generere videoklipp basert på visuelle embeddinger fra Emu2, og har vist seg å være effektiv i oppgaver knyttet til visuell autoencoding.
Videre, for å tilpasse Emu2 til spesifikke oppgaver, blir modellen finjustert med instruksjonsdata. For eksempel, ved å bruke samtaledata, kan Emu2 tilpasses for å håndtere multimodale spørsmål og engasjere seg i dialog, som i tilfelle av Emu2-Chat. Dette gir modellen muligheten til å svare på spørsmål på en multimodal måte, og gir dermed interaktive løsninger. Emu2-Gen, på den andre siden, er spesialdesignet for å generere visuelle utganger som er nøyaktig forankret i de beskrevne instruksjonene, noe som gir en høy grad av kontroll over det visuelle resultatet.
For å utvikle en modell som kan følge instruksjoner på en effektiv måte, ble Emu2-Chat trent på en blanding av akademiske oppgaver og multimodale samtaledatasett. Denne balanserte tilnærmingen gjorde det mulig for modellen å følge ulike instruksjoner samtidig som den beholdt sin visuelle kunnskap. Den inkluderte datasettene for bildebeskrivelser, visuelle spørsmål og svar, multimodal klassifisering og henvisningseksprensjonsforståelse. Videre ble modellens evne til å håndtere instruksjoner styrket gjennom spesifikke systemmeldinger og kontrollinstruksjoner for utdataformater.
For Emu2-Gen ble det brukt en kuratert samling av datasett som inkluderer CapsFusion-grounded-100M og GRIT for tekst-til-bilde-generering, samt SAM for å optimalisere multientitets-drevet generering. Denne prosessen gir modellen muligheten til å generere høykvalitetsbilder som nøyaktig samsvarer med de angitte beskrivelsene.
Treningsdataene for både Emu2-Chat og Emu2-Gen ble valgt med tanke på å maksimere modellens generative kapasiteter. Høyoppløselige bilder og videoer ble brukt til å sikre at de visuelle resultatene holder høy kvalitet, og det ble benyttet strategier som bilde-segmentering og filtrering av lavkvalitetsprøver for å sikre presisjon i den genererte visuelle outputen.
Det som er viktig å forstå, er at Emu2s evne til å lære fra både bilder, tekst og videoer gjør det til et fleksibelt verktøy for en rekke applikasjoner. Den kan brukes til alt fra bildebeskrivelser og spørsmålsbesvarelse, til mer spesifikke oppgaver som visuell kunstproduksjon og videobasert innholdsgenerering. Den komplekse treningsprosessen og tilpasningene som er gjort for å forbedre ytelsen, viser hvordan Emu2 kan skape mer presise og kontekstuelt relevante resultater på tvers av multimodale oppgaver. Bruken av slike modeller gir muligheter for dyptgående interaksjoner og mer kontrollerte generative prosesser, og det er avgjørende å forstå hvordan samspillet mellom de forskjellige komponentene i Emu2 bidrar til modellens effektivitet.
Hvordan kalibrere selvtillit i kontrastive visjon-språkmodeller for åpne vokabularer?
Kontrastive visjon-språkmodeller (VLM), som CLIP, har gjort store fremskritt innen bildedekoding, ved å muliggjøre åpne vokabular oppgaver som bildeklassifisering, bilde-hentingssystemer og visuelle chatboter. Disse modellene har vist eksepsjonell ytelse ved hjelp av naturlig språktilsyn, og har derfor blitt et populært verktøy i mange forskjellige applikasjoner. For å tilpasse disse modellene til spesifikke oppgaver, er det utviklet ulike fine-tuning-metoder, hvoriblant prompt-læring har vist seg å være en effektiv, parameter-effektiv og robust tilnærming. Til tross for at disse metodene forbedrer nøyaktigheten, er et kritisk problem ofte oversett: selvtillitens kalibrering i slike modeller, spesielt i scenarier der modeller blir brukt i "zero-shot" eller etter finjustering.
En av de mest betydningsfulle utfordringene når man arbeider med åpne vokabular oppgaver, er at modellene må kunne gjøre pålitelige prediksjoner både på kjente (basis) klasser og ukjente (nye) klasser. En godt kalibrert modell bør være i stand til å estimere sannsynligheten for korrekthet, slik at prediksjoner kan behandles på en pålitelig måte. Selv om tidligere studier har vist at CLIP-modellen er godt kalibrert under "zero-shot" inferens, introduserer finjustering for spesifikke oppgaver en miskalibrering som svekker nøyaktigheten. Dette betyr at de predikerte sannsynlighetene for klasser i fine-tunede modeller ikke nødvendigvis reflekterer de faktiske sannsynlighetene for korrekthet. Spesielt i åpne vokabular-scenarier oppstår det en betydelig utfordring: finjusterte VLM-er er ofte overkonfidente når det gjelder å forutsi nye klasser og underkonfidente for kjente klasser.
Tidligere forskning har hatt et snevert fokus på å kalibrere finjusterte CLIP-modeller for de klasser som ble optimalisert under finjusteringen. Problemet oppstår når modellen blir brukt på nye klasser, som ikke ble en del av opplæringen, og den viser en tendens til å være altfor sikker på prediksjoner for disse ukjente klassene. Videre har eksisterende kalibreringsmetoder som er utviklet for å justere modellen etter trening (post-hoc), vist seg å være utilstrekkelige i slike åpne vokabular-scenarier. Disse metodene fungerer godt på basis-klasser, men har problemer med å håndtere nye, ukjente klasser på en pålitelig måte.
En løsning på dette problemet har blitt foreslått i form av en enkel, men effektiv teknikk kjent som "Distance-Aware Calibration" (DAC). DAC tilpasser temperaturverdien for sannsynlighetskalibrering basert på avstanden mellom tekstembeddingene til de nye klassene og de grunnleggende klassene. Ved å beregne en tekstavviksskår for hver ny klasse, som kvantifiserer graden av avvik i de normaliserte tekstfunksjonene, kan DAC justere temperaturen slik at den gir en mer pålitelig kalibrering for nye klasser som er lenger unna basisklassene. Ved å bruke klasse-spesifikke skalafaktorer kan DAC gi høyere temperaturverdier til nye klasser som er mer fjerntliggende fra basisklassene, noe som igjen forbedrer kalibreringen i åpne vokabular-scenarier.
Testene av DAC har vist imponerende resultater når den er integrert med ulike prompt-læringsmetoder på flere nedstrøms dataset. For eksempel viste DAC en gjennomsnittlig reduksjon på 6,84% i Expected Calibration Error (ECE) for metoden CoOp over 11 forskjellige datasett. I noen tilfeller ble forbedringer på hele 16% observert. Lignende forbedringer ble også registrert for andre metoder som MaPLe og PromptSRC. DAC har dermed vist seg å være en allsidig tilnærming som forbedrer kalibreringen for eksisterende post-hoc metoder, inkludert Density-Ratio Calibration.
I tillegg til å presentere DAC, er det viktig å anerkjenne flere kritiske punkter som påvirker ytelsen til fine-tunede VLM-er. For det første er det essensielt å forstå at mens fine-tuning forbedrer nøyaktigheten på kjente klasser, kan det føre til at modellen blir overkonfident for ukjente klasser. Denne overkonfidensene kan være farlig, spesielt i applikasjoner der sikkerhet og pålitelighet er avgjørende. Det er derfor viktig å ikke bare forbedre nøyaktigheten, men også modellens evne til å estimere prediksjonenes pålitelighet, noe som DAC forsøker å løse på en elegant måte.
Selv om DAC er et betydelig skritt i riktig retning, er det fortsatt behov for videre utvikling og eksperimentering. For eksempel er det viktig å undersøke hvordan DAC kan brukes i andre typer VLM-er og hvordan det kan tilpasses for spesifikke bruksområder, som medisinsk diagnostikk eller autonome kjøretøy, hvor feilklassifisering kan ha alvorlige konsekvenser. Teknologier som DAC kan utvilsomt forbedre både ytelse og pålitelighet i disse kritiske applikasjonene.
Hvordan fungerer multimodal ansiktsgenerering og manipulering med samarbeidsdiffusjonsmodeller?
Diffusjonsmodeller har nylig vist seg som kraftfulle verktøy for generativ bildebehandling, særlig innen ansiktsgenerering og -manipulering. Tradisjonelt har slike modeller vært begrenset til unimodal kontroll, der genereringen styres av én enkelt modalitet, som for eksempel tekstbeskrivelser eller maskeinput. Imidlertid er det et økende behov for mer fleksibel kontroll, der flere modaliteter kan brukes samtidig for å gi mer presise og kreative resultater. Et eksempel er å kunne beskrive alder via tekst, samtidig som man former ansiktet ved hjelp av en maskebasert skisse.
Samarbeidsdiffusjon er en nyskapende tilnærming som utnytter ferdigtrente unimodale diffusjonsmodeller i en felles rammeverk uten behov for ny trening. Kjernen i denne metoden er en dynamisk diffuser – et metanettverk som tilpasser og kombinerer bidragene fra de ulike modalitetene ved å forutsi hvordan hver modell skal påvirke den latente denoising-prosessen over tid og rom. Denne adaptiviteten gjør det mulig å forsterke relevante modaliteter og dempe irrelevante, noe som øker både kvaliteten og presisjonen i det genererte bildet.
Det bemerkelsesverdige med samarbeidsdiffusjon er at den ikke bare kombinerer generative evner fra flere modeller, men også integrerer manipulasjoner, slik at brukeren kan redigere ansiktet ved flere kontrollpunkter samtidig. For eksempel kan man endre både ansiktsform, hårstil og alder i en enkelt operasjon, hvor hver modalitet styrer forskjellige aspekter av bildet. Den dynamiske diffuseren trenes først for generering, og kan deretter brukes uforandret i eksisterende manipulasjonsmetoder, noe som gir stor fleksibilitet i praktisk bruk.
Dette rammeverket muliggjør samtidig multimodal styring, noe som tidligere har vært begrenset på grunn av den store kostnaden ved å trene store modeller med flere modaliteter fra bunnen av. Ved å bruke ferdigtrente modeller reduseres ressursbruken betraktelig, samtidig som man får en universell plattform som kan tilpasses ulike behov og modalitetskombinasjoner uten omtrening.
Teksten illustrerer også hvordan spatial-temporale påvirkningsfunksjoner brukes til å dynamisk vekte bidragene fra hver modell gjennom genereringsprosessen, noe som bidrar til bedre samspill mellom tekst, masker og andre mulige innganger. Dette sikrer at genereringen ikke bare blir korrekt med hensyn til hver enkelt modalitet, men også harmonisk i sin helhet.
Det er viktig å forstå at denne tilnærmingen ikke bare handler om teknisk kombinasjon av modaliteter, men om hvordan man kan nyttiggjøre seg komplementære styrker i ulike modalitetsbaserte modeller. Tekstmodaliteter er for eksempel velegnet for abstrakte eller semantiske beskrivelser som alder eller uttrykk, mens maskebaserte modaliteter gir detaljert geometrisk kontroll. Samarbeidsdiffusjonen forbinder disse i et dynamisk samspill som overskrider det som er mulig med enkeltstående modeller.
Videre innebærer dette konseptet en paradigmesskifte i generativ kunstig intelligens: i stedet for å utvikle store og komplekse modeller for hver kombinasjon av modaliteter, åpner samarbeidsdiffusjonen for en modulær tilnærming der spesialiserte modeller kan samarbeide i sanntid. Dette gir fleksibilitet, skalerbarhet og muligheter for kontinuerlig integrasjon av nye modaliteter uten behov for omfattende nyopplæring.
I tillegg til teknisk innsikt er det essensielt for leseren å forstå at multimodal generering med slike metoder også utfordrer tradisjonelle oppfatninger av kontroll i kunstig intelligens. Brukeren får et mer intuitivt og naturlig samspill med modellen, hvor ulike sansemodaliteter eller datatyper kan kombineres på kreative måter, noe som åpner for mer avansert og nyansert innholdsskaping. Dette krever en ny tilnærming til hvordan man designer brukergrensesnitt og hvordan man evaluerer resultatene, siden konsistens mellom modaliteter og brukernes intensjoner blir avgjørende.
Endelig må man være oppmerksom på at mens samarbeidsdiffusjon forbedrer kontroll og fleksibilitet, ligger utfordringene fortsatt i balansen mellom de ulike modalitetenes innflytelse, og at komplekse sammenstillinger kan føre til uventede resultater dersom modalitetene ikke er godt koordinert. For å oppnå optimal ytelse kreves fortsatt dyp forståelse av de underliggende mekanismene og muligheter for finjustering i praktiske anvendelser.
Hvordan bygge en finansiell modell for langsiktig vekst og optimalisering av ressursbruk
Hvordan forutsi elastiske egenskaper i fiberforsterkede kompositter med høy nøyaktighet?
Hvordan analyse av håndoversystemer påvirker ytelsen i HetNet

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский