Het genereren van grootschalige scènes met behulp van modellen wordt vaak bemoeilijkt door het gebrek aan begrip van de algehele semantiek van de scène. Deze beperking kan echter worden aangepakt door het genereren van scènes te conditioneren op de globale semantiek die afgeleid wordt van de invoertekst. Het is dus essentieel om een methode te ontwikkelen die de generatieprocessen in staat stelt te reageren op de semantische betekenis van de tekst, zonder expliciete training met gekoppelde tekst-beeldgegevens.

In dit kader introduceren we een tekst-geconditioneerde globale sampler, die monsterrepresentaties uit de globale codeboek haalt en zo zorgt voor een afstemming tussen de tekst en de scène in een taal-agnostische trainingsopzet. Onze belangrijkste bevinding is dat de sampler wordt afgestemd op de invoertekst via niet-gesuperviseerde leertechnieken, specifiek de K-dichtstbijzijnde buren (K-nearest neighbors, K-NN) en contrastieve leren. Het doel is om een tekstconditie, Ctxt, te genereren die de werkelijke semantische betekenis van de doel-scène, I, benadert, zonder dat we afhankelijk zijn van gelabelde tekst-beeld trainingsdata.

Bij deze aanpak worden de tekst- en beeldencoders van het CLIP-model (Etxt en Eimg) gebruikt. De eerste stap bestaat erin de afbeeldingskenmerken, Eimg(I), te verstoren om een pseudo-tekstkenmerk te genereren, waarmee de kloof tussen de tekst- en beeldmodi wordt overbrugd. Dit proces kan wiskundig worden uitgedrukt als volgt:

C^txt=(1α)Eimg(I)+αEimg(I)2ε2,εN(0,I)\hat{C}_{txt} = (1 - \alpha)E_{img}(I) + \alpha \frac{\|E_{img}(I)\|^2}{\|\varepsilon\|^2}, \quad \varepsilon \sim \mathcal{N}(0, I)

waarbij α een vaste hyperparameter is en ε de toegepaste Gaussian ruis. Vervolgens worden de top-K dichtstbijzijnde afbeeldingsrepresentaties Cknn = {Eimg(Ik)} uit de buurt van Ĉtxt opgehaald, die dienen als extra voorwaarde. Op deze manier wordt de tekstconditie Ctxt gedefinieerd als:

Ctxt={CknnC^txt}C_{txt} = \{ C_{knn} | \hat{C}_{txt} \}

Het volgende proces omvat het gebruik van een transformer-gebaseerd model, dat als een tekst-geconditioneerde sampler fungeert en holistische kenmerken uit het globale codeboek Zg haalt op basis van de invoertekst T. De sampler wordt getraind op een autoregressieve manier, waarbij het wordt geconditioneerd door het tekstafgeleide kenmerk. De gediscreteerde representatie komt overeen met een reeks die bestaat uit indices uit het globale codeboek. Het samplen van de globale kenmerken wordt gepresenteerd als een autoregressieve taak, waarbij de volgende index in de reeks wordt voorspeld op basis van de voorgaande en de tekstconditie.

Een voorbeeld van een autoregressief proces is het leren van de verdeling van de volgende index, wat wiskundig kan worden beschreven als:

p(sisi1,,s1,Ctxt)p(s_i | s_{i-1}, \dots, s_1, C_{txt})

Door de tekstconditie effectief te integreren, kan de sampler globaal coherente scènes genereren, waarbij de tekstuele invoer bepalend is voor de visuele eigenschappen van het gegenereerde beeld.

Dit proces van het samplen van globale kenmerken biedt aanzienlijke voordelen ten opzichte van eerdere technieken. De belangrijkste vooruitgang is dat het geen gepaarde tekst-beelddata vereist voor training, wat het potentieel vergroot voor toepassingen waarbij dergelijke gelabelde data moeilijk of onbereikbaar zijn. Dit maakt het mogelijk om modellen te trainen die efficiënt leren uit ongesuperviseerde of zwak gelabelde data, wat de toegankelijkheid en schaalbaarheid van dergelijke technieken vergroot.

Belangrijk is dat deze aanpak niet alleen de visuele coherentiteit van de gegenereerde scènes verhoogt, maar ook het potentieel biedt om generatieve modellen te verbeteren op manieren die verder gaan dan de traditionele benaderingen. Door de flexibiliteit van de tekst-geconditioneerde sampling kan de semantische ruimte op een dynamische en contextuele manier worden afgestemd, hetgeen de mogelijkheid biedt om beelden te creëren die precies overeenkomen met complexe en veelzijdige beschrijvingen.

Een ander belangrijk aspect van dit model is dat het gebruik maakt van niet-gesuperviseerde leertechnieken, zoals contrastieve en K-NN-gebaseerde methoden. Deze technieken stellen het model in staat om verborgen structuren binnen de gegevens te ontdekken zonder expliciete labels, waardoor het model op een veel bredere schaal kan leren. De afstemming van beeld- en tekstrepresentaties zonder directe supervisie opent deuren voor diverse toepassingen, van het genereren van kunst tot het ontwikkelen van nieuwe mogelijkheden in visuele zoektechnologieën en interactieve AI-systemen.

Hoe het ontwerp van neurale netwerken zich aanpast aan verschillende datasets: Inzichten uit NOAH's benadering voor het afstemmen van visiemodellen

In recente ontwikkelingen op het gebied van computer vision is er steeds meer belangstelling voor het afstemmen van vision foundation-modellen met behulp van parameter-efficiënte methoden. Een van de belangrijkste uitdagingen is het ontwerp van de juiste architectuur voor een specifiek dataset, vooral wanneer we kijken naar verschillende datasets die elk hun eigen labelstructuren en semantische kenmerken hebben. De invloed van vooraf getrainde datasets, zoals ImageNet, op het afstemmen van modellen is significant, maar het blijkt dat het transfereren van deze getrainde netwerken naar andere datasets vaak niet eenvoudig is, omdat de taakgerelateerde semantische functies die vereist zijn voor specifieke taken moeilijker te extraheren zijn in de diepere lagen van het model.

De NOAH-aanpak (Neural Optimized Architecture Search) biedt echter een oplossing door een geautomatiseerde zoekstrategie voor het vinden van de optimale architectuur, waarbij de zwakte van handmatig ontwerp wordt overwonnen. NOAH maakt gebruik van verschillende promptmodulen, zoals Adapter, LoRA, en VPT, die zich onderscheiden in hun rol binnen het netwerk. Adapter en LoRA worden voornamelijk toegepast in de diepere lagen van het netwerk, met grotere embeddingdimensies, terwijl VPT zich gelijkmatig over de lagen verdeelt, afhankelijk van de groep. In de natuurlijke groep bijvoorbeeld, ligt de nadruk van VPT op de ondiepere lagen, terwijl in gestructureerde datasets, VPT sterker aanwezig is in de diepere lagen.

Het coëxisteren van deze methoden benadrukt hun complementariteit en de moeilijkheid van het handmatig ontwerpen van een optimale combinatie. Deze synergie tussen verschillende benaderingen maakt NOAH een krachtig hulpmiddel voor het efficiënt afstemmen van modellen, wat verder wordt ondersteund door de variabiliteit in de module-ontwerpen die worden aangetroffen in de verschillende groepen datasets. Deze flexibiliteit stelt NOAH in staat om de architectuur af te stemmen op de unieke eisen van elke dataset, en benadrukt het belang van zoekgebaseerde benaderingen in vergelijking met handmatig afstemmen.

Wat betreft de overdraagbaarheid van de subnets, toont NOAH goede resultaten wanneer de subnet-architectuur van een dataset wordt overgedragen naar een andere. Het onderzoek toont aan dat de kloof in prestaties tussen de subnetten die specifiek zijn voor de dataset en de ImageNet-gebaseerde subnetten relatief klein is. Wanneer de bron- en doeldatasets visueel dichter bij elkaar liggen, zoals in het geval van de natuurlijke groep, is de kloof zelfs minder dan 1%. Dit suggereert dat de vooraf getrainde modellen zoals ImageNet, ondanks de verschillende datasets, een behoorlijke transferabiliteit bezitten, vooral wanneer de visuele concepten overeenkomen.

Wat betreft de computational cost blijkt NOAH in staat om ten minste een gemiddelde nauwkeurigheidswinst van 1,5% te behalen ten opzichte van andere benaderingen zoals VPT, Adapter en LoRA, met een beheersbare rekentijd. Het voordeel van NOAH wordt verder onderstreept door zijn lage opslagkosten en zijn superieure prestaties in vergelijking met andere promptmodulen onder gelijke rekenkosten. Dit toont niet alleen de efficiëntie van NOAH in termen van prestaties, maar ook zijn effectiviteit in termen van parameterbesparing.

Ten slotte is de keuze tussen random search en evolutionaire search van cruciaal belang voor het succes van de NOAH-aanpak. Het blijkt dat evolutionaire zoekmethoden significant beter presteren dan willekeurige zoekmethoden, wat de effectiviteit van de benadering verder benadrukt. Dit maakt NOAH een bijzonder waardevolle tool voor onderzoekers die zich bezighouden met het afstemmen van neurale netwerken voor verschillende computer vision-taken.

Wat belangrijk is om te begrijpen, is dat de complexiteit van het ontwerp van de juiste promptmodule voor specifieke datasets niet onderschat moet worden. De mate van transferabiliteit en de effectiviteit van het afstemmen zijn afhankelijk van de mate waarin de datasets overeenkomen in hun visuele kenmerken. Dit maakt het belangrijk om te begrijpen hoe de onderliggende architecturen zich aanpassen aan de specifieke kenmerken van de dataset, en waarom het van groot belang is om de juiste zoekstrategieën te kiezen om de prestaties te optimaliseren zonder onnodige rekentijd of opslagkosten.

Hoe Werkt Multimodale Gezichtsgeneratie en Manipulatie met Samenwerkende Diffusie Modellen?

Diffusie modellen zijn een krachtige technologie voor beeldgeneratie en -bewerking die recentelijk veel vooruitgang hebben geboekt. Deze modellen hebben het potentieel om op basis van verschillende voorwaarden beelden te genereren, waarbij tekst, segmentatiemaskers, en schetsen de meest onderzochte modaliteiten zijn. Ondanks hun effectiviteit, beperken de meeste bestaande diffusie modellen zich tot het gebruik van één enkele modaliteit tegelijkertijd, wat hun controleerbaarheid en flexibiliteit in het gebruik beperkt. De uitdaging ligt dan ook in het benutten van meerdere modaliteiten tegelijkertijd om gebruikers meer creatieve vrijheid te geven zonder dat er grote hertraining van modellen nodig is. Dit is precies wat samenwerkende diffusie modellen mogelijk maken.

Het idee achter samenwerkende diffusie is het combineren van verschillende voorgetrainde unimodale diffusie modellen om multimodale beeldgeneratie en -bewerking mogelijk te maken. Dit kan bijvoorbeeld het genereren en bewerken van gezichten zijn door enerzijds de leeftijd via tekst te beschrijven en anderzijds de vorm van het gezicht aan te passen met behulp van een masker. Het belangrijkste voordeel van deze aanpak is de mogelijkheid om de kracht van meerdere pre-trained modellen te combineren, waardoor er een flexibele manier ontstaat om beelden te bewerken en te genereren zonder dat er opnieuw getraind hoeft te worden.

Het kernconcept van deze benadering is de "dynamische diffuser", een meta-netwerk dat adaptief multimodale denoising stappen hallucineert. Dit houdt in dat het model in staat is om de ruimtelijke en temporele invloeden van de verschillende modaliteiten te voorspellen en te bepalen hoe deze invloeden het beste kunnen worden gecombineerd voor optimale beeldgeneratie. Door gebruik te maken van deze dynamische diffuser kunnen de invloeden van verschillende modellen zowel versterkt als onderdrukt worden, afhankelijk van de relevantie van de modaliteit op dat moment.

In tegenstelling tot traditionele benaderingen, waar elke voorgetrainde model slechts een vaste combinatie van modaliteiten kan verwerken, maakt samenwerkende diffusie het mogelijk om nieuwe modaliteiten toe te voegen of oude weg te laten zonder dat het model opnieuw getraind hoeft te worden. Dit betekent dat gebruikers grote flexibiliteit hebben in de controle over het genereren en bewerken van beelden. In feite kan het model, door het toevoegen van slechts een nieuwe modaliteit, direct de functionaliteit uitbreiden zonder dat de onderliggende netwerken herzien hoeven te worden.

De toepassing van deze techniek wordt duidelijk in het context van gezichtsbewerking, waar gebruikers bijvoorbeeld de leeftijd of het geslacht van een persoon kunnen veranderen door middel van tekstinvoer, terwijl tegelijkertijd de vorm van het gezicht kan worden aangepast met een schets of masker. Het combineren van deze verschillende modaliteiten zorgt voor een dynamische en interactieve manier van beeldcreatie die de grenzen van traditionele beeldbewerking overschrijdt.

Daarnaast heeft deze benadering aanzienlijke voordelen op het gebied van efficiëntie en beeldkwaliteit. Experimenten tonen aan dat de samenwerkende diffusie methode superieure resultaten oplevert in zowel beeldkwaliteit als consistentie van de voorwaarden. Dit betekent dat niet alleen de gegenereerde beelden realistischer en van hogere kwaliteit zijn, maar ook dat ze beter voldoen aan de opgegeven voorwaarden, zoals tekstuele omschrijvingen of visuele maskers. Dit maakt het een krachtige tool voor zowel kunstmatige intelligentie als creatieve toepassingen in de digitale kunst en beeldbewerking.

Wat verder opvalt in deze aanpak is dat, hoewel de dynamische diffuser eerst wordt getraind voor multimodale generatie, deze later kan worden gecombineerd met bestaande gezichtsbewerkingstechnieken zonder verdere wijzigingen aan de diffuser zelf. Gebruikers kunnen dus de meest geschikte bewerkingstechnieken kiezen op basis van hun behoeften, wat nog meer flexibiliteit biedt in het creatieve proces.

Samengevat biedt het concept van samenwerkende diffusie een veelbelovende benadering voor het uitbreiden van de mogelijkheden van diffusie modellen. Het maakt het mogelijk om verschillende modaliteiten effectief te combineren zonder de noodzaak voor uitgebreide hertraining, wat een aanzienlijke verbetering betekent ten opzichte van de huidige eenzijdige benaderingen. Dit opent de deur naar meer geavanceerde en veelzijdige toepassingen in zowel de kunstmatige intelligentie als de digitale beeldbewerking.

Het is van belang te begrijpen dat de effectiviteit van deze methode sterk afhankelijk is van de manier waarop de verschillende modaliteiten worden gecombineerd en de ruimtelijke en temporele invloeden van elke modaliteit goed worden gemanaged. De mogelijkheid om meerdere modaliteiten flexibel te gebruiken, brengt ook de uitdaging met zich mee om te zorgen voor een harmonieuze interactie tussen deze modaliteiten, wat van invloed is op de uiteindelijke kwaliteit en precisie van het gegenereerde beeld. Dit vereist een diep begrip van de onderliggende technologie en de mogelijkheden van de verschillende diffusie modellen die in het systeem worden geïntegreerd.