De snelle vooruitgang van het metaverse en virtuele realiteit heeft de vraag naar fotorealistische 3D-scèneweergaven aanzienlijk vergroot. In computergraphics (CG) zijn hoogkwalitatieve scène-representaties, zoals HDR-panoramabeelden, essentieel voor het bereiken van realistische belichting en meeslepende omgevingseffecten. Een representatie van een scène moet beschikken over hoge resolutie, een rijke dynamisch bereik en gedetailleerde elementen. Echter, het creëren van dergelijke representaties is een uitdaging, aangezien het proces zowel middelenintensief is als beperkt door fysieke beperkingen. Dit leidt tot de ontwikkeling van geautomatiseerde generatiepijplijnen.
Standaardbeelden kunnen eenvoudig worden verkregen, maar HDR-panoramabeelden bieden een 360° weergave van de straling van een scène in een hoog dynamisch bereik, waardoor ze gedetailleerder en diverser zijn. Aangezien handmatig ontwerp en verfijning in dergelijke representaties onpraktisch zijn door de enorme hoeveelheid informatie die ze bevatten, wordt er steeds vaker gebruik gemaakt van vrije tekstbeschrijvingen zoals "een serene meer met een houten steiger omringd door weelderige groene bomen op een zonnige dag." Dit biedt een gebruiksvriendelijke manier om het genereren van complexe scènes te controleren, zoals geïllustreerd in de bijbehorende figuren.
Echter, ondanks de potentie van tekstgestuurde generatie, zijn er verschillende uitdagingen waarmee deze methoden te maken hebben. Ten eerste is er de uitdaging van resolutie: de bestaande generatieve modellen worstelen met het synthetiseren van ultra-hoge resolutie (4K+) scènes met voldoende detail en diversiteit. De aanpak die in deze tekst wordt beschreven, kan echter HDR-scènes in 4K+ resolutie genereren, die als panoramische beelden kunnen worden gepresenteerd. Deze scènes kunnen zelfs virtueel worden bezocht, wat een revolutionaire stap is in de visuele ervaring.
De tweede uitdaging is coherentie: in tegenstelling tot object-gebaseerde afbeeldingen bevatten scènes vaak meerdere objecten en complexe structuren, waardoor het moeilijk wordt om semantische coherentie en structurele consistentie te behouden. Dit wordt opgelost door een geavanceerd systeem van globale en lokale coderegisters. De globale codebook legt de algehele scene-semantiek vast, terwijl het lokale codebook zich richt op de fijnere details.
Verder speelt tekstafstemming een belangrijke rol. Het verzamelen van gepaarde data voor het trainen van modellen die scene-level inhoud genereren vanuit vrije tekstbeschrijvingen is zowel kostbaar als arbeidsintensief. Dit maakt de zogenaamde zero-shot generatie, waarbij de scène volledig uit de tekst wordt gehaald zonder vooraf getrainde data, nog grotendeels onontgonnen terrein. Dit probleem wordt opgelost door een model te ontwikkelen dat tekstdirecte input interpreteert en naadloos de scene opbouwt zonder dat er gepaarde trainingsdata vereist is.
Tot slot is er de uitdaging van het dynamische bereik: het genereren van scènes met een hoog dynamisch bereik is complex, vooral wanneer lage dynamisch bereik (LDR)-uitvoer wordt geconverteerd naar HDR-weergaven. De beschreven aanpak adresseert dit probleem door een superresolutie-herconstructiemodule toe te passen, die zowel de ruimtelijke resolutie als het dynamische bereik van het panorama verhoogt, wat zorgt voor de hoge precisie die nodig is voor realistische rendering.
De voorgestelde oplossing bestaat uit twee fasen. In de eerste fase wordt het tekstuele invoer omgezet in een LDR-panorama, waarbij een dubbele codebook-architectuur wordt toegepast om zowel globale als lokale scene-informatie vast te leggen. Het voorgetrainde CLIP-model wordt gebruikt om tekstembeddings te extraheren, die vervolgens door een globale sampler worden gebruikt om holistische kenmerken uit het globale codebook te halen. Na deze stap wordt een lokale sampler ingezet om de gegenereerde informatie te verfijnen en een gedetailleerd LDR-scène te creëren. In de tweede fase wordt de LDR-output van de eerste fase verbeterd met behulp van een superresolutie-techniek, wat resulteert in een HDR-panorama van hoge kwaliteit.
Een belangrijk aspect dat bij deze generatie van scènes in aanmerking genomen moet worden, is de noodzaak voor toegankelijke generatietools die eenvoudig door niet-experts kunnen worden gebruikt. De kracht van het model ligt in de gebruiksvriendelijke aard van de tekstinput, wat de drempel voor creatie verlaagt en het mogelijk maakt om complexe 3D-scènes te genereren zonder specialistische kennis van het vakgebied. Deze aanpak biedt potentieel voor een breed scala aan toepassingen, van het ontwikkelen van realistische virtuele werelden tot interactieve ervaringen die dynamisch reageren op de input van de gebruiker.
Bij het verder ontwikkelen van dergelijke methoden is het van cruciaal belang om de schaalbaarheid en diversiteit van scene-generatie in acht te nemen. Terwijl huidige systemen sterk afhankelijk zijn van grote hoeveelheden verwerkingskracht en geheugen, zou het verder verbeteren van de efficiëntie van de modellen de mogelijkheden voor grootschalige en dynamische scene-creatie aanzienlijk kunnen uitbreiden.
Hoe leren grote multimodale modellen nieuwe taken zonder hertraining?
Emu2 is een generatief multimodaal model met 37 miljard parameters, ontworpen om een fundamenteel probleem in de ontwikkeling van AI op te lossen: het vermogen om nieuwe taken te begrijpen en uit te voeren zonder expliciete hertraining. Waar traditionele modellen vaak op rigide wijze per taak worden getraind, toont Emu2 aan dat grootschalige, autoregressieve training op gemengde multimodale data kan leiden tot krachtige in-context leervermogens, vergelijkbaar met hoe mensen leren van context en voorbeelden.
De kern van Emu2’s aanpak is een verenigd autoregressief leerdoel: het voorspellen van het volgende multimodale element, ongeacht of dit een teksttoken of een visuele embedding is. Door tekst, afbeeldingen, en video’s te integreren in één continue sequentie, leert het model generaliseren over een brede waaier aan taken, zelfs wanneer deze tijdens training niet expliciet aan bod kwamen.
In de praktijk wordt dit getest in twee hoofdscenario’s: ten eerste, het few-shot leren, waarbij het model meerdere voorbeelden binnen zijn contextvenster krijgt; ten tweede, instructietuning, waarbij het model specifiek wordt getraind om verbale instructies te volgen. In beide gevallen presteert Emu2 op state-of-the-art niveau, vooral op visuele vraag-en-antwoordtaken. Interessant is dat het model beter presteert naarmate het meer voorbeelden binnen zijn context krijgt – een fenomeen dat typisch menselijk leren weerspiegelt.
Emu2 kan visuele aanwijzingen volgen die in de context worden meegegeven, zoals cirkels die objecten markeren in afbeeldingen. Dit wijst op geavanceerde visueel-redeneervermogen en een flexibele interpretatie van visuele promptsignalen. Dergelijke capaciteiten maken het model geschikt voor toepassingen waar interpretatie van gemengde signalen vereist is, zoals interactieve systemen of complexe informatie-extractie.
De architectuur van Emu2 is modulair, bestaande uit een visuele encoder, een multimodale modelcomponent en een visuele decoder. Afbeeldingen worden eerst omgezet naar continue embeddings via de encoder, waarna deze worden gecombineerd met teksttokens voor autoregressieve verwerking. De decoder reconstrueert deze embeddings opnieuw tot beelden of video’s. Deze structuur is bewust vereenvoudigd in vergelijking met voorgangers zoals Emu, onder andere door het elimineren van tussenlagen zoals de C-Former.
Voor de pretraining werd gebruikgemaakt van een breed spectrum aan publiek beschikbare datasets. Deze omvatten LAION-2B en CapsFusion-120M voor beeld-tekstparen, WebVid-10M voor videogegevens, en Multimodal-C4 en YT-Storyboard-1B voor interleaved data. Door deze heterogene databronnen ontstaat een model dat niet alleen tekstueel kan redeneren, maar ook flexibel kan schakelen tussen visuele, linguïstische en temporele modaliteiten.
Belangrijk is dat het model zijn kennis niet statisch toepast, maar zich aanpast aan de context waarin het wordt ingezet. Net als bij GPT-3, dat tekstuele in-context leervermogens demonstreerde, laat Emu2 zien dat dergelijke methodes ook toepasbaar zijn in multimodale omgevingen. Modellen zoals Flamingo en Kosmos lieten dit eerder zien met beperkte contexten, maar Emu2 breidt dit uit naar robuuste sequenties van beeld, tekst én video.
Deze ontwikkeling onderstreept een paradigmaverschuiving: van gescheiden AI-componenten naar geïntegreerde, contextgevoelige systemen die als algemene interfaces kunnen functioneren. De maatschappelijke implicaties hiervan zijn aanzienlijk. Enerzijds kunnen deze modellen worden ingezet voor educatie, toegankelijkheid en menselijke-machine interactie. Anderzijds brengt deze kracht ook risico’s met zich mee, zoals manipulatie via visuele desinformatie of ongecontroleerde generatie van beelden. Het blijft daarom essentieel om modellen als Emu2 niet alleen technisch te evalueren, maar ook te kaderen binnen ethische en maatschappelijke kaders.
Bovendien verdient het begrip van “interleaving” aandacht: door tekst en visuele data afwisselend te verwerken binnen één autoregressieve stroom, ontstaat er een gedeelde representatieruimte die het model in staat stelt om betekenisvol over modaliteiten heen te redeneren. Dit is geen triviale prestatie. Het vereist een fundamenteel ander trainingsregime, waarin het model wordt blootgesteld aan situaties waarin taal en beeld niet afzonderlijk bestaan, maar elkaar beïnvloeden.
Wat essentieel is om te begrijpen, is dat dit soort modellen geen klassieke database van kennis zijn, maar adaptieve systemen die leren door te kijken naar patronen binnen context. Dit betekent ook dat hun gedrag niet volledig voorspelbaar is – hun output is afhankelijk van de inputsequentie, de volgorde van modaliteiten, en subtiele variaties in formulering of visuele signalen.
Hoe verbetert Test-Time Prompt Tuning (TPT) de robuustheid en generalisatie van visuele taalmodellen?
Test-Time Prompt Tuning (TPT) is een geavanceerde techniek die gericht is op het verbeteren van de zero-shot prestaties van visuele taalmodellen, zoals CLIP, door tijdens de testfase adaptieve prompts te leren. In tegenstelling tot traditionele finetuning, die doorgaans voorafgaand aan de inzet van een model plaatsvindt, vindt bij TPT de optimalisatie plaats met slechts één testvoorbeeld, zonder extra trainingsdata of annotaties. Dit maakt TPT bijzonder geschikt voor scenario’s waarin de distributie van de data kan verschuiven of onbekend is.
Een belangrijke component van TPT is de focus op prompt tuning binnen het model. Uit ablaties blijkt dat optimalisatie van de tekstprompt significant effectiever is dan finetuning van het volledige model, de tekst-encoder of de visuele encoder. Dit laatste resulteert zelfs vaak in prestatieverlies, waarschijnlijk doordat het verstoren van voorgetrainde visuele kenmerken de prestaties schaadt. Het leren van prompts biedt daarentegen een gerichte aanpassing die de robuustheid en generalisatie verbetert zonder deze onderliggende representaties te beschadigen.
Een ander essentieel aspect is het gebruik van confidence selection, een mechanisme dat ruisreduceert door alleen de meest informatieve, ‘vertrouwde’ augmented voorbeelden te selecteren. Door alleen de top-10% meest zelfverzekerde samples mee te nemen in de optimalisatie, verhoogt TPT de gemiddelde nauwkeurigheid aanzienlijk. Deze strategie minimaliseert de impact van irrelevante of misleidende data tijdens test-time optimalisatie en is bovendien toepasbaar op andere entropy-gebaseerde optimalisatiemethoden.
Wat betreft de efficiëntie laat TPT een interessant spanningsveld zien tussen nauwkeurigheid en rekenkosten. Het gebruik van meerdere augmented views per testvoorbeeld verhoogt de nauwkeurigheid tot een bepaald punt (ongeveer 64 augmentaties), waarna een plateau bereikt wordt. Tegelijkertijd is al bij een relatief klein aantal augmentaties, bijvoorbeeld 8, een substantiële prestatieverbetering merkbaar. Qua optimalisatiestappen blijkt dat één enkele stap tijdens testtijd vaak al voldoende is om significante verbeteringen te bereiken, terwijl extra stappen slechts marginale winst opleveren tegen hogere kosten in tijd en geheugen.
Daarnaast vertoont TPT een lagere variantie in prestaties over verschillende runs dan andere few-shot tuning methoden, wat duidt op een stabielere en betrouwbaardere benadering. Dit is cruciaal in toepassingen waar consistente prestaties onder uiteenlopende omstandigheden gewenst zijn.
TPT is een voorbeeld van een bredere trend in machine learning: het benutten van test-time optimalisatie om foundation models adaptief te maken zonder extra trainingsdata. Dit concept kan worden uitgebreid naar generatieve visuele taalmodellen en andere modaliteiten, waaronder grote taalmodellen, mits er passende test-time objectieven worden ontworpen.
Naast de beschreven technische aspecten is het voor de gebruiker belangrijk te begrijpen dat TPT de inherente capaciteiten van voorgetrainde modellen respecteert en verfijnt zonder ze fundamenteel te herscholen. Dit maakt het een elegante oplossing voor praktische uitdagingen zoals distributieverschuivingen, waarbij traditionele finetuning vaak onpraktisch of zelfs contraproductief kan zijn.
Belangrijk is ook het inzicht dat het succes van TPT mede afhankelijk is van de keuze en kwaliteit van data augmentaties tijdens testtijd. Effectieve augmentaties kunnen de informatiewaarde van samples verhogen en zo de optimalisatie robuuster maken. Verder verdient het aandacht hoe de balancering tussen rekentijd en nauwkeurigheid in productiesystemen wordt gemaakt, aangezien test-time tuning meer rekenkracht vergt dan standaard zero-shot inferentie.
Hoe Open-Vocabulary Objectdetectie op Basis van Detectie-Transformers Nieuwe Mogelijkheden Creëert
Open-vocabulary objectdetectie heeft de laatste jaren veel aandacht gekregen binnen de onderzoekswereld, voornamelijk dankzij de opkomst van vision-language modellen [13, 41]. Het kernprincipe van de bestaande open-vocabulary detectiemethoden is het afstemmen van visuele kenmerken die door objectdetectors zijn geëxtraheerd, met tekstuele representaties gegenereerd door modellen die getraind zijn op enorme image-text datasets, zoals CLIP [27]. Deze afstemming maakt het mogelijk voor de classifier om nieuwe objectklassen te herkennen op basis van hun tekstuele beschrijvingen, zonder dat er training beelden nodig zijn die deze klassen representeren.
Een belangrijke beperking van de huidige open-vocabulary detectiemethoden [13, 41] is de afhankelijkheid van region proposal networks (RPN). Deze netwerken slagen er vaak niet in om alle exemplaren van nieuwe klassen binnen een afbeelding accuraat te dekken, omdat er geen trainingsdata voor deze klassen beschikbaar zijn. Dit probleem werd recentelijk benadrukt in onderzoek [17], waaruit blijkt dat de binaire aard van de RPN het model vatbaar maakt voor overfitting op de bekende klassen, wat de mogelijkheid om effectief te generaliseren naar nieuwe klassen belemmert.
Om deze uitdagingen aan te pakken, hebben wij in dit hoofdstuk de open-vocabulary detector OV-DETR gepresenteerd, die is opgebouwd op het DETR-framework [2]. Het primaire doel is om het vermogen van het model te verbeteren om te generaliseren naar nieuwe objectklassen zonder afhankelijk te zijn van een tussenliggende RPN. OV-DETR is ontworpen om elk object te detecteren op basis van zowel de naam van de klasse als een voorbeeldafbeelding. Deze unieke mogelijkheid biedt meer flexibiliteit in vergelijking met traditionele open-vocabulary detectiemethoden, die doorgaans uitsluitend afhankelijk zijn van natuurlijke taalbeschrijvingen.
Het trainen van DETR voor open-vocabulary detectie brengt aanzienlijke uitdagingen met zich mee. Het berekenen van classificatiekosten voor nieuwe klassen wordt onuitvoerbaar vanwege het ontbreken van trainingslabels. Om dit probleem op te lossen, hebben we het leerdoel geherformuleerd als een binair matchingprobleem tussen invoervragen (klassennamen of voorbeeldafbeeldingen) en bijbehorende objecten binnen de afbeelding. Deze matching loss, die wordt getraind op diverse vraag-objectparen, bevordert het leren van robuuste correspondenties die effectief generaliseren naar onzichtbare vragen tijdens inferentie. Om dit mogelijk te maken, hebben we de DETR-decoder uitgebreid door conditionele inputvragen toe te voegen. Concreet hebben we de decoder geconditioneerd op query-embeddings die zijn afgeleid van een voorgetraind vision-language model zoals CLIP [27], wat conditionele matching mogelijk maakt voor zowel tekst- als beeldvragen.
Onze aanpak, die gebruik maakt van een transformer-gebaseerde detector in plaats van de traditionele RPN, levert superieure prestaties bij het detecteren van nieuwe klassen, zoals geïllustreerd in de experimenten op twee uitdagende open-vocabulary objectdetectiedatasets. In het bijzonder behaalt OV-DETR een novel class mask mAP van 17.4 op de open-vocabulary LVIS dataset [13] en een novel class box mAP van 29.4 op de open-vocabulary COCO dataset [41], waarmee het de baseline-methoden met respectievelijk 1.3 en 1.8 mAP overtreft.
In de wereld van open-vocabulary objectdetectie ligt de nadruk op het detecteren van nieuwe klassen die niet tijdens de trainingsfase zijn tegengekomen. Dit vormt een belangrijke benchmark voor het evalueren van de generalisatiecapaciteiten van modellen. Het detectiemodel wordt getraind op basis van annotaties voor de basisklassen, aangevuld met extra beeld-tekst paren. Het model wordt vervolgens geëvalueerd op zijn vermogen om objecten te detecteren die behoren tot de nieuwe klassen. Het gebruik van grote voorgetrainde vision-language modellen, zoals die in [10, 13, 24, 41, 44], heeft deze integratie van open-vocabulary informatie binnen objectdetectie effectief mogelijk gemaakt.
OVR-CNN [41] bijvoorbeeld traint eerst een Faster R-CNN detector [29] op beeld-beschrijving paren met behulp van BERT [6] en fine-tunet het daarna op downstream detectiedatasets. ViLD [13] maakt gebruik van een distillatie-benadering die de beeldextractor van Mask R-CNN [15] afstemt op de beeld- en tekstencoder van CLIP [27], waardoor CLIP effectief classificatiewegingen kan synthetiseren voor elke nieuwe klasse. Detic [44] gebruikt zwakke supervisie in de vorm van beeldlabels van het ImageNet dataset [5] om de open-vocabulary detector te trainen. OWL-ViT [24] traint direct een Vision Transformer (ViT)-gebaseerde detector op een enorme verzameling beeld-tekst paren. OV-DETR verschilt van deze benaderingen doordat we een transformer-gebaseerde detector end-to-end trainen, met een conditionele matching-structuur.
In dit domein is zero-shot objectdetectie nauw verwant aan open-vocabulary detectie, omdat beide benaderingen zich richten op het detecteren van objecten uit onbekende klassen [1, 20, 28, 31, 45]. De zero-shot setting is echter moeilijker en minder praktisch, omdat het model geen toegang heeft tot bronnen die betrekking hebben op de onzichtbare klassen [41]. Zero-shot detectie maakt vaak gebruik van voorgetrainde woordembeddings, zoals GloVe [26], als classificatorgewichten [1], of benut externe bronnen zoals tekstuele beschrijvingen om de generalisatiecapaciteiten van deze embeddings te verbeteren [20, 28]. Een alternatieve strategie bestaat uit het genereren van feature-representaties voor nieuwe klassen door Generative Adversarial Networks (GANs) [12] te gebruiken [31], of door data-augmentatie om representaties van onzichtbare klassen te synthetiseren [45].
OV-DETR biedt met zijn innovatieve aanpak een breder scala aan mogelijkheden dan andere methoden die enkel gebruik maken van tekstuele beschrijvingen. Door de mogelijkheid om zowel tekst als voorbeeldafbeeldingen als invoer te gebruiken, verhoogt het de flexibiliteit en maakt het de detectie van nieuwe objectklassen aanzienlijk effectiever.
Het is belangrijk voor de lezer om te begrijpen dat hoewel de technieken voor open-vocabulary objectdetectie snel evolueren, er nog steeds verschillende uitdagingen blijven bestaan. Bijvoorbeeld, het verbeteren van de efficiëntie van de trainingsprocessen, het omgaan met de diversiteit van objectklassen, en het garanderen van robuuste prestaties in meer complexe scenario's blijven essentiële onderzoeksdoelen. Ook moet men zich realiseren dat, hoewel modellen zoals OV-DETR indrukwekkende prestaties leveren, de generalisatie naar nieuwe klassen in real-world toepassingen altijd in de praktijk getest moet worden, wat extra validatie vereist.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский