InternVL-Chat is ontworpen met een duidelijke architectonische strategie: het combineren van een krachtige visuele encoder, InternViT-6B, met een grote taalmodel zoals InternLM2-20B. De koppeling vindt plaats via een lichte MLP-projector, en het gehele systeem volgt een progressieve trainingsstructuur die multimodale integratie in drie fasen mogelijk maakt: contrastieve training, incrementele pre-training en gesuperviseerd fijn-tunen.

De eerste fase, contrastieve training, legt de basis voor de uitlijning van beelden en tekst. Hierbij worden op het web verzamelde, vaak lawaaierige beeld-tekstparen gebruikt. InternViT-6B wordt vanaf nul geïnitialiseerd, terwijl de tekstencoder — LLaMA-7B — al vooraf getraind is. De trainingsdoelstelling volgt het CLIP-model, waarbij een symmetrische kruis-entropie wordt geminimaliseerd over de gelijkenisscores van beeld-tekstparen binnen een batch. Dit stelt het model in staat om sterk te presteren in zero-shot classificatie en beeld-tekst retrieval.

Vervolgens wordt in de tweede fase de tekstencoder vervangen door een krachtiger taalmodel, zoals InternLM2-20B. Dit model blijft bevroren, terwijl InternViT-6B en de MLP-projector worden bijgetraind. Belangrijk hierbij is de introductie van dynamische hoge resolutie: afbeeldingen worden opgedeeld in tegels van 448×448 pixels, afhankelijk van hun resolutie en beeldverhouding. Deze strategie stelt het model in staat om beelden tot 4K-resolutie te verwerken in een zero-shot setting. De gebruikte datasets in deze fase zijn gevarieerder en bevatten onder andere OCR- en objectdetectiedata.

In de derde fase wordt het hele systeem, inclusief het taalmodel, gezamenlijk fijn-afgesteld op zorgvuldig geselecteerde datasets. Deze datasets bestrijken een breed scala aan multimodale taken: van beeldbeschrijving tot wiskundige vraagbeantwoording, van het interpreteren van wetenschappelijke grafieken tot het begrijpen van documenten. De aandacht voor zulke uiteenlopende domeinen zorgt voor een model dat niet alleen robuust is, maar ook conceptueel flexibel in zijn toepassing.

Wat InternVL-Chat onderscheidt, is de bewuste architectonische beslissing om traditionele beperkingen van visuele foundation modellen te overwinnen. Klassieke modellen zoals CLIP zijn vaak getraind op vaste lage resoluties (224×224), wat hun prestaties beperkt bij complexe visuele input zoals documenten of afbeeldingen buiten internetcontexten. InternViT-6B daarentegen is geoptimaliseerd voor hoge-resolutie input met een dynamische aspect ratio matching. Deze aanpak vermijdt vervorming van het beeldformaat en maakt het mogelijk om natuurlijke verhoudingen te behouden.

Een cruciaal ontwerpprincipe is het gebruik van pixel-unshuffle om de overvloed aan visuele tokens bij hoge resolutie te reduceren. Hierdoor worden de breedte en hoogte van het beeld gehalveerd zonder informatieverlies, wat de efficiëntie van het model aanzienlijk verhoogt. Bovendien toont analyse dat de interne representaties van het visuele model, vooral van laag 4 tot 41 (van de 48), de meest bruikbare informatie leveren voor multimodale taken. De laatste drie lagen worden daarom bewust genegeerd om de efficiëntie te verbeteren en overfitting te voorkomen.

De combinatie van dynamische resolutie, progressieve training en doelgerichte datasetselectie maakt InternVL-Chat tot een van de weinige modellen die zich even goed thuis voelt in zowel web-scale retrieval taken als het analyseren van complexe wetenschappelijke documenten. Dit model benadert de prestaties van GPT-4V zonder gebruik te maken van gesloten of proprietaire datasets, en biedt daarmee een krachtig open alternatief in het landschap van multimodale AI.

Het is van belang te begrijpen dat dergelijke architecturen slechts succesvol zijn wanneer ze gebouwd worden met een fijnmazig begrip van de spanningen tussen visuele granulariteit, semantische uitdrukkingskracht en computationele beperkingen. Multimodale modellen vereisen niet alleen grote rekenkracht, maar ook een principieel andere manier van denken over training: één die gelijktijdig ruw en precies moet zijn. De progressieve benadering is geen simpel schaalbaarheidsvraagstuk, maar een noodzakelijke methodologie om domeinverschillen te overbruggen. Alleen dan kunnen modellen werkelijk conceptuele bruggen bouwen tussen beeld en taal, en functioneren als eenheid in plaats van losse componenten.

Hoe Werkt Open-Vocabulary Object Detectie Met Transformer-modellen?

Open-vocabulary object detectie is een uitdagende taak waarbij een model objecten moet kunnen herkennen zonder dat het expliciet getraind is op elke specifieke klasse. In plaats daarvan wordt gebruikgemaakt van tekstuele beschrijvingen of algemene beeldembeddings om objecten te detecteren die mogelijk niet in de trainingsset zijn opgenomen. In dit hoofdstuk onderzoeken we de werkwijze van OV-DETR (Open-Vocabulary Detection Transformer), een model dat gebruik maakt van de kracht van transformer-gebaseerde architecturen in combinatie met tekstuele en beeldembeddings om objecten in afbeeldingen te herkennen, zelfs als deze objecten behoren tot zeldzame of ongeziene klassen.

Het proces begint met het integreren van de geprojecteerde voorwaardelijke input embeddings (zoals tekstuele of beeld-embedding) in objectvragen, die aanvankelijk onafhankelijk van de klasse zijn. Dit wordt gedaan door middel van een simpele optelling. Deze geconditioneerde objectvragen worden verder aangepast door replicatie van zowel objectvragen als de input-embeddings, wat het model in staat stelt om meerdere objecten in dezelfde afbeelding te detecteren, ongeacht of deze objecten dezelfde of verschillende klassen vertegenwoordigen. Dit is een cruciaal aspect van open-vocabulary object detectie, aangezien veel datasets meerdere objectinstantie’s van verschillende klassen per afbeelding bevatten.

Het toevoegen van voorwaardelijke input embeddings aan objectvragen in de vroege stadia van het model heeft echter beperkingen, vooral wanneer we proberen meerdere objecten van dezelfde klasse in één afbeelding te detecteren. Het is daarom noodzakelijk om de objectvragen meerdere keren te repliceren en de input-embeddings ook meerdere keren te herhalen, voordat de daadwerkelijke conditionering van de queries plaatsvindt. Dit zorgt voor een grotere flexibiliteit en robuustheid van het model tijdens het trainen, vooral voor het afstemmen op zeldzame of nieuwe objectklassen.

Om een effectieve training mogelijk te maken, wordt er een zogenaamde binaire matching loss gebruikt. Deze loss houdt rekening met de mate van overeenstemming van objectvragen met werkelijke objecten in de afbeelding. Het doel van de matching loss is om de modeluitvoer te optimaliseren zodat alle gevonden objecten correct worden geïdentificeerd als 'matched' of 'not matched', afhankelijk van de toegewezen label. Dit voorkomt dat het model verwarring krijgt tussen objecten van verschillende klassen. Bovendien zorgt een extra embed-reconstructiecomponent ervoor dat het model leert om onderscheid te maken tussen verschillende concepten in de feature space door de voorwaardelijke embeddings te reconstrueren.

De training van het model wordt verder verfijnd door verschillende loss-functies te combineren. De uiteindelijke verliesfunctie bestaat uit de combinatie van de matching loss, bounding box loss en embedding reconstructie loss, wat zorgt voor een balans tussen het herkennen van objecten en het nauwkeurig lokaliseren ervan in de afbeelding. De gewogen som van deze losses zorgt ervoor dat het model optimaal presteert tijdens zowel de training als de inferentie.

In de inferentiefase wordt het model gevoed met tekst-embeddings van zowel bekende als nieuwe klassen. Deze embeddings worden gecombineerd met de objectvragen en verder verwerkt in een transformer-decodergedeelte, dat tegelijkertijd objecten uit verschillende klassen kan detecteren. Dit proces is computationally efficiënt doordat de contextrepresentatie slechts één keer wordt berekend en vervolgens gedeeld wordt tussen alle conditional inputs voor de verschillende klassen.

Het succes van OV-DETR is gebleken uit experimenten met datasets zoals LVIS en COCO, waarbij het model presteerde op par met andere open-vocabulary object detectie-methoden zoals OVR-CNN en ViLD. De belangrijkste uitdaging bij open-vocabulary detectie is echter het omgaan met objecten die niet expliciet in de trainingsdata zijn opgenomen. OV-DETR maakt gebruik van tekst- en beeldembeddings die het mogelijk maken objecten te detecteren die ‘onbekend’ zijn tijdens de training, wat het model zeer krachtig maakt in real-world toepassingen.

De kracht van OV-DETR ligt niet alleen in de mogelijkheid om ongeziene objecten te detecteren, maar ook in het feit dat het gebruik maakt van embeddings die afkomstig zijn van CLIP, een model dat tekst en beelden gezamenlijk kan begrijpen. Dit maakt het mogelijk om tekstprompts te gebruiken die specifieke eigenschappen van objecten beschrijven, zoals "er is een vogel in de afbeelding", wat de precisie van het model verhoogt bij het detecteren van objecten op basis van hun beschrijving.

Daarnaast kan het model verder worden aangepast voor specifieke taken, zoals instance segmentation, door een externe, klasse-onafhankelijke segmentatiekop toe te voegen. Deze extensie is noodzakelijk om objecten niet alleen als detecties maar ook als nauwkeurig gedefinieerde segmenten binnen een afbeelding te herkennen.

Wat belangrijk is om te begrijpen, is dat de effectiviteit van open-vocabulary object detectie niet alleen afhankelijk is van de kracht van het model zelf, maar ook van de kwaliteit en diversiteit van de gebruikte embeddings. De keuze van embeddings en de wijze van conditionering van objectvragen bepaalt in hoge mate de algehele prestaties van het model. De betrouwbaarheid van de tekstuele prompts is daarbij van groot belang; de prompts moeten voldoende informatief en representatief zijn voor de objecten die het model moet herkennen, ongeacht of deze objecten uit de trainingsset afkomstig zijn.