De opkomst van grote taalmodellen (LLMs) heeft de weg vrijgemaakt voor de ontwikkeling van multimodale kunstmatige algemene intelligentie (AGI)-systemen, die in staat zijn om complexere taken uit te voeren door tekst en visuele informatie te integreren. Deze vooruitgang heeft echter niet gelijke tred gehouden met de ontwikkelingen in vision-language foundation modellen, die net zo cruciaal zijn voor de vooruitgang van multimodale systemen. Vision-language modellen moeten in staat zijn om visuele waarneming en tekstuele informatie te combineren, wat essentieel is voor toepassingen zoals multimodale dialogen, visuele taakuitvoering en de verwerking van beelden in natuurlijke taalcontexten.

Het verschil in prestaties tussen commerciële en open-source vision-language modellen is duidelijk zichtbaar. Terwijl commerciële modellen zoals GPT-4V en de Gemini-serie de mogelijkheid hebben om te werken met meer dan 100 miljard parameters, gebruiken open-source modellen vaak visuele modellen met slechts 300 miljoen parameters. Dit maakt dat open-source modellen over het algemeen niet kunnen profiteren van de capaciteiten van de LLM's op dezelfde manier als commerciële systemen. Bovendien heeft dit effect op de visuele representaties, die inconsistent kunnen zijn in vergelijking met de tekstuele representaties van LLM’s, wat kan leiden tot suboptimale prestaties, vooral bij complexere multimodale taken.

Daarnaast wordt er in commerciële modellen vaak gebruik gemaakt van dynamische resoluties bij beeldverwerking, wat betekent dat de originele beeldverhouding behouden blijft en gedetailleerde scènes en documenten beter begrepen kunnen worden. Dit is een aspect dat open-source modellen vaak niet ondersteunen, aangezien deze doorgaans werken met vaste resoluties, zoals 336×336 of 448×448. Het gebruik van dynamische resoluties stelt commerciële modellen in staat om beelden met meer detail en nuance te verwerken, wat resulteert in een aanzienlijk betere prestaties bij taken die visuele precisie vereisen.

Een ander belangrijk aspect is de meertaligheid. Commerciële modellen maken gebruik van uitgebreide meertalige datasets, waardoor ze beter presteren in verschillende talen en meer diverse contexten kunnen begrijpen. Open-source modellen, die vooral gericht zijn op Engelstalige data, hebben moeite om goed te presteren in niet-Engelse scènes en optische tekenherkenningstaken (OCR). Dit komt doordat open-source modellen vaak afhankelijk zijn van de zero-shot capaciteiten van de LLM’s om andere talen te verwerken, wat de prestaties beperkt bij complexe visuele en taalkundige integratie.

Om het prestatietekort tussen commerciële en open-source vision-language modellen te verkleinen, is er behoefte aan modellen die zowel in schaal als in vermogen overeenkomen met de kracht van LLM’s. Dit kan worden bereikt door de visuele encoder te schalen zodat deze de parameter schaal van LLM’s benadert. Vervolgens moet er een afstemming tussen de visuele en tekstuele representaties plaatsvinden, zodat deze goed op elkaar kunnen aansluiten en gezamenlijk krachtige multimodale systemen vormen. Dit vereist echter toegang tot enorme hoeveelheden afbeeldings-tekstdata van internet, die niet alleen breed maar ook van hoge kwaliteit moeten zijn.

Naast deze technische uitdagingen, zijn er ethische en maatschappelijke vraagstukken die niet uit het oog verloren mogen worden. Het is van groot belang dat de gebruikte datasets representatief zijn voor de diversiteit van de wereld en dat er maatregelen worden genomen om bias en discriminatie in de modellen te voorkomen. Er is bijvoorbeeld al aandacht voor de manier waarop AI-systemen kunnen bijdragen aan ongelijke representatie van diverse gemeenschappen. Daarom moet het ontwerp van dergelijke modellen niet alleen gericht zijn op prestaties, maar ook op eerlijkheid en inclusiviteit. Het ontwikkelen van vision-language modellen die eerlijk en neutraal zijn, is een grote uitdaging, maar ook een cruciale stap voor het realiseren van betrouwbare en ethische multimodale AGI-systemen.

Voor de toekomst is het essentieel om modellen te creëren die niet alleen krachtig en accuraat zijn, maar ook geschikt voor een breed scala aan toepassingen. Dit betekent dat vision-language modellen steeds meer zullen moeten evolueren naar systemen die robuust genoeg zijn om te functioneren in dynamische en ongestructureerde omgevingen. Denk hierbij aan real-time toepassingen waarbij de integratie van beeld- en tekstgegevens op een natuurlijke en efficiënte manier plaatsvindt, zoals in zelfrijdende auto's, robotica en gepersonaliseerde medische toepassingen.

Wat maakt InternVL onderscheidend in Vision-Language taken?

InternVL vertegenwoordigt een indrukwekkende vooruitgang op het gebied van visuele en linguïstische integratie binnen kunstmatige intelligentie. De prestaties van dit model worden gemeten aan de hand van verschillende benchmarks die de robuustheid en veelzijdigheid van zijn capaciteiten aantonen. In deze context worden zowel zero-shot als multimodale taken geëvalueerd, waarbij InternVL consistent uitblinkt in vergelijking met andere modellen.

Een van de opvallendste kenmerken van InternVL is zijn sterke prestaties op zero-shot beeldclassificatie. Dit houdt in dat het model in staat is om beelden te classificeren zonder voorafgaande training op specifieke datasets. In een vergelijking met andere geavanceerde modellen zoals EVA-02-CLIP-E+, laat InternVL een opmerkelijke robuustheid zien, met name bij het omgaan met verschuivingen in distributie van beeldgegevens, wat resulteert in consistentere prestaties bij varianten van ImageNet. Dit vermogen om zonder specifieke afstemming goed te presteren is cruciaal voor toepassingen waarbij snel nieuwe data geanalyseerd moeten worden, zonder tijd te besteden aan uitgebreid hertrainen van modellen.

De nulshot prestaties van InternVL worden niet alleen bereikt in beeldclassificatie, maar ook in tekst-beeld retrieval, een taak waarbij het model relevante beelden op basis van tekstuele beschrijvingen moet ophalen. Bij het gebruik van Engelse en Chinese datasets, zoals Flickr30K en COCO, overtreft InternVL concurrenten qua retrieval resultaten, vooral als het gaat om het genereren van de meest relevante beelden bij gegeven tekstprompts. Dit is een belangrijke eigenschap voor toepassingen in meertalige omgevingen, waar snelheid en nauwkeurigheid essentieel zijn.

Wat betreft video-classificatie toont InternVL een aanzienlijke vooruitgang in vergelijking met bestaande modellen, zoals OpenCLIP en EVA-02-CLIP-E+. Wanneer slechts één enkel frame uit een video wordt genomen, behaalt het model hogere nauwkeurigheden dan zijn tegenhangers. Wanneer meerdere frames worden bemonsterd, neemt de nauwkeurigheid zelfs nog verder toe, wat de flexibiliteit en schaalbaarheid van het model in dynamische, tijdgevoelige omgevingen benadrukt.

Daarnaast is de multimodale evaluatie van InternVL bijzonder relevant voor taken die verder gaan dan traditionele beeld-tekst associatie. Het model presteert uitstekend op verschillende OCR-gerelateerde benchmarks zoals documentcomprehensie (DocVQA), grafiekbegrip (ChartQA) en infografiekbegrip (InfographicVQA). Deze vaardigheden maken InternVL bijzonder geschikt voor toepassingen in documentanalyse, gegevensvisualisatie en zelfs het interpreteren van complexere visuele gegevens.

Bij de algemene multimodale evaluaties, die tests omvatten zoals MME (Multimodal Evaluation), RealWorldQA, en AI2D, blijkt InternVL in staat om een breder scala aan taken aan te pakken, van eenvoudige visuele perceptie tot complexere cognitieve taken. Het model toont zijn sterkte bij het combineren van visuele waarnemingen met semantische en contextuele verwerking, wat van cruciaal belang is voor een diepere en meer geïntegreerde interpretatie van gegevens in uiteenlopende omgevingen.

Naast de technische prestaties zijn de toepassingen van InternVL veelzijdig. In de praktijk kunnen bedrijven en onderzoekers gebruikmaken van dit model voor alles, van geavanceerde beeldherkenning en -classificatie, tot interactieve zoekfunctionaliteiten die visuele en tekstuele input combineren. De robuustheid van het model in zowel Engelstalige als meertalige omgevingen maakt het bovendien geschikt voor wereldwijde toepassingen, waarbij taalbarrières geen belemmering vormen voor de effectiviteit van het model.

Het belang van het verder verfijnen van de trainingsdata en het evalueren van verschillende varianten van de ImageNet-datasets kan niet genoeg benadrukt worden. Hoewel de prestaties van InternVL indrukwekkend zijn, blijft het een uitdaging om modellen verder te optimaliseren voor verschillende domeinen, zoals visuele zoekmachines, medische beeldanalyse en robotica. Door een bredere variëteit aan data in de training te betrekken, kan InternVL mogelijk nog verder gepersonaliseerd en geoptimaliseerd worden voor specifieke industrieën.

Hoe verbeteren multimodale video foundation-modellen video- en tekstanalyse en welke beperkingen blijven bestaan?

De integratie van multimodale gegevens — video, audio en tekst — in foundation-modellen zoals InternVideo2 toont significante vooruitgang in videoanalyse en -begrip. Door gebruik te maken van gecombineerde tekstinformatie afkomstig uit video, audio en spraak (zogenaamde ‘fused text’) wordt de nauwkeurigheid van zero-shot tekst-naar-video retrieval-taken merkbaar verbeterd. Zo stijgt bijvoorbeeld de R@1-score op MSR-VTT van 24,7 naar 27,1, wat de kracht van multimodale fusie onderstreept. Daarnaast blijkt dat een verfijnde temporele segmentatiemethode, AutoShot, beter presteert dan eerdere methodes zoals SceneDet, met een verbetering van bijna zeven punten in dezelfde score. Deze resultaten bevestigen dat zorgvuldig samengestelde datasets en geavanceerde annotatietechnieken cruciaal zijn voor het verhogen van de prestaties van video foundation-modellen.

InternVideo2 combineert verschillende trainingsstrategieën, waaronder masked video modeling, video–audio–tekst contrastieve leermethoden en next token prediction, in een geïntegreerd raamwerk. Dit stelt het model in staat niet alleen perceptuele taken uit te voeren, maar ook complexe redeneervragen rond video-inhoud te beantwoorden, wat zich vertaalt in uitmuntende prestaties bij dialogen over video en het begrijpen van lange videosequenties. Het model legt hierbij de nadruk op het behouden van hoge semantische consistentie in temporeel gesegmenteerde clips, wat essentieel is voor diepgaande video-analyse.

Ondanks deze verbeteringen brengt InternVideo2 geen fundamenteel nieuwe architectuur met zich mee; de vooruitgang wordt vooral geboekt door optimalisatie van datarepresentatie en trainingsmethoden. Toch blijft het model beperkt door vaste inputresoluties, samplefrequenties en het gebruik van sterk gecomprimeerde tokens, wat de weergave van fijne details en rijke videoinformatie beperkt. Daarnaast vormt de schaalbaarheid van het trainingsproces een uitdaging, vooral wanneer rekenkracht beperkt is. Dit maakt het moeilijk om gelijktijdig alle leermethoden op maximale schaal te benutten.

Een belangrijk aandachtspunt is dat het model ondanks zijn hoge prestaties niet per definitie beschikt over een consistent ‘implliciet wereldmodel’ voor visueel redeneren. De complexiteit van visuele redeneertaken en de beperking van statische inputrepresentaties verhinderen een volledig en samenhangend begrip van visuele contexten, wat de toepasbaarheid in situaties die diepgaande interpretatie vereisen kan beperken.

Wat ook niet over het hoofd mag worden gezien, is de inherente aanwezigheid van bias in foundation-modellen zoals InternVideo2. Analyse van de datasets laat zien dat de synthetische captions een scheve representatie geven van leeftijd (voornamelijk volwassenen), gender (meer mannen dan vrouwen) en etniciteit (oververtegenwoordiging van Aziatische individuen). Aangezien deze biases voortkomen uit de trainingsdata en de gebruikte taal- en neurale modellen, kunnen ze in de output leiden tot vooringenomen of oneerlijke resultaten. Dit heeft maatschappelijke implicaties en benadrukt de noodzaak van zorgvuldige overwegingen bij het toepassen van dergelijke modellen, evenals het implementeren van maatregelen om bias te verminderen en eerlijkheid te waarborgen.

Naast de technische vooruitgang vraagt de ontwikkeling van multimodale video foundation-modellen om inzicht in de complexiteit van dataverwerking, modeloptimalisatie en ethische overwegingen. Het model leert niet alleen van multimodale signalen, maar de keuze en kwaliteit van deze data bepalen in sterke mate de prestaties en beperkingen ervan. Daarom is een grondige evaluatie van de gebruikte datasets en annotaties van wezenlijk belang om betrouwbaarheid te waarborgen.

Verder is het cruciaal te beseffen dat het verfijnen van video-LLM’s (Large Language Models) een delicaat evenwicht vereist tussen modelcomplexiteit, rekenmiddelen en schaalbaarheid. Het combineren van meerdere leermethoden binnen één framework biedt veel potentie, maar brengt ook praktische beperkingen met zich mee die invloed hebben op de generaliseerbaarheid en robuustheid van het model.

Het continue streven naar verbetering in multimodale modellen zoals InternVideo2 opent nieuwe mogelijkheden voor toepassingen in videozoekopdrachten, automatische ondertiteling, interactieve videodialogen en geavanceerde video-analyse. Tegelijkertijd benadrukt het de blijvende uitdagingen rond het behalen van een diepgaand, consistent visueel begrip en het aanpakken van ethische kwesties rond bias en eerlijkheid.

Hoe samenwerkende diffusie-modellen multimodale gezichtsherkenning en bewerking mogelijk maken zonder hertraining

In dit hoofdstuk bespreken we het concept van collaboratieve diffusie, een innovatieve benadering waarbij vooraf getrainde unimodale diffusie-modellen gezamenlijk multimodale gezichtsherkenning en -bewerking mogelijk maken, zonder dat er een hertraining van de modellen nodig is. Dit vormt een belangrijke vooruitgang in het genereren en bewerken van gezichten, aangezien het gebruik van enkel unimodale modellen in staat is om zeer geavanceerde multimodale taken uit te voeren, mits ze op de juiste manier samenwerken. Het proces van collaboratieve diffusie is bijzonder relevant voor toepassingen die verschillende modaliteiten, zoals tekst, geluid en beelden, combineren in een enkele taak.

Met behulp van een dynamische diffuser kan dit raamwerk worden toegepast om elke unimodale benadering uit te breiden naar een multimodale paradigma. Dit wordt mogelijk gemaakt door de voorspelling van de relatieve invloed van verschillende modaliteiten in het genereren van beelden of het bewerken van bestaande beelden. Het idee om unimodale modellen te synergiseren voor multimodale taken biedt veel potentieel voor toekomstige ontwikkelingen in verschillende domeinen, waaronder de generatie van beweging en 3D-structuren.

De kracht van deze aanpak ligt in de flexibiliteit van de diffusie-modellen, die in staat zijn om relevante informatie uit verschillende modaliteiten te combineren zonder dat ze hoeven te worden getraind op gecombineerde datasets. Het vermogen om multimodale data te integreren biedt enorme mogelijkheden voor de beeldgeneratie en bewerking, waardoor een breed scala aan toepassingen mogelijk wordt. Dit concept is niet alleen interessant voor de gezichtsherkenning en -bewerking, maar ook voor tal van andere creatieve toepassingen, zoals kunst en ontwerp, waar de samenwerking van verschillende modaliteiten nieuwe vormen van expressie mogelijk maakt.

Bovendien kunnen de kennis en technieken die hier besproken worden, verder worden toegepast in de context van generative modellen, zoals GAN’s (Generative Adversarial Networks) en VAEs (Variational Autoencoders), die vaak afhankelijk zijn van gesuperviseerde training. De mogelijkheid om pre-getrainde modellen voor verschillende taken samen te brengen, zonder dat volledige hertraining nodig is, biedt aanzienlijke voordelen in termen van efficiëntie en rekenkracht. Dit maakt het niet alleen mogelijk om de prestaties van bestaande systemen te verbeteren, maar ook om ze toe te passen in real-time scenario’s met minimale vertraging.

Als lezer is het belangrijk om te begrijpen dat de toepassingen van collaboratieve diffusie veel verder gaan dan gezichtsherkenning en -bewerking. Dit concept heeft het potentieel om generative AI in zijn geheel te transformeren, vooral op gebieden waar verschillende soorten data tegelijkertijd verwerkt moeten worden. Het samenspel van verschillende modaliteiten – zoals tekst, geluid en beeld – kan de weg vrijmaken voor toepassingen die in de toekomst waarschijnlijk steeds meer op elkaar afgestemde en natuurlijke interacties zullen bevatten. Terwijl de meeste huidige benaderingen gericht zijn op de verwerking van één type input (bijvoorbeeld tekst naar beeld), maakt collaboratieve diffusie een robuustere en veelzijdigere interactie mogelijk.

In de toekomst kan deze benadering ook waardevol zijn voor toepassingen buiten de creatieve industrie, bijvoorbeeld in de geneeskunde, waar multimodale data essentieel zijn voor het stellen van diagnoses, of in de robotica, waar het combineren van visuele, sensorische en auditieve gegevens essentieel is voor autonome besluitvorming.