Het trainingsproces van multimodale modellen zoals InternVL-Chat vereist het combineren van verschillende datasets die diverse taken en aspecten van beeld- en tekstverwerking bestrijken. De datasets die in dit proces worden gebruikt, omvatten gigantische hoeveelheden gesynchroniseerde beeld- en tekstgegevens die een cruciale rol spelen bij het verbeteren van de modelprestaties. Dit hoofdstuk bespreekt de opbouw van dergelijke datasets, de voorbereidende stappen voor het trainen van het model, en de technieken die worden toegepast om de kwaliteit van de gegevens te waarborgen.

De basis van de training voor InternVL-Chat wordt gelegd door het combineren van meerdere grote datasets, zoals LAION-en, COYO, Wukong, en vele anderen. Deze datasets bevatten biljoenen beeld- en tekstparen, met als doel het creëren van robuuste representaties die in staat zijn om beelden en bijbehorende tekst effectief te verwerken. Na de initiële verzameling van de gegevens volgt een grondige schoonmaak- en filteringsfase waarbij gegevens van lage kwaliteit worden verwijderd. De filters worden op zes belangrijke aspecten toegepast: de overeenkomst tussen de tekst en het beeld, de aanwezigheid van watermerken, de kans op onveilige inhoud, de esthetische score, de resolutie van het beeld, en de lengte van de bijbehorende tekst.

De eerste fase van het proces, die de basis vormt voor de beeld-tekst contrastieve training, maakt gebruik van datasets met een totaal van 6,03 miljard beeld-tekstparen. Na de schoonmaak zijn er 4,98 miljard bruikbare paren over. Dit aantal is essentieel voor het creëren van een stabiel en goed presterend model. De focus ligt op het behouden van een breed scala aan gegevens die representatief zijn voor diverse taal- en visuele elementen, zodat het model in staat is om te generaliseren over verschillende contexten.

Tijdens de tweede fase, de incrementele pre-training, wordt het model verder verfijnd door het gebruik van datasets die een verscheidenheid aan taken bestrijken, zoals beeldbeschrijving, objectdetectie, en tekstherkenning (OCR). Het gebruik van OCR-gegevens, bijvoorbeeld uit de Wukong en LAION-COCO datasets, is van cruciaal belang voor het trainen van het model om tekst in afbeeldingen te begrijpen. Dit is van bijzonder belang voor de modelprestaties in scenario's waarin de tekst zelf niet expliciet wordt vermeld, maar geïmpliceerd of weergegeven is binnen het visuele domein van een afbeelding. Gedurende deze fase wordt het model voortdurend blootgesteld aan verschillende typen multimodale gegevens, wat zorgt voor een bredere en veelzijdigere training.

In de derde fase, de gecontroleerde fine-tuning (SFT), wordt het model verder geoptimaliseerd voor specifieke taken. Dit gebeurt door het gebruik van zorgvuldig geselecteerde datasets die zich richten op specifieke vraagstukken zoals algemene vraag-antwoord taken (VQA), wetenschappelijke beeldinterpretatie, en zelfs wiskundige en grafiekvragen. Hier wordt het model blootgesteld aan datasets die een hoger niveau van complexiteit en domeinspecifieke kennis vereisen. De SFT-fase zorgt ervoor dat het model niet alleen goed presteert op algemene multimodale taken, maar ook in staat is om meer gespecialiseerde en gedetailleerde scenario's te begrijpen en erop te reageren.

Een belangrijk aspect van dit proces is de integratie van verschillende talen en domeinen. Het gebruik van meertalige datasets, zoals Laion-EN, Laion-ZH en ShareGPT4V, zorgt ervoor dat het model niet alleen Engelse, maar ook Chinese en andere taalinhouden effectief kan verwerken. Dit maakt het model geschikt voor gebruik in een wereldwijd bereik, waarbij het in staat is om te communiceren en informatie te extraheren uit zowel visuele als tekstuele bronnen in verschillende talen.

Het is essentieel te begrijpen dat de training van zulke modellen geen eenvoudige taak is, gezien de enorme hoeveelheid data die wordt verwerkt en de complexiteit van de taken die het model moet uitvoeren. Elk van de gebruikte datasets draagt bij aan het vermogen van het model om beelden en tekst op een diepgaande en contextbewuste manier te begrijpen. Het trainen van een dergelijk model vereist een zorgvuldige afstemming van de gegevens, technieken en architecturen om ervoor te zorgen dat het model optimaal presteert.

Naast de gebruikte datasets moeten er ook belangrijke overwegingen zijn rondom de ethische implicaties van multimodale training. Het gebruik van grote hoeveelheden gegevens brengt de uitdaging met zich mee om vooroordelen in de data te identificeren en te elimineren, evenals de noodzaak om te zorgen voor de privacy van de gebruikte gegevens. Dit zorgt ervoor dat de getrainde modellen zowel nuttig als ethisch verantwoord blijven.

Hoe worden ruis en detail in beeldgeneratie gescheiden door Diffusion U-Net?

Het begrijpen van de interne eigenschappen van diffusiemodellen is tot dusver grotendeels onderbelicht gebleven. Een van de meest veelbelovende invalshoeken voor een diepgaander inzicht is frequentieanalyse, een beproefde techniek binnen deep learning die eerder succesvol is toegepast bij het analyseren van GANs. Binnen deze context biedt de studie van diffusiemodellen in het Fourier-domein een unieke blik op hoe ruis wordt verwijderd tijdens het generatieproces van beelden. De centrale rol wordt hierbij gespeeld door de U-Net architectuur, die als denoiser fungeert in het samplingproces.

Het beeldgeneratieproces begint typisch vanuit een Gaussisch ruispatroon. Via het omgekeerde diffusieproces beweegt het model zich stapsgewijs richting een coherent beeld. Elke stap is afhankelijk van het denoisemodel, doorgaans een tijd-conditionele U-Net, die het doel heeft om de toegevoegde ruis zo accuraat mogelijk te verwijderen. Hoe effectiever deze ruisonderdrukking verloopt, hoe hoger de visuele kwaliteit van het eindbeeld.

Een analyse van het denoiseproces in het Fourier-domein onthult een opvallend onderscheid tussen de behandeling van lage en hoge frequentiecomponenten. De lage frequenties, die staan voor globale structuur en vloeiende kleurovergangen, veranderen zeer geleidelijk tijdens het denoisen. Dit is logisch: deze componenten vormen de ruggengraat van het beeld, en abrupte veranderingen zouden het globale karakter van het beeld verstoren. Daarentegen worden de hoge frequenties, die verantwoordelijk zijn voor textuur, randen en fijne details, veel sterker beïnvloed door het ruisproces. Ze vertonen uitgesproken fluctuaties, wat erop wijst dat ze gevoeliger zijn voor verstoringen door ruis – en dus ook meer aandacht vereisen bij het verwijderen ervan.

De U-Net architectuur speelt hierin een cruciale rol. Deze bestaat uit een encoder-decoder structuur waarbij de informatie via zogenaamde "skip connections" ook lateraal wordt doorgegeven. Om de specifieke bijdragen van beide componenten — het backbone-netwerk en de skipverbindingen — te onderscheiden, werd een experiment uitgevoerd waarin schaalfactoren werden toegepast op de respectieve feature maps. De resultaten tonen aan dat het versterken van de backbone aanzienlijk bijdraagt aan de beeldkwaliteit, terwijl veranderingen in de skipverbindingen nauwelijks effect sorteren. Dit impliceert dat het denoisingvermogen voornamelijk geconcentreerd zit in het backbone-gedeelte van het netwerk.

Wanneer de schaalfactor van de backbone toeneemt, neemt ook de onderdrukking van de hoge frequentiecomponenten toe. Beelden die gegenereerd worden met een lage schaalfactor tonen zichtbare ruisartefacten, terwijl bij hogere waarden de beelden beduidend helderder en consistenter zijn. De backbone fungeert dus als een krachtige frequentiefilter die in staat is om storende hoge frequenties effectief te onderdrukken, zonder de essentiële lage frequenties aan te tasten.

De skipverbindingen daarentegen brengen een interessante dynamiek met zich mee. Deze overbruggen de encoder en decoder en dragen vooral hoge frequentie-informatie over. Hoewel deze componenten niet wezenlijk bijdragen aan de ruisonderdrukking, zijn ze waarschijnlijk essentieel voor het behoud van detail en textuur. De hypothese luidt dat tijdens de training van de U-Net, het model leert om deze ruwe high-frequency features als een soort detailreservoir te gebruiken, terwijl de backbone zich richt op globale coherentie en ruisverwijdering.

De implicaties van deze bevindingen zijn verstrekkend. Ze suggereren dat het optimaliseren van de backbone los van de skipverbindingen een directe weg is naar betere prestaties, zonder dat aanvullende training of fine-tuning noodzakelijk is. De benadering die dit mogelijk maakt — genaamd FreeU — maakt gebruik van een eenvoudige rescaling van interne netwerkelementen, en fungeert zo als een ‘gratis’ upgrade van het bestaande model.

Wat hierbij belangrijk is om te beseffen, is dat deze inzichten niet enkel bijdragen aan betere beeldkwaliteit, maar ook aan een fundamenteel begrip van de werking van diffusiemodellen zelf. De ontdekking dat de backbone de rol van frequentiefilter vervult, legt de basis voor toekomstige verbeteringen in modelarchitectuur, waarbij de scheiding tussen structuur en detail niet slechts een emergente eigenschap is, maar een expliciet ontwerpdoel. Bovendien opent het de deur naar efficiëntere en stabielere trainingsstrategieën, waarin verschillende frequentiebanden apart kunnen worden behandeld of gewogen.