Datasettene som benyttes i utviklingen av store multimodale AI-modeller er avgjørende for både ytelsen og generaliserbarheten til modellene. I dette arbeidet benytter man seg av en rekke forskjellige datasett, som inkluderer tekst-bildedata for å skape robust treningsgrunnlag. Et sentralt aspekt ved å forberede slike datasett er å sikre kvaliteten på dataene gjennom grundig filtrering, slik at kun de mest relevante og nøyaktige dataene benyttes i treningen.

I den første fasen av forberedelsen, som kan betegnes som pre-trening, benyttes datasett som LAION-en, LAION-COCO, COYO og Wukong, som alle inneholder store mengder bilde-tekst-par på tvers av flere språk. Disse datasettene, som omfatter et mangfoldig spekter av innhold, blir behandlet for å fjerne ekstremt lavkvalitetsinnhold. Etter filtreringen blir datasettene reduserte fra 6,03 milliarder bilde-tekst-par til 4,98 milliarder. Dette skjer gjennom en prosess som involverer flere filtreringskriterier, som for eksempel vurdering av bildenes oppløsning, sikkerhetsrisikoer, estetiske vurderinger og lengden på bildetekstene.

Bildene som inngår i disse datasettene blir først tilpasset i forhold til forhåndsdefinerte forholdstall. Når et bilde er valgt, blir det endret i størrelse for å passe et av de 35 definerte forholdstallene. Deretter deles bildet opp i små fliser, som gjør det lettere for AI-modellen å analysere detaljene i hvert bilde. Samtidig inkluderes et miniatyrbilde av hele bildet, som bidrar til å forstå det globale innholdet i bildet. Denne flisedelingen gjør det mulig for modellen å arbeide med flere visuelle token, som kan variere fra 256 til 3 328 under treningen, og opp til 10 496 under testing.

Når dataene har blitt forberedt på denne måten, går man videre til den neste fasen av treningen, som involverer inkrementell pre-trening. I denne fasen benyttes ytterligere datasett som spenner over ulike oppgaver, fra bildebeskrivelser og objektgjenkjenning til optisk tegnlesing (OCR). Her benyttes spesifikke datasett som TextCaps, VQAv2, og Objects365, samt datasett som fokuserer på tekstgjenkjenning fra bilder, som Wukong-OCR og LaionCOCO-OCR. Gjennom en slik samling av datasett lærer modellen å håndtere flere oppgaver samtidig, for eksempel å generere bildetekster på flere språk, utføre spørsmålsbesvarelse basert på visuelle elementer, samt å analysere og tolke tekstinnhold fra bilder.

Videre, i den siste fasen av treningen, gjennomgår modellen en supervisert finjustering (SFT). Her benyttes mer spesifikke datasett som TextVQA, VisualDialog, og COCO-Text, som utfordrer modellen til å besvare spørsmål relatert til bilder og tekst, og til å håndtere ulike typer komplekse oppgaver som matematikkproblemer og vitenskapelige diagrammer. I tillegg benyttes datasett som RefCOCO og Visual Genome for å trene modellen til å kunne lokalisere objekter i bilder nøyaktig.

Gjennom denne grundige og flerfasede treningsprosessen blir AI-modellen i stand til å utføre en rekke ulike multimodale oppgaver, fra bildebeskrivelser og tekstgjenkjenning til å analysere komplekse diagrammer og delta i samtaler. Dette gir et solid grunnlag for utviklingen av AI-modeller som kan håndtere både tekst- og bildeinformasjon på en effektiv og nøyaktig måte, noe som er avgjørende for fremtidens teknologi.

En viktig innsikt som bør tas med i betraktningen er at dataenes mangfoldighet og kvalitet er avgjørende for modellens kapasitet til å generalisere til forskjellige oppgaver. Ved å inkludere et bredt spekter av datasett som representerer ulike språk, visuelle stilarter og oppgaver, kan man sikre at modellen lærer å forstå og håndtere ulike kontekster på en helhetlig måte. Dette er essensielt for å utvikle AI-systemer som kan anvendes på tvers av forskjellige domener, fra automatisert bildebeskrivelse til avansert spørsmålsbesvarelse og komplekse vitenskapelige analyser.

Hvordan kan vi forbedre kalibreringen av tillit i kontrastive visjon-språkmodeller?

En av de sentrale utfordringene innen kunstig intelligens, spesielt i konteksten av multimodale visjon-språkmodeller, er evnen til å justere og kalibrere tillit på tvers av forskjellige oppgaver og domener. Når en modell gjør en prediksjon eller klassifisering, er det ikke bare viktig å få et riktig svar, men også å kunne vurdere hvor pålitelig dette svaret er. Dette er spesielt viktig når man anvender modeller som CLIP (Contrastive Language-Image Pretraining), som benytter seg av både bilder og tekst for å utføre oppgaver som bildegjenkjenning, tekstbeskrivelse og objektklassifisering.

I kontrastive modeller, der tekst og bilder knyttes sammen, er det et klart behov for mer sofistikerte metoder for å sikre at prediksjonene ikke bare er riktige, men også at de er tillitsfulle. Tradisjonelle metoder for kalibrering har ikke alltid vært nok til å møte kravene til pålitelighet, særlig i scenarier med komplekse eller ukjente data. Denne artikkelen fokuserer på teknikker og strategier for å forbedre kalibreringen av tillit i kontrastive visjon-språkmodeller, med særlig vekt på praktiske tilnærminger som kan brukes for å forbedre ytelsen i virkelige applikasjoner.

Et viktig steg i kalibreringen er å forstå hva som menes med "tillit" i denne konteksten. I tradisjonelle maskinlæringsmodeller refererer tillit vanligvis til sannsynligheten for at en bestemt prediksjon er korrekt. I kontrastive visjon-språkmodeller er dette begrepet mer komplekst, ettersom prediksjonene ofte involverer både bilder og tekst. For eksempel, når CLIP brukes til å matche et bilde med en tekstbeskrivelse, er det ikke bare viktig at matchen er nøyaktig, men at vi også vet hvorvidt modellen er sikker på at denne matchen er riktig. Dette innebærer en dyptgående forståelse av modellens interne usikkerhet og hvordan denne kan måles og justeres.

En av de mest lovende metodene for å forbedre kalibreringen er ved å bruke ekstern informasjon, som for eksempel kontekstuelle ledetråder eller tilleggsdata, for å justere modellens prediksjoner. Dette kan innebære bruk av ekstra informasjon fra andre datakilder eller metoder for å justere modellens selvsikkerhet basert på tidligere erfaringer og historikk.

Et annet viktig aspekt er utviklingen av spesifikke teknikker for å tilpasse modellene til nye domener. Dette innebærer blant annet bruk av åpen vokabularbasert kalibrering, der modellen er i stand til å generalisere prediksjonene sine til nye, ikke-sette objekter og kategorier. For eksempel, mens en modell som er trent på et begrenset datasett kanskje kan gjøre nøyaktige prediksjoner innenfor de kjente kategoriene, vil en åpen vokabularmetode kunne tillate modellen å gjøre pålitelige vurderinger på tvers av et mye bredere spekter av objekter, uten at det nødvendigvis kreves et omfattende omtrening.

Praktiske eksperimenter viser at ved å justere kalibreringen dynamisk basert på typen data og prediksjonens kontekst, kan man oppnå betydelige forbedringer i modellens ytelse. Det har blitt vist at slike teknikker forbedrer presisjonen og påliteligheten, ikke bare i laboratorieinnstillinger, men også i virkelige applikasjoner hvor forholdene er mer varierte og mindre kontrollerte.

Det er også viktig å merke seg at kalibrering ikke bare handler om å justere tilliten til eksisterende prediksjoner, men også om å utvikle metoder for å håndtere feil og usikkerhet. Et stort problem med tradisjonelle metoder er at de noen ganger kan gi høye tillitsnivåer for feilaktige prediksjoner. Dette kan føre til farlige konsekvenser, spesielt i applikasjoner som helsevesen eller autonom kjøretøy. For å unngå dette er det viktig å utvikle metoder som ikke bare vurderer om en prediksjon er korrekt, men også hvorvidt modellens vurdering er pålitelig gitt usikkerheten som kan være til stede.

Videre er det avgjørende å forstå hvordan forskjellige typer data kan påvirke kalibreringen av tillit. For eksempel, bilder av dårlig kvalitet eller med uvanlige objekter kan føre til at modellen gir lavere tillit til sine prediksjoner. Dette må tas i betraktning ved utvikling av robuste kalibreringsmetoder som er i stand til å håndtere en rekke utfordringer i virkelige scenarier.

Avslutningsvis er kalibrering av tillit i kontrastive visjon-språkmodeller et kritisk område for videre forskning og utvikling. Selv om det allerede finnes avanserte teknikker for å håndtere dette problemet, gjenstår det fortsatt utfordringer, spesielt når det gjelder å håndtere kompleksiteten i virkelige applikasjoner. Det er derfor viktig å fortsette arbeidet med å utvikle metoder som kan gi nøyaktige og pålitelige prediksjoner på tvers av ulike domener, og som kan sikre at disse prediksjonene er kalibrert i henhold til modellens faktiske tillit.

Hvordan InternVideo2 Reformer Videoforståelse gjennom Multimodal Læring

InternVideo2 representerer et gjennombrudd innen multimodal læring, og kombinerer innovasjoner innen video- og tekstmodeller for å levere imponerende resultater på tvers av flere video- og lydoppgaver. Denne modellen integrerer maskert videomodellering, kontrastiv læring for video-lyd-tekst, og prediksjon av neste token i en helhetlig rammeverk som er spesielt utviklet for å forbedre forståelsen av videoer både i perceptuelle og resonnement-relaterte oppgaver.

Et bemerkelsesverdig aspekt ved InternVideo2 er hvordan den benytter seg av tekst fra video, lyd og tale, og kombinerer disse kildene for å oppnå de beste resultatene i ulike oppgaver relatert til videoinnhenting. Et konkret eksempel på dette er hvordan kombinasjonen av tekst fra video, audio og tale (fused text) fører til en betydelig forbedring i resultatene for oppgaven «zero-shot text-to-video» (t2v) retrieval. Ved å bruke dette tilnærming oppnås en forbedring av R@1-scoren fra 24.7 til 27.1 på MSR-VTT. I tillegg viste det seg at AutoShot, som brukes til tidssegmentering, er langt mer effektivt enn SceneDet for t2v innhenting, og øker R@1-scoren med nesten 7 poeng. Dette understreker den positive innvirkningen som den nye video-tekst datasettet og annoteringsmetodene har hatt på modellens ytelse.

Videre har det blitt påvist at integreringen av spørsmål i QFormer under opplæring i Stage 3 gir betydelig forbedring på NextQA-datasettet, men faktisk har det en negativ effekt på ut-av-domeneytelsen til den utvidede VideoLLM-modellen. Dette indikerer at inkluderingen av spørsmål under instruksjonsfinjusteringen kan føre til overtilpasning, spesielt på de dataene modellen har blitt trent på. Denne innsikten er viktig for å forstå hvordan små justeringer i opplæringsprosessen kan påvirke modellens ytelse på tvers av ulike datatyper og domener.

InternVideo2 fremstår som et solid eksempel på hvordan vi kan forbedre multimodal læring ved å fokusere på datahåndtering og modelleringsteknikker for å forbedre både den romlige og tidsmessige oppfattelsen av video, samt semantisk tilpasning og innkapsling av grunnleggende kunnskap. Modellen har vist seg spesielt dyktig på oppgaver relatert til dialoger om videoer og forståelse av lange videoer, og fremhever dens evne til å fange høynivå semantikk.

Likevel er det viktig å merke seg at InternVideo2 ikke representerer en fundamentalt ny arkitekturell design, men snarere en videreutvikling av eksisterende læringsteknikker som fokuserer på å forbedre datahåndtering og ressursoptimalisering. Til tross for betydelige fremskritt, møter InternVideo2 utfordringer knyttet til faste inngangsresolusjoner, samplingshastigheter og sterkt komprimerte tokens, noe som kan begrense modellens evne til å uttrykke detaljert videoinformasjon og fange fine detaljer. Dette kan føre til en viss forenkling av den visuelle forståelsen, spesielt på komplekse visuelle resonnement oppgaver.

Et annet område som krever oppmerksomhet er de potensielle skjevhetene som kan arves fra treningsdataene. I analysene som ble utført, ble det identifisert skjevheter relatert til alder, kjønn og rasefordelinger i datasettet brukt til trening av modellen. For eksempel refererer 86,99% av bildetekstene til voksne, mens bare 12,87% refererer til barn. Det er også en overvekt av beskrivelser av menn (62,04%) sammenlignet med kvinner (37,96%), og når det gjelder etnisitet, beskrives 56,19% av tekstene som asiatiske, 23,04% som svarte, og 14,55% som hvite. Denne skjevheten kan føre til feilaktige eller diskriminerende resultater i den virkelige verden, og det er avgjørende at det tas aktive skritt for å redusere skjevheter og sikre rettferdighet i bruken av modellen.

Til tross for disse utfordringene, gir InternVideo2 verdifull innsikt i hvordan store multimodale språkmodeller kan utvikles og brukes for video- og lydforståelse, og peker på viktigheten av nøye vurdering av skjevheter, datavalidering og modelljustering for å oppnå mer pålitelige og rettferdige resultater.

Hvordan Vision-Language Models (VLM) revolusjonerer multimodale oppgaver og tilpasning

I motsetning til CLIP-lignende modeller som trenes fra bunnen av, har en annen forskningslinje som kombinerer en visjon-encoder, typisk forhåndstrent på ImageNet for å fange generelle visuelle egenskaper, med en forhåndstrent stor språkmodell (LLM) fått mye oppmerksomhet. Dette ble sterkt motivert av fremveksten av kraftige LLM-er som kan generere naturlig språk som er nesten uatskillelig fra menneskelig skrift. Arkitekturen er analog med encoder–decoder-strukturen som er mye brukt innenfor naturlig språkbehandling: visjonsmodellen kan ses som en encoder, som trekker ut funksjoner fra rå bilder, mens språkmodellen fungerer som en decoder. En vanlig strategi for å tilpasse funksjonene mellom disse modellene er å koble dem sammen med et lineært projeksjonslag, og trene kombinasjonen for å utføre bildebasert tekstgenerering, etterfulgt av domene-spesifikk finjustering (for eksempel finjustering på chatbot-datasett bestående av dialoger). I stedet for å bruke et enkelt lineært lag, har miljøet også utviklet andre sofistikerte koblinger for å bygge bro over modalitetskløften, som kryssmodal oppmerksomhet eller lærbare-spørringer transformerere.

Modellenes tilpasning til ulike oppgaver er utfordrende ettersom VLM-er vokser i størrelse og kapasitet, og en kritisk utfordring er å tilpasse disse modellene til spesifikke oppgaver og domener. Prompting har blitt en populær tilnærming for modelltilpasning. Hovedideen bak prompting er å justere prompten for å styre modellens atferd uten å endre de massive forhåndstrente vektene, noe som betydelig reduserer risikoen for overtilpasning, ettersom nedstrømsdatasett ofte har moderate størrelser som er utilstrekkelige for fullstendig finjustering av parametrene. Det finnes to grupper av prompting-tilnærminger: prompt engineering og prompt learning. Prompt engineering innebærer å manuelt utforme inntaksmaler for å veilede modellen mot ønskede resultater. For eksempel, ved å framstille en bildeklassifisering som et "fylt-inn-hull"-problem, kan prompten inkludere beskrivende tekst med plassholdere som inneholder navnene på objektene som er relevante, som for eksempel "et skissefoto av en {KLASSE}". Selv om dette er effektivt i zero-shot innstillinger, kan det være svært tidkrevende da valg av prompt kun er basert på prøving og feiling. For å forbedre modellens resonneringsevne, kan man benytte seg av mer avanserte prompting-teknikker, som chain-of-thought prompting, som bryter ned komplekse oppgaver til en rekke mellomliggende resonneringstrinn.

I motsetning til prompt engineering, automatiserer prompt learning prosessen ved å behandle prompts som lærbare parametere som optimeres under finjustering. Her kan prompts være tekst-embedding eller visuelle tokens som modellen tar som inngang. Disse lærbare promptene trenes sammen med oppgavespesifikke data, noe som gjør at modellen kan tilpasse seg fleksibelt til nye oppgaver eller domener uten å endre de forhåndstrente parameterne. Siden størrelsen på lærbare prompts er mye mindre enn de forhåndstrente vektene, kan treningen utføres under ressursskjøre innstillinger.

Et stort problem i prompt learning er generaliseringsproblemet, som innebærer at prompten som er lært fra ett datasett kanskje ikke generaliserer godt til nye konsepter innenfor samme datasett. Et eksempel på dette er at en prompt som er lært for klassifisering av scener som flyplass og katedral kanskje ikke fungerer godt for klassifisering av nye scener som vindturbiner og togstasjon, til tross for at oppgaven forblir den samme, det vil si scene-gjenkjenning. En løsning på dette problemet er dynamisk prompt learning, som justerer prompten i sanntid basert på bildeinngangen. Man kan for eksempel lære et betinget nevralt nettverk som genererer en prompt for hvert bilde. En annen løsning er å bruke testtidstreningsteknikker, som beskrevet i kapittel 6, hvor prompt-parametrene oppdateres ved hjelp av selvtilsyns-læring.

Den virkelige kraften i VLM-er kommer fra deres design som kobler bilder med naturlig språk, noe som skaper uendelige muligheter for multimodale applikasjoner. Open-vocabulary percepsjon refererer til en modells evne til å gjenkjenne og samhandle med et potensielt uendelig sett av kategorier, inkludert de som ikke ble sett under trening. VLM-er som CLIP har vist stor potensial i zero-shot gjenkjenning, hvor modellen kan tilpasses til enhver gjenkjenningsoppgave ved å endre kategorinavnene i input-prompten. Imidlertid presenterer tilpasningen av disse modellene til tette prediksjonsoppgaver som deteksjon og segmentering betydelige utfordringer, da VLM-er vanligvis er trent på støyete bilde-etikett-par, som grov beskrivelse, uten å bruke tette annoteringer som rammebokser. Tette prediksjonsoppgaver krever forståelse på region-spesifik nivå eller pixel-nivå, noe CLIP ikke er eksplisitt trent for. Denne mangelen på romlig presisjon i treningsdata resulterer i dårlig ytelse når man bruker CLIP til oppgaver som krever presis lokalisering.

Bridging gapet mellom 2D og 3D forståelse og generering er en annen utfordring som VLM-er møter. 3D-forståelse og generering handler om å gjøre modeller i stand til å prosessere, tolke og lage tredimensjonalt innhold, som er viktig for applikasjoner som virtuell virkelighet, spill og robotikk. I motsetning til 2D-oppgaver, som hovedsakelig er basert på bilde-representasjoner, krever 3D-oppgaver forståelse av komplekse romlige relasjoner, dybde og geometriske strukturer. Denne økte kompleksiteten byr på betydelige utfordringer for VLM-er ettersom deres forhåndstrening er basert på 2D-bilde-tekst-par som mangler den detaljerte romlige og volumetriske konteksten som er iboende i 3D-data.

Mulighetene som åpnes gjennom generative modeller er også betydelige, og disse modellene representerer et stort gjennombrudd i kunstig intelligens. De gir systemer muligheten til å syntetisere nytt innhold på tvers av forskjellige modaliteter, som bilder, videoer og 3D-scener. Dette er ikke bare verktøy for å lage nye utganger, men de fungerer også som skapere av kreativt innhold, og kan åpne nye muligheter innen kunst, design og medieproduksjon.