Hvordan skape effektive multimodale modeller ved å skale opp visjonsgrunnmodeller

I de siste årene har utviklingen av store språkmodeller (LLM) revolusjonert feltet kunstig generell intelligens (AGI) med deres imponerende evner til å utføre oppgaver innenfor åpen verdensspråkbehandling. Denne veksten har ikke bare akselerert fremskritt innen språkteknologi, men også muliggjort avanserte multimodale systemer som forener tekst og visuell informasjon. Likevel er fremgangen på området visjonsgrunnmodeller (VFM) og visjon-språk grunnmodeller (VLM) ikke like rask, og det finnes fortsatt betydelige utfordringer i å bygge bro mellom de to domenene.

En av de største utfordringene i utviklingen av slike systemer er det klare gapet mellom de åpne kilde-modellene og de proprietære kommersielle modellene. For eksempel har modeller som GPT-4V og Gemini-serien fra ledende aktører i bransjen, som ofte har mer enn 100 milliarder parametere, en mye større skala enn de fleste åpne kilder-modeller, som vanligvis opererer med langt færre parametere, ofte rundt 300 millioner for visjonsgrunnmodeller. Dette parameter-gapet skaper en utfordring for nøyaktigheten og allsidigheten til de åpne kilde-modellene.

Et annet aspekt som bidrar til dette gapet er bildekvaliteten. Kommersiell teknologi bruker ofte dynamisk oppløsning for å beholde det originale bildes forhold, noe som gjør det mulig å fange mer detaljerte scener og dokumenter. I motsetning til dette benytter åpne kilde-modeller faste oppløsninger som 336x336 eller 448x448, noe som fører til en betydelig reduksjon i ytelsen sammenlignet med kommersielle løsninger.

Flerspråklighet er også en nøkkelkomponent i å bygge allsidige multimodale systemer. Kommersiell teknologi benytter omfattende flerspråklige datasett for trening, noe som gir dem et bredere anvendelsesområde på tvers av språk. De åpne kilde-modellene, derimot, er ofte trent utelukkende på engelskspråklige data, og benytter LLM-ens nullskuddsevner for andre språk. Dette resulterer i suboptimal ytelse på ikke-engelske scener og oppgaver som optisk tegngjenkjenning (OCR).

For å utligne disse forskjellene har det vært nødvendig å skalere opp visjonsgrunnmodellen slik at den er mer på linje med LLM-er i størrelse og kapasitet. Dette krever ikke bare tilgang til store mengder bilde-tekstdata fra nettet, men også sofistikerte teknikker for å tilpasse og integrere representasjoner mellom de to modellene. Ved å bruke webskala bilde-tekstdata har forskere klart å utvikle visjons-språkmodeller som demonstrerer banebrytende ytelse på et bredt spekter av visuelle og språklige oppgaver, fra bildeklassifisering til mer komplekse nullskudd-bildetekst-henting og video-tekst-interaksjoner.

Det er også viktig å merke seg at den fremtidige utviklingen av multimodale store språkmodeller ikke bare handler om å overvinne tekniske utfordringer knyttet til skala og oppløsning. Det er også essensielt å fokusere på måten slike modeller kan brukes i virkelige applikasjoner. En stor del av suksessen til slike systemer vil avhenge av deres evne til å forstå og generere både bilder og tekst i et kontekstuelt relevant format. Derfor er det kritisk å ikke bare forbedre modellenes kapasitet til å gjenkjenne og tolke visuelle elementer, men også å integrere dem på en måte som muliggjør meningsfull kommunikasjon med brukere.

Samtidig som vi ser på de tekniske fremskrittene i visjonsgrunnmodeller, må vi også erkjenne viktigheten av rettferdighet, representasjon og etikk. Som med alle teknologier som bygger på kunstig intelligens, er det viktig å utvikle modeller som ikke bare er effektive, men også rettferdige. Det er et kontinuerlig arbeid med å sørge for at disse modellene ikke forsterker eksisterende skjevheter, men heller fremmer inkluderende løsninger på tvers av ulike kulturer, språk og samfunn.

For de som arbeider med å utvikle disse modellene, er det avgjørende å forstå at det ikke finnes en universell løsning. Hver modell og tilnærming har sine egne styrker og svakheter, og fremgangen innen multimodal AI krever en balansert tilnærming til både teknisk innovasjon og samfunnsansvar. Uansett hvor stor fremgangen blir på de tekniske områdene, vil det å sikre at disse teknologiene brukes til det beste for samfunnet, forbli en grunnleggende utfordring for fremtidig forskning og utvikling.

Hvordan modeller vurderes på tvers av flere multimodale oppgaver: Evaluering og prestasjon

Multimodale språkmodeller (MLLM) har blitt et viktig verktøy for avanserte AI-løsninger, ettersom de kan håndtere en rekke oppgaver som kombinerer tekst og bilder. Dette innebærer at modellene ikke bare skal være i stand til å forstå og generere tekst, men også analysere bilder, utføre visuell gjenkjenning, og kombinere denne informasjonen for å løse komplekse, tverrfaglige oppgaver. Evalueringen av disse modellene blir utført ved hjelp av flere omfattende benchmark-tester som utfordrer modellene på ulike dimensjoner, fra visuell forståelse til flerspråklig og tverrfaglig resonnering.

En av de mest utfordrende aspektene ved vurdering av MLLM-er er å måle deres evne til å håndtere komplekse visuelle og matematiske oppgaver. For eksempel er MathVista et benchmark som tester hvordan modeller kombinerer visuell innsikt med matematiske ferdigheter for å løse oppgaver som krever både logikk og matematikk. Modeller som InternVL-Chat har vist seg å prestere langt bedre enn sine konkurrenter, inkludert GPT-4V, i slike tester, noe som vitner om deres evne til å håndtere matematiske utfordringer på en effektiv måte.

En annen viktig test er ConvBench, som fokuserer på modellens evne til å gjennomføre flertallsinteraksjoner. Sammenlignet med enetilstandsdialoger, som er enklere og mer rett-fram, gir flerspørsmsamtaler en dypere innsikt i modellens kognitive kapasitet, spesielt når det gjelder resonnering og kreativitet. InternVL-Chat har vist seg å være kompetent i slike scenarioer, selv om det fortsatt er et gap mellom den og de aller beste modellene som GPT-4V når det gjelder samtalens flyt og dybde.

Når det gjelder modellens flerspråklige ferdigheter, har InternVL-Chat også utmerket seg i tester som MMBench-CN, som vurderer modellens forståelse av kinesisk språk og kultur. Dette har vært et viktig område for vurdering, ettersom manglende kulturforståelse kan hindre en modell i å forstå kontekst og subtile nyanser i kommunikasjonen. InternVL-Chat har slått flere proprietære modeller, og demonstrert en dypere forståelse av både kinesisk språk og kultur, takket være et høy-kvalitets, tospråklig datasett.

Multimodal testing på MMT-Bench har også vært et sentralt område for vurdering. Dette benchmarket, som inkluderer 162 ulike deloppgaver som tester alt fra visuell gjenkjenning til planlegging og resonnering, er ekstremt krevende for modeller. Her viser InternVL-Chat konkurransedyktige resultater, spesielt når det gjelder visuell gjenkjenning og forståelse. Dette beviser at modellen ikke bare mestrer de grunnleggende oppgavene, men også de mer komplekse, hvor både tekst- og bildeanalyse er nødvendig.

InternVL-Chat har også blitt testet for sin evne til å redusere hallusinasjoner, et fenomen hvor AI-modeller genererer informasjon som ikke finnes i treningsdataene deres. Denne evnen til å håndtere feilinformasjon er avgjørende for at modellen skal være pålitelig i virkelige applikasjoner, og InternVL-Chat har prestert på toppnivå i HallusionBench-testen, som evaluerer en modells evne til å kontrollere hallusinasjoner.

Modellen viser også sterke resultater når det gjelder å takle ulike tekniske utfordringer som dynamisk oppløsning. Dette er spesielt viktig i oppgaver som krever høy oppløsning for OCR (optisk tegngjenkjenning), hvor høyere oppløsning kan betydelig forbedre modellens ytelse på oppgaver som DocVQA, InfoVQA og TextVQA. Dette understreker viktigheten av å forstå at ikke alle oppgaver nødvendigvis krever høy oppløsning for å oppnå gode resultater.

InternVL-Chat er et eksempel på en modell som balanserer ytelse på tvers av ulike oppgaver på en bemerkelsesverdig måte. Dette er et resultat av nøye justering av hyperparametere og valg av den optimale modellen etter grundig evaluering. I tillegg til de tekniske aspektene ved modellen, som dens dybde, bredde og antall parametre, er det avgjørende å forstå hvordan en modell som InternVL-Chat kan tilpasse seg forskjellige scenarier gjennom både maskinlæring og kontekstualisert forståelse.

Det er viktig å merke seg at det ikke finnes en universell "beste" modell for alle oppgaver. Hver modell har sine styrker og svakheter, og valget av den mest hensiktsmessige modellen avhenger av spesifikke bruksområder. For eksempel vil en modell som er svært effektiv i flertallsinteraksjoner kanskje ikke være den beste for bilderelaterte oppgaver, og omvendt. Dette er en påminnelse om at vi bør velge modeller ut fra deres styrker i forhold til den oppgaven de skal løse, heller enn å jakte på en modell som utmerker seg på alle områder.

Hvordan påvirker bildekvalitet og oppløsning ytelsen til multimodale modeller som InternVL?

Ytelsen til multimodale språk- og visjonsmodeller, som InternVL-Chat, avhenger i betydelig grad av bildekvaliteten og oppløsningen bildene behandles i. En fremtredende egenskap ved InternVL-Chat er dens robuste håndtering av dynamisk oppløsning. Selv om modellen kun ble trent med et begrenset antall fliser – fra 1 til 12 – er den i stand til å utføre zero-shot inferens med opptil 40 fliser under testing. Dette tilsvarer en 4K-oppløsning, og markerer en bemerkelsesverdig evne til å skalere uten eksplisitt trening på slike høye oppløsninger.

Samtidig er ikke denne skalerbarheten uten begrensninger. Spesifikke benchmarks som AI2D, MMMU, MMBench og HallusionBench viser en svak nedgang i ytelse ved høyere oppløsninger. Dette antyder at det finnes en terskel der økning i bildeoppløsning ikke nødvendigvis fører til bedre semantisk forståelse eller oppgaveutførelse – og i enkelte tilfeller kan det til og med redusere effektiviteten. Spesielt for datasett som MMMU, som inkluderer flere bilder per prøve, blir ressursbelastningen ved høy flis-oppløsning så stor at systemet kan gå tom for minne. For slike oppgaver ble det derfor kun testet opp til 18 fliser, og MMMU ble ekskludert fra gjennomsnittsberegninger.

Det essensielle ligger i modellens evne til adaptiv tilpasning – hvor InternVL-Chat justerer oppløsningen i samsvar med de spesifikke kravene til hver enkelt oppgave. Dette innebærer en intelligent ressursallokering: høy oppløsning benyttes der det gir målbar gevinst i ytelse, mens lavere oppløsning anvendes der visuell detaljrikdom er sekundær, noe som bidrar til effektiv ressursbruk.

Ytelseskurven som er fremstilt i analysen (se Fig. 2.8) viser hvordan antallet bildefliser (X-aksen) korrelerer med benchmarks (Y-aksen), hvor høyeste verdier fremheves. Resultatene viser at modellen ikke bare opprettholder, men i mange tilfeller forbedrer sin ytelse ved skalering, til tross for begrenset oppløsning under opplæring. Dette demonstrerer at modellen er generaliserbar og skalerbar, og at dens arkitektur ikke er rigid knyttet til opplæringsforholdene.

Den teknologiske arkitekturen bak InternVL bygger på en visjonssentrisk modell med 6 milliarder parametere, kombinert med et språkbasert mellomlag, noe som muliggjør effektiv samkjøring mellom visuelle og språklige representasjoner. Treningen utnytter bilde-tekst-par fra nett i stor skala, og modellen viser sterke resultater på tvers av klassiske oppgaver som bildegjenkjenning, videoanalyse, bildebeskrivelse, tverrmodal gjenfinning og visuell spørsmålsbesvarelse.

InternVL skiller seg dermed fra tidligere generasjoner av visjonsmodeller gjennom en dypere og mer dynamisk integrasjon med språkmodeller. Den fungerer ikke som en isolert visuell prosessor, men som et helhetlig system hvor visuelle inntrykk tolkes i semantisk og kontekstuelt samspill med språk. Dette gjør det mulig å løse komplekse multimodale oppgaver – inklu

Hvordan forbedre modellens generalisering ved hjelp av test-tid prompt-tuning?

I utviklingen av maskinlæringsmodeller, spesielt innenfor visuelle oppgaver, er en konstant utfordring å forbedre generaliseringsevnen. Dette innebærer å gjøre modellen mer robust og i stand til å håndtere varierende og ukjente data uten at det går på bekostning av nøyaktigheten. En av de mest effektive tilnærmingene i denne sammenhengen er test-tid opplæring, også kjent som test-time training (TTT). Denne metoden, sammen med forskjellige varianter som implementerer selv-superviserte multitasks, har blitt stadig mer populær for å tilpasse modeller til spesifikke testdata under inferensfasen.

Et eksempel på en metode for test-tid opplæring er TENT (Test-time Entropy Minimization), som søker å minimere entropien i modellens prediksjoner under testtiden. En utfordring med TENT er imidlertid at det kreves mer enn ett testbilde for å oppnå en meningsfull løsning. Zhang et al. har derimot foreslått en metode som benytter seg av marginal entropiminimering, som fungerer på enkeltstående testbilder gjennom dataaugmentering.

En annen utfordring i test-tid opplæring er å velge hvilke parametere i modellen som skal justeres. Batch normalisering (BN) lag har vist seg å være effektive for å fange opp domeneavvik i bildedata, og tilpasning av disse lagene under test-tiden kan være en enkel metode for å forbedre modellens robusthet. Men å gjøre slike justeringer kan begrense arkitekturen på modellen. Alternativt har det blitt foreslått å oppdatere trekk-ekstraktoren samtidig som prediksjonsmodulen holdes fryst, eller å optimalisere hele modellen på test-tid. Vår metode tar tak i begge utfordringene.

En sentral tilnærming i vårt arbeid er å optimalisere prompten – tekstbeskrivelsen som benyttes i CLIP-modellen (Contrastive Language-Image Pretraining) – mens vi holder den underliggende modellen intakt. Dette gjør at vi kan unngå å forstyrre de forhåndstrente funksjonene, og samtidig bevare modellens evne til null-skudd generalisering. I våre eksperimenter har vi vist at denne prompt-optimaliseringen er en av de mest effektive metodene for å forbedre CLIP-modellens ytelse på testtid.

En annen innovasjon i vår metode er den forbedrede entropiminimeringen gjennom et konsept vi kaller "confidence selection". Dette hjelper modellen å filtrere ut støyaktige dataaugmenteringer som kan føre til feilaktige prediksjoner. Denne metoden tillater mer presis tilpasning av modellen uten at det kreves store mengder testdata eller merket informasjon.

Når man anvender CLIP-modellen på oppgaver som bildeklassifisering, er det viktig å merke seg hvordan vi kan bruke en håndlaget prompt til å hente ut relevant kunnskap fra den forhåndstrente modellen. I et standard null-skudd oppsett, legger man til en tekstprompt som "et bilde av en" til hver klassebeskrivelse, og deretter bruker man CLIP-modellen til å beregne likheten mellom tekst- og bildeinnslagene. Denne enkle metoden kan gi meget nøyaktige prediksjoner selv uten noen form for videre opplæring på spesifikke data.

En videreutvikling på dette er prompt-tuning, hvor prompten selv blir justert under opplæring for å maksimere ytelsen på en spesifikk oppgave. Dette kan gjøres når man har tilgang på merket data. I stedet for å bruke en statisk prompt, optimerer prompt-tuning selve tekstbeskrivelsen i tekstinnslagene for å gi modellen mer kontekstuelt relevante instruksjoner om den spesifikke oppgaven, som i tilfelle bildeklassifisering eller kontekstavhengig visuell resonnering.

I oppgaver som Bongard-HOI, hvor modellen blir bedt om å gjøre inferens om menneske-objekt interaksjoner basert på støttende bilder, viser CLIP seg å være spesielt kraftig på grunn av dens evne til å hente ut visuelle konsepter og relasjoner gjennom forhåndstrening. Her, i stedet for å bruke ekstra opplæring, benyttes CLIPs rike kunnskap direkte for å forutsi om et testbilde inneholder en bestemt visuell relasjon eller interaksjon.

Å forstå hvorfor prompt-tuning er så viktig for test-tid optimalisering ligger i hvordan denne metoden utnytter den allerede eksisterende kunnskapen i en forhåndstrent modell som CLIP, uten å forstyrre dens generaliseringsevne. Det gir en mer fleksibel og målrettet tilpasning til testdataene uten at man mister modellen sin evne til å håndtere ulike typer data.

I test-tid prompt tuning (TPT) er utfordringen å finne en effektiv måte å optimalisere prompten på et enkelt testbilde uten tilgjengelig merket informasjon. Ved å bruke en usupervisert tapsfunksjon for å fremme konsistens i modellens prediksjoner over flere augmenterte visninger av testbildet, kan man oppnå en forbedret prediksjonsnøyaktighet. Denne tilnærmingen krever ikke merket data og kan derfor brukes i et bredt spekter av scenarioer der merking ikke er tilgjengelig.

For å oppsummere, test-tid prompt tuning tilbyr en elegant løsning på problemene med generalisering og tilpasning av visuelle modeller til ukjente testdata. Ved å manipulere konteksten for testdataene på en intelligent måte, kan man øke modellens evne til å hente ut relevant kunnskap og gjøre presise prediksjoner, selv når dataene er ukjente og ikke merket. Denne teknikken representerer et stort skritt fremover i utviklingen av mer robuste og fleksible modeller for praktisk bruk i virkelige scenarioer.

Hvordan CLIP og GPT-3 kan forbedre forståelsen av 3D-objekter i åpne verdener

I dagens digitale landskap har bruken av kunstig intelligens (AI) for å forstå og kategorisere 3D-objekter fått økt oppmerksomhet. Spesielt har CLIP (Contrastive Language-Image Pretraining) vist seg å være et kraftig verktøy i slike sammenhenger, ettersom det kobler visuelle funksjoner med tekstbeskrivelser. For å optimalisere dette samspillet, er det avgjørende å inkludere presise og detaljerte tekstbeskrivelser som kan levere den nødvendige konteksten for å håndtere 3D-data. Dette er hvor GPT-3 kommer inn i bildet. Med sin evne til å generere naturlige språkbeskrivelser kan GPT-3 være en nøkkelkomponent for å tilpasse CLIP til 3D-domenet.

Når man bruker GPT-3 som en generator av 3D-spesifikke beskrivelser, kan man gi det instruksjoner som er skreddersydd for å produsere innhold som er rikt på 3D-semantikk. Et eksempel på dette kan være kommandoen: "Beskriv et dybdekart av et [vindu]". GPT-3 kan da generere en beskrivelse som "Det viser [vinduet] som et mørkt vindu". Denne tilnærmingen, der beskrivelsene er langt mer spesifikke enn bare en generell klassebeskrivelse, er avgjørende for å oppnå en bedre forståelse av 3D-objekter gjennom CLIP.

En annen strategi er å bruke GPT-3 til å svare på spørsmål knyttet til 3D-dybdekart, for eksempel "Hvordan beskriver man et dybdekart av et [bord]?" hvor GPT-3 kan svare "Bordet har et rektangulært eller sirkulært flatt bord med ben". I tillegg kan GPT-3 bli bedt om å generere synonymer for en gitt beskrivelse av et 3D-objekt, eller å lage en setning basert på et sett med nøkkelord som "bord", "dybdekart" og "glatt".

Denne teknikken kan videreutvikles ved å bruke GPT-3 til å lage beskrivelser som er spesifikke for forskjellige kategorier innenfor et 3D-datasett. Når man har kategorinavn for hver klasse, kan GPT-3 generere tekst som er rik på semantikk for hver av disse klassene, og dermed gjøre CLIP i stand til å forstå mer detaljerte og spesifikke aspekter av 3D-objektene.

Etter at de tekstlige beskrivelsene er generert av GPT-3, kan de brukes som input for den tekstlige koderen i CLIP, som gjør det mulig å forbedre sammenkoblingen mellom de visuelle og tekstlige dataene. Denne tilnærmingen er ikke bare nyttig for 3D-klassifisering, men kan også tilpasses for en rekke andre 3D-oppgaver i åpne verdener.

En av de mest interessante aspektene ved denne tilnærmingen er dens evne til å generalisere godt. Ved å bruke realistiske projeksjoner og 3D-spesifikke beskrivelser, kan PointCLIP V2, en videreutvikling av CLIP, oppnå imponerende resultater på 3D-oppgaver uten å være trent på spesifikke 3D-datasett. Dette gir en solid base for å håndtere nye, ukjente objekter i en 3D-verden uten eksplisitt trening på disse objektene. PointCLIP V2 har vist seg å være effektivt på flere 3D-oppgaver, fra null-shot klassifisering til objektsegmentering og objektgjenkjenning.

Med PointCLIP V2 er det mulig å utføre få-skudds læring ved hjelp av små mengder punkt skydata. Dette oppnås ved å tilpasse den realistiske projeksjonsmodulen, som kan lære å generere dybdekart som er kompatible med CLIP. Ved å bruke 3D-konvolusjonslag, filtrering og glatting kan man skape bedre visualiseringer og derved forbedre det totale resultatet.

Videre har PointCLIP V2 vist stor kapasitet til å utføre oppgaver som 3D-part-segmentering uten eksplisitt opplæring på objekter. Ved hjelp av CLIPs visuelle encoder kan man trekke ut tette funksjoner fra forskjellige projeksjoner, og gjennom geometri-basert tilbakeprojeksjon kan man segmentere forskjellige deler av et objekt uten å ha fått trening på de spesifikke delene.

For 3D-objektdeteksjon benytter PointCLIP V2 en åpen verdensteknikk som gjør det mulig å oppdage objekter i 3D, selv om de ikke har vært sett før. Ved å bruke 3DETR som 3D-regionforslagsnettverk (RPN), kan man generere 3D-boksene og deretter klassifisere de rå punktene innenfor disse boksene ved hjelp av CLIP.

Eksperimentelle resultater viser at PointCLIP V2 har forbedret ytelse sammenlignet med eksisterende metoder på flere viktige oppgaver, som null-shot klassifisering på populære datasett som ModelNet10, ModelNet40 og ScanObjectNN. Ved å eliminere behovet for eksplisitt trening på 3D-data og i stedet bruke tekstbeskrivelser for å veilede modellen, kan PointCLIP V2 oppnå imponerende nøyaktighet på tross av den minimale opplæringen.

For å oppnå best mulig ytelse er det avgjørende å bruke riktig tilnærming til projeksjon og bearbeiding av punkt skydata. En nøkkelkomponent er bruken av kvantisering og forskjellige typer glatting for å forbedre 3D-projeksjoner og sikre at CLIP kan forstå og kategorisere objektene mer presist. Studien viser at når man introduserer operasjoner som densifisering og glatting, forbedres ytelsen betraktelig, noe som understreker viktigheten av disse trinnene i 3D-oppgaver.

Endelig, når det gjelder kommandoene som brukes for å generere beskrivelser for 3D-objekter, viser eksperimentene at forskjellige typer beskrivelser – som spørsmål og svar, parafraser og setninger basert på nøkkelord – har forskjellige effekter på nøyaktigheten av resultatene. Å finne den rette balansen mellom disse forskjellige kommandoene er essensielt for å maksimere effektiviteten til CLIP i 3D-verdenen.

Hvordan hverdagslige eventyr i Banaras kan forme livsperspektiver
Hva skjer når komforten brytes og virkeligheten er for mye å forstå?
Hvordan påvirker tonen i Donald Trumps Twitter-meldinger publikums oppfatninger og hans politiske strategi?
Hvordan Cornwall og Devon inspirerte litteraturen og kunstens verden
Hvordan Leonardo da Vinci Forståtte og Skapte Verden Rundt Seg
Hvordan beregnes virvelsoner ved skarpe kanter i eksoshetter?