Vi benytter et samlet generativt fortreningmål som håndterer ulike oppgaver innen visuell generering. Hver treningsprøve inneholder sammenflettet tekst, bilder og objektslokalisering, formatert på en måte som kombinerer tekstlige beskrivelser med visuelle representasjoner av objekter og deres plassering i bildet. Objektkoordinater visualiseres ved å tegne rammer rundt objektene på et svart bilde, noe som gjør det mulig for modellen å forstå både hva objektene er og hvor de befinner seg.

Modellen Emu2-Gen integrerer tekst, objektbilder og lokaliseringsbilder i et felles multimodalt format, med regresjonstap som kun anvendes på det endelige bildeinnkodet. For å forhindre at modellen kollapser under finjustering, fryses den visuelle koderen, og robustheten økes ved å tilfeldig droppe entitetsmarkører og lokaliseringsinformasjon, samtidig som variasjoner i bakgrunn og beskjæringer på objektene påføres. Dette skaper et mer motstandsdyktig system som kan tilpasse seg flere visuelle kontekster.

Treningen foregår med svært store batch-størrelser og bruker en læringsrate som starter lavt og økes gradvis, for deretter å avta etter en kosinusfunksjon. Etter hovedtreningen finjusteres modellen med en stor mengde høykvalitets data for å styrke nøyaktigheten ytterligere.

I evalueringen av Emu2 som en forhåndstrent base-modell vises sterke resultater i både zero-shot og few-shot læring på en rekke visjon-språk benchmarker som VQAv2, OKVQA, VizWiz og TextVQA. Modellen demonstrerer bemerkelsesverdig evne til å lære fra kontekst, noe som kommer til uttrykk i forbedret ytelse etter hvert som flere konteksteksempler tilføres. Til tross for at Emu2 har færre parametere sammenlignet med større modeller som Flamingo-80B og IDEFICS-80B, overgår den disse på flere oppgaver, særlig i scenarier som krever samtidig klassifisering og telling av objekter, samt å følge visuelle instruksjoner som markeringer på bilder.

Emu2-Chat, en videreutvikling av modellen med instruksjonsfølgende evner, utmerker seg i akademiske, oppgaveorienterte tester, inkludert videospørsmål og flervalgstester med flere alternativer. Den demonstrerer forbedret håndtering av oppgaver som krever ekstern kunnskap, som OKVQA, og overgår flere eksisterende modeller i nøyaktighet. Modellen klarer også å håndtere videospørsmål selv uten spesifikk trening på videodata, og oppnår høyere resultater enn både InstructBLIP og større modeller som Flamingo-80B.

I tillegg skiller Emu2-Chat seg ut i oppgaver for referanseuttrykk, der den viser sterk visuell lokaliseringsevne ved å forstå og identifisere objekter som blir omtalt i komplekse sammenhenger. Spesielt oppnår modellen gode resultater på RefCOCO+, som utfordrer modellen til å forstå referanser uten posisjonell hjelp.

Autoencoder-funksjonene til Emu2, som består av en visuell koder og dekoder, muliggjør nøyaktig bilde-rekonstruksjon. Dette styrker modellens evne til å fokusere på utseendebaserte beskrivelser uten å være avhengig av posisjonelle referanser, og underbygger modellens sterke perseptuelle egenskaper.

Modellen kan dessuten utføre kontrollert visuell generering, hvor den aksepterer en kombinasjon av tekst, lokasjoner og bilder som input, og genererer kontekstuelle bilder. Dette inkluderer generering med tekst- og subjektgrunnlag, stilisering, sammensetning av flere objekter, redigering styrt av motiv og tekst-til-bilde-generering.

Det er viktig å forstå at suksessen til slike multimodale modeller ikke bare handler om rå styrke i parametertall, men også hvordan ulike modaliteter integreres og hvordan modellen trenes til å generalisere fra få eksempler i kontekst. Robusthet oppnås gjennom strategier som å variere input og droppe informasjon under trening, noe som etterligner virkelige variasjoner i data. Evnen til å håndtere komplekse visuelle og språklige oppgaver i samspill viser at slike modeller nærmer seg en dypere forståelse av multimodal informasjon, og at fremtidige applikasjoner kan dra nytte av denne fleksibiliteten.

Videre er det avgjørende for leseren å ha innsikt i at modeller som Emu2 krever omfattende dataintegrasjon og nøye balansert trening for å unngå overtilpasning eller kollaps, og at deres ytelse på ulike benchmark-tester gir et bredt bilde av både styrker og begrensninger. Forståelsen av hvordan slike modeller tolker og kombinerer tekst, bilder og posisjonsinformasjon, gir et fundament for å bygge videre på multimodale kunstig intelligenssystemer som kan operere i komplekse, virkelige situasjoner.

Hvordan store visjon-språkmodeller utvikles og utfordringene de møter

Visjon og språk er to kjerneområder innen menneskelig intelligens som har vært studert separat innen kunstig intelligens (AI), henholdsvis datavisjon og naturlig språkbehandling. Tradisjonelt har disse to feltene blitt behandlet som uavhengige disipliner. Datavisjon handler om å tolke bilder, som for eksempel å gjenkjenne objekter i bilder eller finne deres plasseringer på piksel-nivå, mens naturlig språkbehandling fokuserer på å analysere og generere språk, som å forutsi sentimentet i kundeanmeldelser eller oppsummere nyhetsartikler. Men mennesker lærer ofte konsepter gjennom en kombinasjon av visuelle og språklige modaliteter. For eksempel lærer barn om et eple ved å se på det og høre språklige beskrivelser som «dette er et eple, det er rødt, rundt og søtt», noe som danner et kognitivt bånd mellom visuelle egenskaper og språklige etiketter. På samme måte kan kunstig intelligens ha stor nytte av å kombinere visjon og språk for å oppnå mer generaliserte og kraftige modeller.

I dagens AI-forskning er visjon-språkmodeller (VLM) et område i rask utvikling. Disse modellene har åpnet for nye muligheter som generering av fotorealistiske bilder ut fra tekstbeskrivelser eller bruk av naturlig språk for å styre roboter i oppgaver som håndtering og navigasjon. De siste fremskrittene i området har vært drevet frem av store fremskritt innen modellarkitektur og pre-trening av store datasett, som har ført til en eksplosiv økning i modellens størrelse, fra millioner til milliarder av parametere, samt treningsdata som strekker seg over milliarder av eksempler. Disse store modellene er i stand til å lære omfattende og generaliserbare kunnskaper om verden, noe som gjør dem svært fleksible for en rekke anvendelser.

Men selv om de enorme skalaene til moderne VLM-er har åpnet for enestående kapabiliteter, har det også ført med seg betydelige utfordringer. En av de viktigste utfordringene er knyttet til algoritmene som brukes til å koble sammen visuelle og språklige modaliteter på en måte som både er effektiv og meningsfull. En annen stor utfordring er skalerbarheten av treningsprosesser og datainnsamling, som krever enorme beregningsressurser og sofistikerte teknikker for å håndtere dataene, som kan være støyende eller inneholde skjevheter. På den teknologiske siden krever VLM-er som opererer på stor skala, mye datakraft og ressurser, som begrenser adgangen til disse modellene for mange, selv om det er stadig mer utvikling av effektive treningsmetoder og tilpasningsteknikker, som prompting.

Et annet aspekt av utfordringene med store VLM-er er at de kan være utsatt for både tekniske og etiske problemer. Algoritmiske feil og skjevheter i treningsdata kan føre til at modellene utvikler unøyaktige eller diskriminerende representasjoner, og etiske bekymringer kan oppstå når disse modellene blir brukt i sensitive sammenhenger, som helsesektoren eller rettshåndhevelse. Disse bekymringene understreker behovet for et mer bevisst og ansvarlig utviklingsarbeid, samt et kritisk blikk på hvordan man best kan bruke de utviklede modellene på tvers av ulike domener.

Utviklingen av visjon-språkmodeller har også vært tett knyttet til fremskritt innen pre-trening, en prosess som innebærer å trene modeller på store, generelle datasett for å lære grunnleggende mønstre og strukturer som senere kan brukes i spesifikke oppgaver. Pre-trening ble opprinnelig populært innen datavisjon med ImageNet, et omfattende datasett som har vært en viktig referanse for utvikling av visuelle modeller. For eksempel har de store konvolusjonsnevrale nettverkene (CNN) som ble introdusert gjennom AlexNet, hatt stor innvirkning på datavisjonsfeltet, og utviklingen av residualnettverk som ResNet har bidratt til å takle utfordringer knyttet til dype nettverksstrukturer.

I dag har utviklingen av Vision Transformer (ViT) og lignende arkitekturer redefinert hvordan vi tilnærmer oss visuell læring, med modeller som bruker selvoppmerksomhet for å lære representasjoner på en mer fleksibel og effektiv måte. Disse fremskrittene har åpnet for mer generaliserbare modeller som kan anvendes på et bredt spekter av visuelle og språklige oppgaver. Med tanke på den eksplosive veksten i størrelsen på datasett og tilgjengelige beregningsressurser, er det klart at framtiden for visjon-språkmodeller er tett knyttet til utviklingen av nye, mer effektive og robuste treningsmetoder.

For å forstå de grunnleggende prinsippene bak visjon-språkmodeller og deres transformative potensial, er det viktig å ikke bare fokusere på den teknologiske utviklingen, men også på hvordan disse modellene kan endre måten vi interagerer med teknologi på. Den naturlige integrasjonen av visjon og språk i AI-systemer kan føre til mer menneskelignende interaksjoner, der maskiner kan forstå verden på en mer intuitiv og nyansert måte.

Det er også viktig å være oppmerksom på de praktiske anvendelsene av slike modeller. For eksempel, i anvendelser som robotikk eller helseteknologi, der presis tolkning av både visuelle og språklige data er avgjørende, kan VLM-er bidra til å forbedre effektiviteten og nøyaktigheten av maskinens handlinger. Samtidig er det nødvendig å forstå at selv med de siste fremskrittene, er vi fortsatt i en fase der forbedring av modellens nøyaktighet, generaliseringsevne og etiske anvendelse er en pågående prosess.

Hvordan påvirker supernet-metoden utviklingskostnader og datakrav i fåskuddsinnlæring?

Supernet-metoden bringer med seg en økt beregningsmessig belastning, noe som direkte medfører høyere totale utviklingskostnader. Dette skyldes den komplekse arkitekturen som kreves for å utforske flere nettverkskonfigurasjoner samtidig, noe som ikke bare krever betydelig mer regnekraft, men også øker tidsbruken i treningsfasen. Slike ressurser kan raskt akkumulere, spesielt i sammenhenger der utviklingsbudsjettet er begrenset.

Videre viser resultater fra fåskuddsinnlæring at metoden ikke kan utnytte sitt fulle potensial uten en tilstrekkelig mengde merket treningsdata. Dette innebærer at for å oppnå høy nøyaktighet og robusthet må man ha tilgang til nok data med korrekt annotasjon, noe som ofte er utfordrende å skaffe, særlig i nisjeområder eller i situasjoner hvor datafangst er kostbar eller tidkrevende.

Det er også verdt å merke seg at mens supernet-tilnærmingen tilbyr fleksibilitet ved å kunne tilpasse seg ulike arkitekturer, kan denne fordelen bli undergravd dersom datagrunnlaget er for svakt eller for begrenset. I slike tilfeller kan enklere modeller eller andre metoder for parameter-effektiv tuning være mer hensiktsmessige.

Forståelsen av disse begrensningene er avgjørende for de som arbeider med utvikling og implementering av visuelle grunnmodeller. Å balansere mellom kompleksitet, tilgjengelige data og kostnader er essensielt for å oppnå optimale resultater. I tillegg bør det understrekes at innovasjon innen feltet, som parameter-effektive metoder og adapter-baserte tilpasninger, kan bidra til å redusere behovet for omfattende data og beregningsressurser, men dette krever nøye evaluering i kontekst av den spesifikke oppgaven.

En dypere innsikt i metodens arkitektur og treningsmekanismer kan videre gi bedre forståelse av hvordan supernet kan skaleres og tilpasses ulike datamiljøer, noe som er avgjørende for fremtidige anvendelser innen maskinlæring og datavisualisering.

Hvordan kan åpen-vokabular objektdeteksjon forbedres ved hjelp av DETR?

Med økningen i popularitet av vision-language modeller, har åpen-vokabular objektdeteksjon tiltrukket seg betydelig oppmerksomhet i forskningsmiljøene. Den grunnleggende ideen bak eksisterende metoder for åpen-vokabular objektdeteksjon er å justere de visuelle egenskapene hentet fra objektdetektorer med tekstlige innleiringer generert av modeller som er trent på enorme bildetekst-datasett, som for eksempel CLIP. Denne justeringen gjør det mulig for klassifisereren å gjenkjenne nye objektklasser kun basert på deres tekstlige beskrivelser, uten behov for treningsbilder som tilhører disse klassene.

En stor begrensning ved dagens metoder for åpen-vokabular deteksjon er at de er avhengige av regionforslag, som ofte ikke dekker alle forekomster av nye klasser i et bilde på grunn av mangel på treningsdata for disse klassene. Dette har blitt påpekt av nyere forskning, som viser at den binære naturen til Region Proposal Network (RPN) kan føre til at modellen overtilpasser seg de kjente klassene, og dermed har problemer med å generalisere til ukjente klasser. Denne utfordringen gjør det vanskelig å lage modeller som kan oppdage objekter fra klasser de aldri har sett før, med høy nøyaktighet.

I dette kapittelet diskuterer vi treningen av en end-to-end åpen-vokabular detektor, kalt OV-DETR, bygget på DETR-rammeverket. Hovedmålet med OV-DETR er å forbedre modellens evne til å generalisere til nye objektklasser uten å være avhengig av et mellomliggende RPN. OV-DETR er designet for å kunne oppdage et hvilket som helst objekt ut fra enten klassens navn eller et eksemplarbilde. Denne unike funksjonaliteten gir større fleksibilitet enn tradisjonelle metoder for åpen-vokabular deteksjon, som vanligvis kun er avhengige av naturlige språkbeskrivelser.

Til tross for elegansen i end-to-end trening med DETR, byr tilpasningen til åpen-vokabular deteksjon på betydelige utfordringer. Hovedproblemet er at beregningene for klassifikasjonskostnader for nye klasser blir uoverkommelige, ettersom disse klassene ikke har treningsetiketter. For å løse dette har vi omformulert læringsmålet som et binært matcheproblem mellom innkommende forespørsler (klassens navn eller eksemplarbilder) og de tilsvarende objektene i bildet. Denne matchings-feilen, som trenes på ulike par av forespørsler og objekter, hjelper til med å lære robuste korrespondanser som effektivt generaliserer til ukjente forespørsler under inferens.

For å muliggjøre dette har vi utvidet DETR-dekoderen for å inkludere betingede forespørsler. Spesifikt betinges dekoderen på forespørselsembedder hentet fra en forhåndstrent vision-language modell som CLIP, noe som gjør det mulig med betinget matching både for tekst- og bildeforespørsler. Denne tilnærmingen viser seg å gi langt bedre ytelse når det gjelder å oppdage nye klasser sammenlignet med tradisjonelle RPN-baserte detektorer. Eksperimenter på to utfordrende datasett for åpen-vokabular objektdeteksjon, LVIS og COCO, viser jevnlige forbedringer i ytelse. Spesielt oppnår OV-DETR en mAP for nye klasser på henholdsvis 17,4 på LVIS og 29,4 på COCO, som overskrider baseline-metodene med henholdsvis 1,3 og 1,8 mAP.

Åpen-vokabular objektdeteksjon har som mål å oppdage objektklasser som ikke ble møtt under treningsfasen, og fungerer derfor som en viktig målestokk for å vurdere modellens evne til å generalisere. Deteksjonsmodellen trenes først på merkede bilder av kjente klasser, supplert med bildetekstpar, og evalueres deretter på evnen til å oppdage objekter som tilhører nye klasser. De nyeste fremskrittene innen vision-language modeller, som CLIP, gjør det mulig å integrere åpen-vokabular informasjon i objektdeteksjonsrammeverket. I tillegg har forskningen vist at ved å benytte eksterne ressurser som tekstbeskrivelser kan man betydelig forbedre klassifikatorens evne til å generalisere.

En annen relasjonert oppgave er Zero-Shot objektdeteksjon, som fokuserer på å oppdage nye klasser uten tilgang til noen form for treningsressurser for disse klassene. Zero-shot deteksjon setter strengere begrensninger på hva som kan brukes i treningen, og innebærer ofte bruk av forhåndstrente ordinnleiringer som GloVe som klassifikatorvektorer. Forskning har vist at tilførsel av eksterne ressurser, som tekstbeskrivelser, kan forbedre disse klassifikatorene betraktelig.

For transformatorbaserte objektdeteksjonsmodeller revolusjonerte den banebrytende DETR-metoden objektoppdagelsen ved å ramme inn oppgaven som et sett-til-sett matcheproblem, og dermed forenkle den tradisjonelle deteksjonspipen. Senere forskning har fokusert på å forbedre både ytelsen og treningshastigheten til DETR, med metoder som Deformable DETR som benytter en deformerbar oppmerksomhetsmodul for mer effektiv beregning, og SMCA som akselererer treningskonvergensen.

I sum gir OV-DETR et betydelig skritt fremover for åpen-vokabular objektdeteksjon, ettersom det introduserer en mer fleksibel tilnærming ved å bruke både tekstlige beskrivelser og eksemplarbilder for å identifisere nye objektklasser.

Hvordan CLIP kan Tilpasses for 3D Forståelse

Den store fremgangen innen kunstig intelligens og maskinlæring har ført til banebrytende metoder for visuell forståelse gjennom kombineringen av bilder og tekst. Et slikt eksempel er CLIP (Contrastive Language-Image Pre-Training), en modell som er trent på enorme mengder bilde-tekst par for å kunne forstå bilder og tekster samtidig. CLIP har revolusjonert både bildegjenkjenning og tekstforståelse ved å gjøre det mulig å utføre oppgaver som nullskudd- og fåskudd-læring, noe som åpner for gjenkjenning av objekter og kategorier som ikke nødvendigvis har blitt sett før i treningsdataene. Dette har hatt stor betydning for 2D bildeanalyse, men spørsmålene har nå begynt å dukke opp om det er mulig å tilpasse CLIP til 3D-verdenen for gjenkjenning av 3D objekter.

Denne utfordringen tas opp med introduksjonen av modeller som PointCLIP og PointCLIP V2, som er utviklet for å tilpasse CLIP for 3D gjenkjenning. PointCLIP-prosessen starter med å projisere 3D punktclouds til flate 2D bilder, som på sin side hjelper til med å avsløre geometrisk informasjon. Ved å bruke flere perspektiver for å analysere et punktcloud, kan PointCLIP få en dypere forståelse av objektets form, som igjen styrker objektgjenkjenning på tvers av forskjellige synsvinkler. I tillegg benyttes en intervju-adapter som hjelper til med å aggregere informasjon på tvers av synspunktene, og denne adapteren kan lett finjusteres for å forbedre resultatene.

PointCLIP V2 bygger videre på de tidligere modellene ved å implementere en projeksjonsmodul som forbedrer den visuelle behandlingen, og dermed skaper mer realistiske dybdekart. Denne modulen hjelper til med å redusere gapet mellom 3D projeksjoner og naturlige bilder, og dermed forbedre nøyaktigheten når man skal matche 3D-data med tekstlige beskrivelser. I tillegg inkorporerer PointCLIP V2 store språkmodeller (LLMs) for å generere tekst spesifikt rettet mot 3D objekter, noe som videre forbedrer tekstenes forståelse og muliggjør bedre funksjonsutvinning gjennom CLIPs tekstlige encoder.

Et sentralt element i disse modellene er muligheten for nullskudd-læring, som gjør det mulig å gjenkjenne objekter som ikke er spesifikt representert i treningsdataene. Dette er spesielt nyttig i applikasjoner som autonom kjøring og innendørs navigasjon, der ukjente objekter ofte er til stede. Det som tidligere var en betydelig utfordring i 3D-baserte systemer, nemlig gjenkjenning av ukjente kategorier, kan nå løses gjennom CLIPs evne til å generalisere fra tekst og bilder til 3D objektgjenkjenning.

PointCLIP-modellen er dermed et viktig steg mot å overføre den vellykkede 2D-baserte CLIP-teknologien til den mer komplekse 3D-verdenen. Ved å bruke forhåndstrente CLIP-modeller for 2D-gjenkjenning, kan man utnytte både tekst og bilder for å lage et hybrid-modell som kan gjenkjenne 3D objekter uten behov for omfattende spesifik treningsdata. Dette gjør at systemet kan utføre 3D-gjenkjenning på tvers av nye, usette objekter med høy nøyaktighet, selv i tilfeller der dataene er begrenset.

Det som er viktig å merke seg er at, til tross for de imponerende resultatene, er det fortsatt utfordringer knyttet til å oppnå den samme graden av nøyaktighet som ved spesifik 3D-trening på store datasett. Dette kan håndteres delvis gjennom finjustering av modellen, men det er fortsatt et behov for mer omfattende data og ytterligere tilpasning for å virkelig utnytte potensialet i PointCLIP og PointCLIP V2. På den annen side viser disse metodene hvordan eksisterende teknologier kan kombineres på kreative måter for å overvinne barrierer som tidligere har vært sett på som uoverkommelige.

Endelig er det også viktig å understreke den potensielle betydningen av slike modeller i real-world applikasjoner. I for eksempel autonom kjøretøyteknologi vil evnen til å gjenkjenne objekter som ikke er representert i treningsdataene, være avgjørende for å unngå farer i ukjente eller dynamiske miljøer. På samme måte, i andre felt som robotikk, medisinsk bildebehandling, og virtuell virkelighet, kan dette åpne for helt nye anvendelser av 3D gjenkjenning.