Multimodala stora språkmodeller (MLLMs) har haft en avgörande inverkan på utvecklingen av artificiell generell intelligens (AGI), genom att de har möjliggjort komplexa språkuppgifter som tidigare ansågs vara exklusivt mänskliga. Den senaste utvecklingen av kommersiella MLLMs, såsom OpenAI:s GPT-4V, markerar en betydande evolution inom detta område. Genom att integrera visuella ingångar för att bearbeta både text och bildinnehåll, erbjuder GPT-4V en ny nivå av mångsidighet. Denna förmåga att hantera multimodal information är en grundläggande skillnad från tidigare språkmodeller som endast fokuserade på text.
Vidare har Google, med sin Gemini-serie, utvecklat system som inte bara bearbetar text och bild utan även ljud. Gemini 1.5 har visat sig effektivt kunna stödja upp till en miljon tokens, vilket dramatiskt ökar modellens prestanda. Andra framstående kommersiella multimodala modeller inkluderar Anthropic’s Claude-3V, HyperGAI’s HPT Pro och Apple’s MM1, alla av vilka bidrar till att bredda tillämpningarna och kapabiliteterna inom AGI.
Den ökande populariteten av öppen källkod inom MLLMs har haft en betydande inverkan på landskapet, genom att dessa modeller också förbättrar möjligheterna att bearbeta både visuella och textuella data. Modeller som LLaVA, MiniGPT-4 och VisionLLM har fått uppmärksamhet för deras förmåga att kombinera text och bild. Men dessa öppen källkodsmodeller har fortfarande begränsningar när det gäller att hantera dokument, diagram och infografik, eller känna igen text i scener, jämfört med ledande kommersiella alternativ.
Trots framstegen med öppen källkod och kommersiella modeller, finns det fortfarande betydande utmaningar när det gäller att träna multimodala modeller med högupplösta bilder. De flesta öppna modeller tränas fortfarande på bilder med relativt låg upplösning (t.ex. 336×336 eller 448×448), vilket leder till suboptimala resultat för bilder med ovanliga aspektförhållanden eller dokumentdata. För att hantera detta problem har två huvudsakliga metoder utforskats: att designa bildkodare med dubbla grenar och att dela upp bilderna i många lågupplösta sektioner. Trots dessa ansträngningar visar öppen källkodstillgång fortfarande stora brister när det gäller att förstå komplexa bild-text-sammanhang, som dokument eller diagram, i jämförelse med de kommersiella modellerna.
InternVL, en ny multimodal modell som utvecklats för att hantera både text och bild på en högre nivå, har introducerat en innovativ arkitektur. Den kombinerar en stor visionär kodare, InternViT-6B, med en språkförmedlare. Denna struktur är skräddarsydd för att balansera prestanda, effektivitet och stabilitet. Med en visionär transformer (ViT) som grund för InternViT-6B och ett språk-mellanled som inledningsvis använder den flerspråkiga LLaMA-7B-modellen, syftar InternVL till att förbättra uppgifterna för bild-text-samordning genom kontrastiv lärning och generativ träning.
I träningsstrategin för InternVL sker tre olika faser. Först, i den kontrastiva träningsfasen, sker en pre-träning av bild och text där modellerna lär sig att skapa gemensamma representationer. Sedan, i den generativa träningsfasen, börjar modellen att generera respons baserat på användarfrågor. Slutligen finjusteras modellen genom övervakad träning för att säkerställa att den kan hantera en rad uppgifter med hög precision.
Den stora styrkan i InternVL är att modellen kan fungera som en "Swiss Army Knife" för en rad olika uppgifter, både visuella och multimodala. För visuella uppgifter kan InternViT-6B användas för att skapa detaljerade funktioner från bilder som kan användas för uppgifter som bildklassificering eller täta prediktioner. För bild-text kontrastiva uppgifter appliceras uppmärksamhetspooling för att skapa en global visuell funktion, som sedan jämförs med den textbaserade representationen för att mäta likheter.
InternVL:s flexibilitet och skalbarhet gör den till en viktig byggsten för framtidens AGI-system. Genom att kontinuerligt förbättra och anpassa kombinationen av bildkodare och språkmodeller, ligger dessa modeller i framkant för att möjliggöra mer intelligenta och dynamiska system.
Det är viktigt att förstå att utvecklingen av multimodala modeller inte bara handlar om att förbättra deras förmåga att bearbeta text och bild. Det handlar också om att utmana och tänja på gränserna för hur vi kan använda AI för att förstå och bearbeta världens komplexa, flerdimensionella data. De framsteg som görs på detta område är inte bara teknologiska, utan också teoretiska, och kan ge oss nya insikter i både hur vi själva förstår världen och hur vi kan interagera med den digitala världen.
Hur kan stora multimodala modeller efterlikna människans förmåga till kontextuell inlärning?
I dagens snabbutvecklande teknologiska landskap ser vi stora framsteg inom multimodala modeller som hanterar komplexa uppgifter som involverar både text och bild. Men trots dessa framsteg står vi fortfarande inför betydande utmaningar, särskilt när det gäller att skapa modeller som kan generalisera till nya uppgifter med minimal instruktionsmängd eller exempel. Människor har en förmåga att snabbt anpassa sig till nya uppgifter genom att använda mycket få exempel, och det är denna förmåga som kallas för kontextuell inlärning. Det är en förmåga som nuvarande multimodala modeller fortfarande kämpar för att efterlikna.
Denna kapitelintroduktion fokuserar på Emu2, en multimodal modell med 37 miljarder parametrar, som visar att det är möjligt för stora generativa förtränade multimodala modeller att uppnå liknande förmågor till kontextuell inlärning. Genom att träna Emu2 med ett enhetligt autoregressivt mål – att förutsäga nästa multimodala element, oavsett om det är visuella inbäddningar eller text – demonstrerar vi hur modellen effektivt kan generalisera till nya, tidigare osedda multimodala uppgifter.
Träningsprocessen för Emu2 involverar stora multimodala sekvenser, inklusive text, bild-text-par och sammanflätad bild-text-video-data. Detta ger modellen möjlighet att lära sig från ett brett spektrum av data och tillämpa denna kunskap på både standarduppgifter och nya uppgifter som inte var en del av träningen. Två huvudsakliga scenarier har använts för att testa modellens kapacitet: (a) ett få-exempel-scenario, där modellen får så många exempel som får plats i dess kontextuella fönster, och (b) instruktionstuning, där modellen finjusteras för att följa specifika instruktioner för uppgiftslösning.
I få-exempel-scenariot presterar Emu2 på en nivå som överträffar tidigare modeller på flera vision-språk-uppgifter. En särskild framgång kan observeras inom visuell fråge-svar-benchmarking, där vi ser förbättrad prestanda i takt med att antalet exempel i kontexten ökar. Modellen kan exempelvis känna igen och räkna objekt i ett specifikt format och reagera flexibelt på visuella signaler, såsom cirklar ritade på bilder, vilket belyser Emu2:s kapacitet att hantera visuella ledtrådar och svara på visuella uppmaningar.
En av de mest intressanta egenskaperna hos Emu2 är dess förmåga att hantera sammanflätade sekvenser av text, bild och video som både ingångs- och utgångsdata. Detta gör modellen mycket flexibel och kapabel att hantera en mängd multimodala uppgifter. För att ytterligare belysa detta, har Emu2 uppnått enastående resultat i visuell fråge-svar-uppgifter efter instruktionstuning med konversationsdata. Denna finjustering gör att Emu2 överträffar mer komplexa modeller och öppnar möjligheter för högkvalitativ kontrollerad visuell generation. Modellen kan ta emot en blandning av text, plats och bildinmatningar och generera bilder som är förankrade i de specificerade villkoren.
Trots Emu2:s breda förmågor och imponerande resultat, kräver det fortsatt forskning för att säkerställa ansvarsfull användning och förebygga missbruk av dessa kraftfulla teknologier. De etiska implikationerna av sådana multimodala modeller är viktiga att beakta när vi överväger deras framtida användning i samhället. Hur ska vi säkerställa att dessa modeller inte används för skadliga ändamål, och hur ska vi reglera deras tillämpning för att skydda individens integritet och samhället i stort?
Det är också avgörande att förstå att även om Emu2 och andra multimodala modeller har imponerande förmågor att generalisera och utföra uppgifter med minimalt antal exempel, så är det fortfarande en lång väg kvar tills vi har modeller som helt kan efterlikna den mänskliga förmågan att förstå och anpassa sig till nya, okända uppgifter. Trots stora framsteg i teknik och forskning är det fortfarande många hinder att övervinna innan vi kan skapa modeller som helt och hållet kan ersätta eller överträffa den mänskliga inlärningen i praktiska, komplexa scenarier.
För att verkligen förstå och tillämpa dessa avancerade modeller på ett effektivt sätt, är det viktigt att inte bara fokusera på deras tekniska prestanda utan också på deras sociala och etiska konsekvenser. Det finns också ett behov av att vidareutveckla metoder för att säkerställa att modeller som Emu2 inte bara är effektiva utan också rättvisa och säkra i sina tillämpningar.
Hur optimering av kontext förbättrar prestanda i Vision-Language modeller
När vi talar om optimering av kontext i moderna vision-språkmodeller (VL), hänvisar vi till en metod där modellen kan anpassa sina förmågor till specifika klassifikationer genom att lära sig kontextuella representationer. Denna teknik är en central del av utvecklingen av mer effektiva och anpassningsbara modeller för uppgifter som bildigenkänning och textklassificering. I denna process spelar textencoder-modellen en avgörande roll, där den använder fördefinierade promptar för att översätta bilder till textuella representationer som kan bearbetas vidare.
Konceptet för kontextoptimering (CoOp) innebär att man modellerar en prompts kontext med hjälp av en uppsättning lärbara vektorer som kan optimeras genom att minimera klassificeringsförlusten, medan vikterna i den förtränade modellen hålls fasta. Denna metod tillåter förbättrad prestanda genom att skapa specifika kontext-vektorer som kan anpassas för att bättre återspegla unika bildklassifikationer. Till exempel, en fördefinierad klass-token i slutet av prompten kan ersättas med den relevanta klassens ordvektorer för att förbättra träningen av modellen.
En grundläggande skillnad i kontextoptimering handlar om valet mellan ett enhetligt kontextsystem och ett klass-specifikt system. Vid användning av ett enhetligt kontext delas samma kontext mellan alla kategorier, vilket innebär att prompten, som ges till text-encodern, har samma uppbyggnad oavsett klass. Det finns dock tillfällen då ett mer skräddarsytt tillvägagångssätt kan ge bättre resultat. I sådana fall används ett klass-specifikt kontext, där kontext-vektorer är unika för varje klass och kan anpassas för att bättre reflektera de särdrag som gör varje kategori distinkt.
När man genomför kontextinlärning kan den vanliga metoden vara att minimera den tvärgående entropiförlusten (cross-entropy loss). Detta görs genom att bakåtföra gradienter genom text-encodern, vilket tillåter modellen att använda den rika kunskap som finns i den förtränade text-encoderns parametrar. Denna form av differenierbar inlärning tillåter en fullständig utforskning i ordembeddingrummet och gör det möjligt att skapa mer uppgiftsspecifik kontext.
I experimentella inställningar använder CoOp förträning på uppgifter från olika domäner, inklusive objektigenkänning och mer finfördelade klassifikationer som rasidentifiering för husdjur eller bilmodellklassificering. Dessa uppgifter testas på olika dataset som ImageNet, Caltech101, och OxfordPets, bland andra. Genom att använda dessa dataset kan CoOp-modellen tränas och utvärderas för att förbättra klassifikationen även vid få träningsexempel, vilket är en central aspekt i fåskottsinlärning (few-shot learning).
En annan viktig aspekt i dessa experiment är hur kontextinlärning förhåller sig till andra tillvägagångssätt, såsom traditionell zero-shot inlärning. Genom att jämföra CoOp med handgjorda promptar, finner vi att den adaptiva förmågan hos CoOp ger mer flexibla och effektiva resultat i situationer där klassifikationen kräver mer precis och uppgiftsspecifik förståelse av kontexten. Zero-shot metoder, där inga träningsdata används för att anpassa modellen till en specifik uppgift, tenderar att vara mindre effektiva i sådana sammanhang.
Vad som är särskilt intressant i CoOp’s resultat är hur modellen lyckas anpassa sig till nya domäner och dataset genom att använda en förutbestämd uppsättning prompts. Exempelvis, genom att använda "a photo of a [CLASS]" för generella objekt eller "a type of food" för finfördelade mattyper, kan modellen snabbt anpassa sig till nya kategorier och miljöer, vilket gör den mycket mångsidig.
För att förstå den fulla potentialen av CoOp och relaterade metoder inom vision-språkmodeller är det viktigt att också känna till de underliggande teknologierna och arkitekturerna. CLIP-modellen, som används som bas, är tränad på en kontrastiv inlärningsprincip, vilket innebär att den lär sig att koppla samman bilder och text genom att identifiera gemensamma representativa funktioner. Detta skiljer sig från andra modeller som är tränade för att förstå och generera text (autogressiv inlärning), vilket gör att vision-språkmodeller måste designas och optimeras på ett annat sätt för att ge bra resultat.
Vidare krävs det för att maximera nyttan av dessa tekniker att ha en god förståelse för hur de olika hyperparametrarna – såsom antalet kontexttokens och inlärningshastigheten – påverkar modellens förmåga att generalisera och anpassa sig till nya uppgifter. Experiment som de som utförts på dataset som ImageNetV2, ImageNet-Sketch och ImageNet-A visar att vision-språkmodeller kan förbättra sin robusthet och noggrannhet även vid adversariella eller stilistiska förändringar av bilder.
Hur kan CLIP anpassas för att förstå 3D?
Kontrastiv Vision-Language Pre-training (CLIP) har visat banbrytande resultat i zero-shot och few-shot inlärning, särskilt inom 2D-domänen. Framgången i 2D har väckt frågan om det är möjligt att anpassa CLIP, tränad på stora mängder bild-textpar, för att användas inom 3D-igenkänning. Denna kapitel diskuterar PointCLIP och PointCLIP V2, och visar att det faktiskt är möjligt att anpassa CLIP-encoderade punktmoln till 3D-kategorirepresentationer genom att använda både bild- och textinlärning.
PointCLIP projicerar punktmoln till flervy-2D-bilder, vilket underlättar extraktionen av geometrisk information från 3D till 2D. Denna projektion gör det möjligt att bevara de unika egenskaperna hos punktmolnet, samtidigt som det introducerar möjligheten att använda visuella representationer i en lättare och mer tidsbesparande form. För att extrahera globala funktioner har PointCLIP ett intervjuadapter, som avsevärt förbättrar prestandan genom att enbart finjustera denna lätta adapter.
Vidare förbättrar PointCLIP V2 prestandan och generaliseringsförmågan ytterligare genom att införa en formprojektion som hjälper till att skapa mer realistiska djupkartor och minskar gapet mellan projicerade punktmoln och naturliga bilder. V2 kombinerar också CLIP med stora språkmodeller (LLM) för att generera 3D-specifik text, vilket förbättrar extraktionen av funktioner från CLIPs textencoder. Punktmoln som är fördefinierade av CLIP blir därmed mer precisa, och CLIP:s förmåga att hantera nyskapade eller "osedda" objekt förbättras avsevärt.
När vi pratar om de tekniska aspekterna är det viktigt att förstå den särskilda svårigheten med att bearbeta 3D-punktmoln. Dessa står inför flera unika utmaningar som inte existerar i 2D, såsom utrymmesbrist och slumpmässig fördelning av data. Detta gör att traditionella metoder från 2D inte direkt kan tillämpas på 3D. Dessutom innebär de stora mängder punktmolndata som inte ingår i de föruttränade modellerna, att identifieringen av "osedda" objekt blir en särskild utmaning. Det är här CLIP:s text-bild-modell gör skillnad genom att använda en metod för öppen vokabulär som gör det möjligt för modellen att känna igen objekt baserat på textbeskrivningar snarare än att vara begränsad till förtränade kategorier.
Trots att PointCLIP möjliggör zero-shot klassificering av punktmoln utan att behöva en specifik 3D-träning, finns det fortfarande en prestandaförlust jämfört med traditionella punktmoln-nätverk som har tränats på omfattande dataset. För att hantera detta problem introducerar PointCLIP en lärbar intervjuadapter som förbättrar extraktionen av funktioner från flervy-bilder i en few-shot inställning. Genom att kombinera funktionerna från alla vyer och extrahera den kompakta globala punktmolnsegenskapen, gör denna adapter det möjligt för modellen att bättre känna igen objekt trots begränsade träningsdata.
Den andra versionen, PointCLIP V2, visar sig vara ännu mer kraftfull genom att erbjuda en integrerad lösning för att förbättra generaliseringsförmågan och minska domängapet mellan projicerade punktmoln och naturliga bilder. Den nya modellen tar hjälp av formprojektioner och CLIP:s samarbete med LLM för att skapa mer precisa 3D-texter och generera bättre funktioner från både visuell och textuell data. Dessa förbättringar gör att CLIP-baserade modeller inte bara kan bearbeta 2D-bilder utan också fungera effektivt i 3D-sammanhang.
Det är avgörande att förstå att denna utveckling av CLIP för 3D inte innebär en ersättning för existerande tekniker inom 3D-djupinlärning, utan snarare en komplettering. CLIP:s flexibilitet i att hantera både visuella och textbaserade indata gör det möjligt för forskare och ingenjörer att föra samman olika modaliteter för en mer robust och flexibel förståelse av 3D-data. Med dessa framsteg öppnas dörrarna för en mer precis och kraftfull 3D-igenkänning utan krav på stora mängder specifikt träningsdata.
För att fullt ut förstå potentialen i dessa nya metoder, är det viktigt att läsaren noterar att integrationen av stora språkmodeller i 3D-vision kan förändra hela landskapet för hur vi ser på och använder 3D-data. Denna sammansmältning av text och bild inte bara förbättrar klassificeringen av redan kända objekt, utan ger också en väg framåt för att hantera helt nya, osedda objekt utan behovet av dyra och tidskrävande träningsprocesser.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский