De senaste framstegen inom multimodala modeller har drastiskt förändrat landskapet för bild- och språkanalys. Modeller som InternLM-XComposer2-4KHD och andra som har introducerats under de senaste åren, visar på den exponentiella tillväxten av kapaciteten att hantera både bilder och text på en global nivå, och de visar vägen för framtida tillämpningar inom vision-språk-teknologi. Till exempel, InternLM-XComposer2-4KHD representerar en banbrytande modell som inte bara kan hantera upplösningar från 336 pixlar upp till 4K HD, utan också visar på de möjligheter som finns i att utveckla en gemensam arkitektur som är robust nog att hantera sådan stor variation.

Det är särskilt intressant att notera hur dessa teknologier förvandlar vår förmåga att förstå bilder på ett mer nyanserat sätt, genom att skapa modeller som inte bara "ser" en bild, utan också "förstår" den på samma sätt som människor gör. Detta gör det möjligt för modeller som Eva och GLM att utföra uppgifter inom bildigenkänning och språkanalys samtidigt, vilket öppnar dörrar för nya tillämpningar, från självständiga AI-assistenter till automatiserade övervakningssystem.

Den senaste forskningens fokus har varit på att förbättra dessa teknologier genom att skapa mer effektiva och skalbara modeller. Ett exempel är utvecklingen av metoder som Eva, som syftar till att skala upp representerande lärande av visuella maskerade data, vilket har visat sig vara en kraftfull metod för att förstå och bearbeta bilder. Förutom det fortsätter modeller som GLM att förbättra sina förmågor att förstå komplexa bilder genom att använda autogenereringstekniker, där den omedvetet fyller i delar av bildinnehållet baserat på det som redan är känt, vilket gör dem ännu mer användbara för att hantera ofullständiga data.

Flera modeller som Llama-adapter v2 och OtterHD bidrar till att förbättra effektiviteten i visualiseringsinstruktioner och högupplösta multimodala data. Dessa innovationer är särskilt viktiga för att skapa mer effektiva användargränssnitt och system som kräver snabb och korrekt tolkning av bilder i realtid, exempelvis inom sjukvård eller autonom körning.

En annan viktig aspekt som inte kan förbises är hur dessa teknologier påverkar vårt sätt att kommunicera och interagera med datorer. System som CogAgent och mPLUG-DocOwl 1.5 arbetar på att utveckla och förstå användargränssnitt genom att integrera både visuell och språklig information i en sammanhängande struktur. Detta gör det möjligt för dessa system att agera mer som mänskliga assistenter som både förstår och agerar på bilder och text med samma precision och känslighet.

Samtidigt som utvecklingen fortsätter, kvarstår flera utmaningar. En av de mest betydande är hur dessa modeller kan hantera och minska de så kallade hallucinationerna som kan uppstå när modeller genererar felaktig information eller när de konfronteras med visuella illusioner. Forskningsinitiativ som Hallusionbench är redan i gång för att utveckla diagnosverktyg som kan hantera dessa problem och göra modeller mer tillförlitliga och exakta.

För att denna utveckling ska kunna fortsätta och förbättras, är det också avgörande att ta hänsyn till de etiska och samhälleliga aspekterna. Med den ökande förmågan hos dessa modeller att skapa realistiska, men felaktiga, representationer, ökar behovet av strikta riktlinjer för hur de ska användas. Vissa av de senaste modellerna har redan visat på möjligheten att skapa falska eller vilseledande informationer, vilket kan ha allvarliga konsekvenser om de inte hanteras korrekt.

Slutligen är det värt att notera att framtida forskning sannolikt kommer att fokusera på att ytterligare integrera multimodala modeller i en mängd olika applikationer som sträcker sig från automatiserade översättningssystem till autonoma robotar och förbättrade säkerhetslösningar. Dessa innovationer kommer att vara en central del i hur vi formar en värld där människor och maskiner arbetar mer tätt samman.

Hur påverkar initialisering av kontextvektorer prestanda i multimodala modeller?

Vid träning av multimodala modeller, särskilt vision-språkmodeller som CLIP, kan valet av initialisering påverka effektiviteten och prestandan. I det här sammanhanget jämför vi två metoder för initialisering: slumpmässig och manuell initialisering. Vid manuell initialisering använder vi inbäddningar från en meningsfull fras, som till exempel "en bild av en", för att initialisera kontextvektorerna över 11 olika dataset. För att säkerställa en rättvis jämförelse mellan de två metoderna sattes kontextlängden till 4 för båda metoderna. Resultaten visar att valet mellan slumpmässig och manuell initialisering inte har någon signifikant inverkan på modellens prestanda, med en skillnad på mindre än 0,01% i genomsnitt.

Trots att finjustering av initialiseringsfraserna eventuellt kan ge små förbättringar, visar vår observation att en enkel slumpmässig initialisering i praktiken är tillräcklig och mer bekväm. Genom att använda slumpmässig initialisering kan praktiker fokusera på andra aspekter av modelloptimering, utan att behöva lägga mycket tid på att noggrant välja de bästa initialiseringsfraserna. Detta sparar både tid och resurser, och gör det möjligt för forskare och ingenjörer att snabbare gå vidare till mer komplexa optimeringstekniker.

En annan aspekt som är viktig att förstå är att tolkningen av inlärda prompts är utmanande, då kontextvektorerna är optimerade i ett kontinuerligt utrymme. För att få en bättre förståelse av de inlärda vektorerna kan man söka efter ord i vokabulären som ligger nära de lärda vektorerna baserat på det euklidiska avståndet. Eftersom CLIP använder BPE (Byte Pair Encoding) representationen för tokenisering, innebär detta att vokabulären även innehåller subord som ofta förekommer i text, såsom “hu” (som ingår i ord som “hug” och “human”).

I de utförda experimenten visade det sig att vissa ord som "enjoyed" i Food101, "pretty" i DTD och "fluffy" och "paw" i OxfordPets var något relevanta för uppgifterna. Men när vi sammanförde alla de närmaste orden blev prompten inte särskilt begriplig. I fall där manuell initialisering användes (t.ex. "en bild av en") visade de närmaste orden för de konvergerade vektorerna sig oftast vara de som användes för initialiseringen. Det kan tyda på att de lärda vektorerna kan koda betydelser som går bortom den befintliga vokabulären, vilket gör tolkningen svår.

Sammanfattningsvis visar dessa resultat att vi inte kan dra några fasta slutsatser enbart utifrån de närmaste orden. Eftersom semantiken i vektorerna inte nödvändigtvis är kopplad till de närmaste orden, kan de användas för att skapa tolkningar som är missvisande eller ofullständiga. Trots detta är det intressant att notera att promptlärande, även om det är en inlärningsbaserad metod, presterar fördelaktigt jämfört med manuella prompts när det gäller domängeneraliseringsuppgifter.

Modeller som CLIP och dess derivat har visat imponerande resultat inom en rad olika tillämpningar. Dessa stora förtränade modeller, som ibland kallas vision-stiftelsemodeller, är centrala i många av dagens mest avancerade AI-system. För att förbättra deras prestanda och effektivitet på specifika uppgifter krävs dock anpassningar, ofta genom automatiserade tekniker som promptlärande. Promptlärande, som metoden CoOp, har visat sig kunna förbättra resultatet i domänspecifika uppgifter utan att förlora på generalisering, vilket tyder på att metoden har en stor potential för att optimera stora multimodala modeller.

Det är viktigt att förstå att även om initialisering och tolkning av vektorer spelar en central roll i prestandan för dessa modeller, är det inte den enda faktorn. Modellerna kräver också noggrant övervägda träningsmetoder och optimeringstekniker för att uppnå de bästa resultaten. Därför är en förståelse av dessa grundläggande metoder ett första steg, men det krävs även mer omfattande forskning och experiment för att optimera dessa modeller fullt ut för specifika tillämpningar.

Hur DAC Förbättrar Öppenvokabulär Kalibrering i Prompt-Tuning Modeller

I dagens maskininlärning är en av de största utmaningarna att säkerställa att förutsägelserna från modeller är korrekt kalibrerade, särskilt när de tillämpas på nya klasser. En modell som är dåligt kalibrerad tenderar att vara överoptimistisk eller underoptimistisk när den gör förutsägelser om data som den aldrig har sett tidigare. I detta sammanhang har DAC, en metod som förbättrar öppen-vokabulär kalibrering, visat sig vara särskilt effektiv. Genom att identifiera och minska skillnaden mellan de texter som modellen har tränats på och de som är nya, förbättrar DAC påtagligt kalibreringen i existerande prompt-tuning-algoritmer.

En av de största fördelarna med DAC är att den inte kräver tillgång till visuella data för de nya klasserna, vilket ofta kan vara en praktisk barriär i verkliga applikationer. Istället för att förlita sig på att samla in dyra och svåråtkomliga visuella data, kan DAC effektivt arbeta med de textbaserade representationerna, vilket gör metoden både enklare och mer flexibel att implementera.

DAC är också algoritmagnostisk, vilket innebär att den kan integreras med befintliga prompt-tuning-algoritmer utan att kräva omdesign eller omfattande anpassningar. Detta gör den till en kraftfull och lättanvänd lösning för att förbättra kalibreringen av öppenvokabulär i en rad olika användningssituationer. Genom att applicera DAC på etablerade metoder som CoOp, CoCoOp och ProDA har vi sett att kalibreringen förbättras markant över ett brett spektrum av mätvärden, inklusive Expected Calibration Error (ECE), Maximum Calibration Error (MCE) och Proximity-Informed Expected Calibration Error (PIECE).

Vidare har DAC visat sig minska kalibreringsfelet, särskilt när det gäller högkonfidenta förutsägelser. Detta är ett område där många traditionella metoder misslyckas, då de tenderar att vara överoptimistiska i sina förutsägelser när modellen är säker på något, trots att det inte alltid är korrekt. I ett experiment med datasetet DTD, där vi mäter skillnaden mellan förutsagd och verklig noggrannhet för olika förtroendenivåer, visade sig DAC vara särskilt effektiv vid högre konfidenser (0.6–0.9). Till exempel, genom att applicera DAC på CoOp, minskade gapet vid en förtroendenivå på 0.9 från 41,60% till 11,37%, en direkt förbättring på 30,23%.

En annan fördel med DAC är dess robusthet mot val av hyperparameter K, som representerar antalet närmaste grannar som används för att justera kalibreringen. Experiment visar att DAC fortfarande levererar signifikanta förbättringar även när K är inställt på 1, vilket gör metoden både effektiv och flexibel.

Genom att fokusera på textuell representation och hur denna relaterar till både gamla och nya klasser, hanterar DAC ett allmänt problem som många nuvarande modeller inte kan lösa effektivt. Denna metod gör det möjligt att upprätthålla pålitlig kalibrering, även när man arbetar med nya, tidigare osedda klasser.

Det är också viktigt att förstå att DAC inte bara är en lösning för att förbättra kalibreringen på specifika dataset. Den är designad för att vara ett generellt verktyg som kan användas på många olika typer av bildklassificerings- och multimodala uppgifter. Eftersom DAC är integrerbar med en rad olika metoder och inte kräver omfattande resurser eller data, gör det den till en attraktiv lösning för både forskare och praktiker.

För att uppnå de bästa resultaten med DAC är det också viktigt att förstå dess kontext och när den är mest användbar. Trots att DAC ger avsevärda förbättringar, bör användaren vara medveten om att det inte är en magisk lösning för alla problem relaterade till kalibrering. För att optimera dess prestanda bör man noggrant välja de dataset och metoder som är mest relevanta för den specifika applikationen.