De senaste framstegen inom multimodala vision-språkmodeller har haft en dramatisk inverkan på både forskningsfältet och tillämpningen av artificiell intelligens. Dessa modeller är designade för att förstå och generera innehåll på flera nivåer, inklusive text, bild och till och med ljud. Genom att kombinera olika datatyper strävar dessa system efter att efterlikna den mänskliga förmågan att bearbeta och förstå världen genom olika sinnen, vilket ger oss nya insikter i hur AI kan förstå och skapa multimodalt innehåll.

Vision-språkmodeller har varit särskilt viktiga i att förbättra AI:s kapacitet att förstå och interagera med bilder och text på ett sammanhängande sätt. Detta har öppnat nya möjligheter för att lösa komplexa uppgifter som tidigare ansågs omöjliga för datorer. Ett av de mest imponerande framstegen har varit utvecklingen av så kallade generativa modeller som kan skapa bilder baserat på textbeskrivningar. Detta sker genom att AI:n lär sig att koppla samman ord med visuella representationer och på så sätt producera realistiska bilder som svar på specifika instruktioner.

Forskare som Dai et al. och Li et al. har utforskat olika sätt att förfina dessa modeller, vilket gör dem mer flexibla och användbara i en rad olika sammanhang. Genom att integrera instruktionstuning, där modellen tränas att följa specifika instruktioner baserat på den visuella och textuella informationen, har vi sett en ökning i precisionen och anpassningsförmågan hos dessa modeller. Denna teknik innebär att modellen kan bli mer exakt i sin förståelse av både bilder och text genom att direkt använda instruktioner som vägledning.

En annan viktig aspekt är det växande intresset för att skapa multimodala modeller som inte bara är bra på att förstå text och bilder, utan även på att skapa och modifiera dem. Det innebär att en AI inte bara kan svara på en fråga om en bild, utan också kan skapa en bild baserat på en ny textbeskrivning eller justera en befintlig bild enligt specifika anvisningar. Modeller som DALL·E och Stable Diffusion har redan visat prov på denna kapacitet och är idag centrala inom områden som konstskapande, produktdesign och marknadsföring.

Det är också viktigt att förstå att dessa teknologier inte bara har en inverkan på konst och underhållning utan också på mer praktiska områden som medicinsk bildbehandling, där AI kan användas för att analysera och tolka röntgenbilder eller MR-skanningar. Här kan multimodala vision-språkmodeller spela en avgörande roll i att förbättra diagnostiska förmågor genom att koppla samman kliniska data och bilder på ett mer effektivt sätt än tidigare.

En annan viktig aspekt som har väckt diskussion är de etiska och samhälleliga implikationerna av dessa modeller. Genom att ge AI förmågan att skapa bilder och texter kan vi börja ställa oss frågan om upphovsrätt och ansvar. Vem äger en bild som skapats av AI? Och om AI-modellen genererar felaktig eller skadlig information, vem är då ansvarig för de konsekvenser detta kan få? Dessa frågor är centrala för att förstå den långsiktiga inverkan av dessa teknologier på samhället.

Vidare är det viktigt att förstå att dessa system fortfarande är långt ifrån perfekta. De är ofta begränsade av den data de tränas på och kan därför återspegla snedvridna eller partiska perspektiv om de inte är noggrant övervakade och justerade. För att undvika sådana problem måste det finnas ett kontinuerligt arbete med att förbättra kvaliteten på de dataset som används för att träna modellerna, samt att säkerställa att dessa modeller inte används för att sprida skadlig eller vilseledande information.

Därför är det avgörande att ha en grundläggande förståelse för hur dessa modeller fungerar och vilka potentiella risker och möjligheter de medför. Det är inte bara fråga om att skapa mer realistiska bilder eller bättre textgeneratorer – det handlar också om att förstå deras roll i samhället och hur vi kan hantera de komplexa etiska och tekniska utmaningar som uppstår.

För läsaren är det också viktigt att komma ihåg att medan dessa teknologier har visat stor potential, är det fortfarande ett område i snabb utveckling. Det innebär att både forskare och användare måste vara medvetna om den dynamiska karaktären av dessa framsteg och vara beredda att anpassa sina tillvägagångssätt och strategier i takt med att nya lösningar och utmaningar dyker upp.

Hur kan vi effektivt anpassa stora vision-modeller för specifika dataset?

De senaste åren har storleken på vision-modeller ökat exponentiellt, särskilt med framväxten av Vision Transformers. Denna snabba tillväxt har lett till utvecklingen av parameter-effektiva finjusteringstekniker, såsom adapterlager och låg-rank-adaptationslager, som möjliggör finjustering av en liten uppsättning modellparametrar medan majoriteten av de förtränade parametrarna förblir oförändrade. Trots de framsteg som dessa tekniker har medfört, kvarstår flera utmaningar, framförallt inom överföringsinlärning. Större modeller tenderar att överanpassa sig till träningsdata, vilket gör att finjustering på små eller mycket specifika dataset blir en komplicerad process.

För att hantera dessa utmaningar har forskarsamhället inom datorseende riktat blicken mot tekniker som möjliggör parameter-effektiv finjustering. Dessa metoder syftar till att anpassa förtränade modeller genom att bara modifiera en liten del av deras parametrar, ofta genom att lägga till små, träningsbara komponenter som optimeras för specifika uppgifter. Exempel på sådana tekniker är Adapter, Low-Rank Adaptation (LoRA) och Visual Prompt Tuning (VPT).

Enligt våra egna utvärderingar av dessa metoder på VTAB-1k-benchmarket, som omfattar 19 olika vision-dataset, uppstår dock flera begränsningar. För det första presterar ingen metod konsekvent bra över alla dataset. Till exempel, medan VPT utmärker sig vid uppgifter som rör strukturen på scener, som SmallNORB/azimuth, kämpar den på andra dataset som SmallNORB/elevation och Clevr/count, där både Adapter och LoRA presterar bättre. Detta indikerar att varje dataset kräver en noggrann utvärdering för att identifiera den mest effektiva metoden för finjustering.

För det andra är prestanda hos dessa tekniker mycket känsliga för modellens specifika konfiguration och datasetets karaktär. En metod som fungerar bra på ett dataset kan vara mindre effektiv på ett annat, vilket innebär att det inte finns någon universell lösning för alla scenarier. Det är också viktigt att påpeka att vissa metoder kräver mycket större beräkningskraft och lagringsresurser, vilket kan vara en begränsande faktor i praktiska tillämpningar.

För att optimera denna finjustering har vi utvecklat en metod som vi kallar Neural prOmpt seArcH (NOAH). NOAH använder en algoritm för neural arkitektur-sökning för att automatiskt lära sig den optimala designen av promptmoduler för stora vision-modeller, anpassad specifikt för varje nedströms dataset. Denna metod kombinerar tre representativa parameter-effektiva finjusteringstekniker – Adapter, LoRA och VPT – och använder neural arkitektur-sökning för att hitta den bästa lösningen baserat på data.

NOAH:s fördel ligger i dess flexibilitet och effektivitet. Genom att automatiskt justera de olika parametrarna i modellen kan den skräddarsy finjusteringen för varje specifikt dataset utan att behöva omfattande manuella justeringar. Detta gör att modellen kan utnyttja den förtränade kunskapen samtidigt som den optimeras för nya uppgifter, utan att överanpassa sig.

Utöver det är det viktigt att förstå att denna typ av finjustering är avgörande för att effektivt använda förtränade modeller i verkliga tillämpningar. Eftersom vision-modeller ofta tränas på mycket stora och generella dataset kan de ha svårt att generalisera till mer specifika uppgifter utan justeringar. NOAH och liknande metoder representerar en avancerad lösning för att överkomma dessa hinder och gör det möjligt att använda stora vision-modeller även för mindre och mer specialiserade uppgifter.

Endtext

Hur hanterar man de komplexa utmaningarna i multimodal lärande och vision-språkmodeller?

I utvecklingen av vision-språkmodeller (VLM) har forskare stött på flera tekniska och metodologiska utmaningar som rör algoritmer, beräkningskraft och modellarkitektur. De senaste framstegen inom detta område har lett till en större förståelse för hur man kan förena visuell och textuell information, men det finns fortfarande många komplexiteter som kräver uppmärksamhet för att optimera och anpassa modeller för olika användningsområden.

En av de mest grundläggande utmaningarna är att skapa en gemensam representation för både visuella och textuella data. Bilder och videor kodar spatial och perceptuell information i pixlar, medan språket är mer symboliskt och abstrakt till sin natur. För att bygga effektiva VLM krävs en metod som kan förena dessa skillnader och skapa en enhetlig representation som fångar essensen av båda modaliteterna. Denna utmaning har ofta lösts genom stora kontrastiva inlärningstekniker, där bilder och text kopplas samman i ett gemensamt inbäddat rum. Trots dessa framsteg kvarstår svårigheter, särskilt vid hantering av otydlig eller sparsam data.

En annan stor utmaning är utformningen av arkitekturer som kan bearbeta och integrera information från olika källor. Till skillnad från unimodala modeller, måste VLM bearbeta och sammanföra information från vitt skilda modaliteter. Modeller som CLIP, som använder olika kodare för varje modalitet, har visat lovande resultat. Dock kvarstår utmaningar i att optimera dessa modeller för multimodala uppgifter, särskilt när det gäller att hantera interaktionerna mellan dessa olika informationsflöden. Transformer-arkitekturer har revolutionerat detta område, genom att de kan hantera sekvenser av data från olika modaliteter genom självuppmärksamhet. Men transformerbaserade modeller lider av hög beräkningskomplexitet, vilket gör att de är ineffektiva för mycket långa sekvenser.

När man anpassar VLM för specifika uppgifter, som till exempel bildbaserade modeller för videor eller medicinska bilder, uppstår ytterligare svårigheter. VLM-modeller består ofta av hundratals miljoner parametrar, och de datasets som används för nedströmsuppgifter är vanligtvis mycket mindre, vilket ökar risken för överanpassning. Lösningar som parametrisk finjustering, till exempel promptinlärning eller adapterinlärning, används för att hantera dessa problem, men dessa metoder har sina egna svagheter när det gäller generalisering.

Ett annat område som kräver noggrant övervägande är förklarbarhet och tolkbarhet. I känsliga applikationer, som till exempel autonoma fordon eller medicinsk diagnostik, är det av största vikt att kunna förklara varför en modell gör sina förutsägelser. Traditionella metoder, som salienskartor, är inte tillräckliga för VLM, eftersom de inte ger en förståelse för varför en viss bildregion anses viktig för modellen. Förklarbarhet och tolkbarhet är därför nödvändiga för att bygga förtroende i modeller som används i kritiska system.

En annan aspekt som är viktig för den praktiska användningen av VLM är deras förmåga att kontinuerligt lära sig. Detta är avgörande i realtidsapplikationer som kräver anpassning till ständigt föränderliga omständigheter. Till exempel måste en modell som används i självkörande fordon ständigt uppdateras för att hantera nya vägskyltar och förändringar i infrastrukturen. Detta kräver innovativa lösningar, som minneseffektiva arkitekturer och selektiva finjusteringsstrategier, för att kunna bibehålla både äldre och nyare kunskap.

De tekniska utmaningarna sträcker sig också till kommersiella, proprietära modeller. Flera av de mest avancerade modellerna, som GPT-4, görs inte tillgängliga för forskning, vilket försvårar anpassning och vidareutveckling av modeller för specifika användningsområden. Avsaknaden av insyn i modellerna gör det också svårare att förstå hur de fungerar, vilket minskar deras användbarhet för bredare tillämpningar. Bristen på tillgång till modellens viktiga parametrar försvårar arbetet med att upptäcka och åtgärda eventuella snedvridningar eller förklaringar av modellens beslut.

Förutom dessa tekniska och metodologiska utmaningar är det viktigt att förstå den beräkningsmässiga dimensionen av VLM:er. Att träna stora multimodala modeller kräver enorma mängder datorkraft och minne. Stora modeller kan lätt uppnå miljarder av parametrar, vilket gör både träning och inferens till processer som kräver betydande resurser. Denna skalbarhet måste hanteras på ett sätt som gör det möjligt att köra och distribuera dessa modeller på ett effektivt sätt, samtidigt som man behåller tillgång till avancerade funktioner och användbarhet.

Slutligen är det nödvändigt att förstå att VLM:er representerar en långsiktig utmaning för att skapa verklig multimodal förståelse, som kan integrera både text, bild och ljud på ett sätt som motsvarar mänsklig förståelse. Detta innebär att framtida forskning måste fokusera på att förbättra modellerna så att de inte bara kan analysera och generera multimodal information, utan också göra det på ett sätt som kan förklara och justera sig efter den snabbt föränderliga världen omkring oss.

Hur kan OV-DETR förbättra objektigenkänning och generalisering?

OV-DETR representerar ett framsteg inom objektigenkänning genom att kombinera öppen vokabulär och transformerbaserade teknologier. Modellen, som bygger på de senaste framstegen inom detektionstransformatorer, har visat sig vara effektiv för att identifiera objekt även utan att vara tränad på dem tidigare. Genom att använda villkorade textfrågor och bilder för att styra detektionsprocessen, kan OV-DETR identifiera både vanliga och sällsynta objekt i olika domäner.

På OV-LVIS-benchmarken förbättrar OV-DETR ViLD med 4,1 poäng på APm och 1,3 poäng på APmnovel, vilket indikerar en markant ökning i precisionen för ovanliga objekt. En särskild fördel med OV-DETR är att det inte påverkar prestandan för de grundläggande klasserna, samtidigt som det förbättrar detektionsförmågan för de nya, sällsynta klasserna. Jämfört med en ensemblemodell av ViLD-ensemble förbättras resultaten ytterligare med 1,5, 0,8, 1,0 och 2,2 procentenheter för respektive mått. Den stora fördelen med OV-DETR är att den endast använder en enda modell utan att behöva använda någon ensemble-baserad teknik.

En annan viktig aspekt av OV-DETR är dess förmåga att generalisera till nya dataset. När modellen tränades på LVIS och testades på andra dataset som PASCAL VOC och COCO, visade sig OV-DETR vara överlägsen ViLD i termer av överföringsprestanda. Detta tyder på att den villkorsstyrda träningsmekanismen är effektiv för att överföra inlärning från ett dataset till ett annat, vilket är en kritisk egenskap för öppna vokabulärsmodeller som strävar efter att känna igen objekt på ett allmänt sätt utan att vara beroende av specifika träningsdata.

Kvalitativa resultat från både OV-LVIS och OV-COCO visar att OV-DETR inte bara är bra på att detektera objekt som den har tränats på, utan även på att känna igen nya objekt som inte har förekommit i träningsdataseten. Genom att använda både text- och bildfrågor kan modellen framgångsrikt lokalisera och segmentera objekt även om dessa objekt inte har några tidigare annoteringar i träningsdata. OV-DETR har visat sig vara robust även när bilder och frågebilder är mycket olika de objekt som ska detekteras.

En ytterligare fördel är OV-DETR:s förmåga att generalisera till domäner som inte var en del av träningsdata, som till exempel animekaraktärer. Trots att dessa bilder inte var med i träningsdata, kunde modellen effektivt identifiera objekt som matchade de villkorade bildfrågorna, vilket visar på modellens flexibilitet och förmåga att anpassa sig till nya visuella koncept och domäner.

Det finns dock vissa begränsningar med OV-DETR. En av de största nackdelarna är den långsamma inferenstiden, särskilt när modellen arbetar med ett stort antal klasser, som i fallet med LVIS-datasetet som innehåller 1 203 klasser. Detta beror på den villkorsstyrda designen, som kräver flera framåtdragningar genom Transformer-dekodern för varje klass. Jämfört med Deformable DETR är OV-DETR cirka två gånger långsammare på COCO (med 80 klasser) och hela 16 gånger långsammare på LVIS. Trots vissa optimeringar, som att föra flera villkorade frågor parallellt genom transformatorn, finns det fortfarande stort utrymme för förbättringar när det gäller inferenshastigheten. Denna hastighetsförlust är inte unik för OV-DETR, då många modeller som är villkorsstyrda upplever liknande avvägningar mellan noggrannhet och hastighet.

För att verkligen utnyttja potentialen hos OV-DETR, är det viktigt att förstå både dess styrkor och svagheter. För det första visar resultaten att denna modell är exceptionell när det gäller att generalisera till nya klasser och dataset. Men när det gäller inferenstid och effektivitet krävs ytterligare optimering för att kunna hantera större och mer komplexa dataset utan att förlora på prestandan. Genom att fortsätta finjustera och förbättra dessa tekniska aspekter, kan OV-DETR bli ett ännu kraftfullare verktyg för öppen vokabulärsobjektigenkänning i framtiden.

Hur MaskCLIP+ förbättrar prestanda i zero-shot segmentering

I arbetet med segmentering av bilder och objektdetektering i datorseende är ett av de största hindren att hantera stora mängder klassificeringskategorier. När det finns många målklasser i en uppgift, blir endast en liten del av klasserna relevanta för en specifik bild. De övriga klasserna fungerar snarare som störande faktorer och försämrar prestanda för modellen. En viktig åtgärd som tagits för att hantera denna situation är så kallad "prompt denoising", där prompten med den målinriktade klassen tas bort om dess klasskonfidensnivå är under en viss tröskel (t.ex. 0,5) på alla rumsliga positioner.

MaskCLIP, en teknik som inte kräver någon träning, utnyttjar CLIP:s bildencoder för att genomföra en form av zero-shot segmentering. Men även om MaskCLIP är effektiv, finns det begränsningar i dess arkitektur, särskilt för mer avancerade segmenteringsuppgifter. För att övervinna dessa begränsningar föreslogs MaskCLIP+, en vidareutveckling som tillåter användning av mer sofistikerade segmenteringsarkitekturer, som DeepLab och PSPNet. I MaskCLIP+ används DeepLabv2 som ryggrad för att säkerställa en rättvis jämförelse med tidigare metoder inom segmentering.

En av de mest intressanta egenskaperna i MaskCLIP+ är hur modellen använder sin egen förutsägelse som träningsdata. Vid testtillfällen behandlas de förutsägelser som görs av MaskCLIP som pseudo-markeringar för att träna en annan målmodell. Denna modell är byggd för att vara mer skräddarsydd för segmenteringsuppgifter. Genom att använda pseudo-markeringar från MaskCLIP slipper vi begränsningarna i CLIP:s bildencoder, vilket annars skulle leda till suboptimala resultat när segmenteringsmålet är mer komplext.

Vidare tillämpas MaskCLIP-guided learning i situationer där inga annoteringar finns tillgängliga för de oklassificerade klasserna, som i transduktiv zero-shot segmentering. Här används MaskCLIP för att generera pseudo-markeringar för de okända pixlarna utan att förlora prestanda för de redan kända klasserna. Det är en stark fördel eftersom metoder som tidigare förlitat sig på funktionell vägledning ofta inte klarar att balansera prestandan mellan redan kända och okända klasser.

För att ytterligare förbättra resultatet kan självträning användas. Efter ett visst antal träningsiterationer tenderar den målmodell som vägleds av MaskCLIP att överträffa själva MaskCLIP-modellen, vilket gör att MaskCLIP blir mindre effektiv för ytterligare vägledning. Här träder självträning in, där målnätverket börjar generera sina egna pseudo-markeringar för att förbättra sin prestanda utan att förlita sig på externa vägledande modeller.

Denna process har visat sig vara mycket effektiv och resulterar i betydligt bättre prestanda på standardbenchmarktester som PASCAL VOC, PASCAL Context och COCO Stuff. I dessa experiment är resultaten från MaskCLIP+ till och med på samma nivå som för fullt övervakade baslinjer, vilket bekräftar metodens kapabilitet att konkurrera med traditionella träningsmetoder.

När det gäller att implementera MaskCLIP+ på verkliga dataset och använda metoder som annotation-free segmentering, har MaskCLIP+ visat sig vara robust, även under olika bildkorruptioner som Gaussian noise, JPEG-komprimering och spatter. MaskCLIP+ har också visat sig vara särskilt användbar när det gäller att segmentera nya och oväntade koncept i bilder, till exempel filmer och karaktärer som Batman och Joker.

Det är också viktigt att notera att MaskCLIP+ inte bara förbättrar prestanda för segmenteringsuppgifter utan också erbjuder en lösning för att hantera bildstörningar och förluster i datainsamling, vilket är vanliga problem i verkliga applikationer. Genom att kombinera fördelarna med ett självtränande system och pseudo-markeringar kan MaskCLIP+ tillhandahålla en effektiv lösning för segmentation med minimal mänsklig inblandning.