Hur kan vi förbättra multimodal inlärning genom promptteknik och anpassning av vision-språkmodeller?

Det är allmänt känt att stora förtränade vision-språkmodeller, som CLIP, har stor potential för att lära sig representationer som kan tillämpas på en rad olika uppgifter. Till skillnad från traditionell representationinlärning, som främst förlitar sig på märkta data, fungerar vision-språk förträningsmodeller genom att justera bilder och text inom ett gemensamt funktionsutrymme. Denna justering möjliggör överföring utan specifik finjustering till olika uppgifter genom användning av så kallade prompts, där klassificeringsvikter genereras från naturliga språkbeskrivningar av målklasser.

En av de största utmaningarna vid användning av dessa modeller är utveckling och optimering av prompts. Den här processen är både tidskrävande och kräver betydande expertkunskaper. Det är lätt att små förändringar i formuleringen kan påverka modellens prestanda i hög grad, vilket gör att manuellt utformade prompts blir arbetsintensiva och mindre flexibla. För att lösa detta problem, introducerades en enkel men effektiv metod för att anpassa CLIP-liknande vision-språkmodeller för bildigenkänning, en metod kallad Context Optimization (CoOp).

CoOp är en metod som använder träningsbara vektorer för att modellera kontexten i prompts, samtidigt som parametrarna för den förtränade modellen förblir orörda. Denna metod har visat sig överträffa manuellt skapade prompts i test på elva olika benchmark-datamängder. Genom att optimera dessa vektorer kan modellen bättre förstå och tolka den kontext som presenteras för den, vilket förbättrar dess prestanda på specifika uppgifter.

En viktig fördel med CoOp är att det kräver betydligt mindre expertkunskap i jämförelse med traditionell promptdesign. Genom att använda träningsbara vektorer för kontexten i prompts slipper användaren finjustera varje enskild prompt manuellt. Istället handlar det om att justera dessa vektorer för att förbättra modellens inlärning av sammanhanget i text-bilduppgifter. Resultaten från tester visar att denna metod kan förbättra modellens kapabiliteter avsevärt, inte bara för bildigenkänning utan också för andra multimodala uppgifter.

Förutom den enkla och effektiva naturen av CoOp, påpekas det också att denna metod erbjuder en mer flexibel och skalbar lösning för hantering av multimodala uppgifter. Eftersom modellen inte kräver omfattande finjustering av de förtränade parametrarna, minimeras behovet av data som är specifikt märkta för varje uppgift. Detta innebär att CoOp gör det möjligt för forskare och praktiker att snabbare implementera vision-språkmodeller på nya uppgifter utan att behöva börja om från början med varje ny domän.

En annan viktig aspekt som bör beaktas är att även om CoOp erbjuder en kraftfull lösning för att förbättra användningen av multimodala modeller, innebär inte detta att promptutveckling i sig försvinner som en viktig komponent i arbetet med vision-språkmodeller. Snarare betyder det att den blir mer tillgänglig och mindre beroende av expertkunskap, vilket gör att fler användare kan tillämpa denna teknik i sina egna forsknings- och utvecklingsmiljöer.

Det är också värt att förstå att framgången för metoder som CoOp inte bara beror på optimeringen av vektorer utan också på hur väl de förtränade modellerna är byggda från början. En stor del av den framgång som dessa teknologier har haft beror på att de är tränade på mycket stora och diversifierade datamängder, vilket gör dem kraftfulla i att generalisera över en mängd olika uppgifter. Men även med förtränade modeller av hög kvalitet är det viktigt att anpassa dem korrekt för att säkerställa att deras kapabiliteter utnyttjas maximalt i specifika sammanhang.

I ett bredare sammanhang visar detta att multimodal inlärning inte bara handlar om att använda en teknik, utan också om att kunna navigera mellan olika tekniker för att optimera prestanda på specifika uppgifter. I framtiden kommer det troligtvis att finnas fler tekniker som gör det möjligt att finjustera och optimera multimodala modeller utan att förlora det breda och kraftfulla användningsområdet hos dessa modeller.

Hur påverkar textbaserad justering av CLIP-modeller klassificeringskalibrering?

Vid justering av CLIP-modeller genom prompt-tuning observeras huvudsakliga effekter i de textbaserade funktionerna. Denna insikt väcker frågan om hur förändringar i textfunktionerna bidrar till den miscalibrering som ofta uppstår för nya klasser i öppet vokabulär. För att bättre förstå denna miscalibrering i vision-språkmodeller (VLM) efter prompt-tuning, analyserar vi det inom den gemensamma representationsrymden för både bilder och text. Genom att inspireras av begreppet "modality gap" bearbetas bild-text-par från nedströmsdataset med både zero-shot och finjusterade CLIP-modeller. Deras inbäddningar projiceras sedan i ett tvådimensionellt rum med hjälp av singulärvärdesuppdelning (SVD) för att visualisera förhållandena.

Som vi ser i figuren ovan, där inbäddningar från noll-skott och justerade CLIP-modeller visualiseras, märks ett avsevärd avstånd mellan de textuella distributionerna för de ursprungliga och nya klasserna. Medan i noll-skott CLIP är inbäddningarna för samma modalitet relativt välgrupperade, skapar prompt-tuning ett markerat gap i den textuella distributionen mellan gamla och nya klasser. Denna skillnad leder till en avsevärd ökning av Expected Calibration Error (ECE), vilket pekar på modellens bristande kalibrering. Enligt dessa observationer kan vi preliminärt anta att graden av avvikelse i den textuella distributionen är en avgörande faktor för den öppna vokabulärkalibreringen i CLIP.

För att bekräfta denna hypotes introducerar vi en mätning som baseras på avstånd, kallad "proximity", för att kvantifiera graden av avvikelse i funktionerna. Proximity definieras som en funktion som korrelerar invers med det genomsnittliga avståndet mellan ett testprov och dess K närmaste grannar i det hållna uppsättningen. Denna definition innebär att när proximiteten för ett testprov ökar, ökar sannolikheten för att provet tillhör samma distribution som den hållna uppsättningen. I VLM:s sammanhang används proximitet för att uppskatta det textuella gapet mellan redan kända klasser och nya klasser vid testtillfället.

När vi analyserar sambandet mellan proximitet och kalibrering för nya klasser, ser vi ett tydligt mönster: lägre proximitet är kopplat till högre självförtroende och högre ECE. Detta innebär att när ett textuellt prov är avlägset från den inlärda distributionen för de ursprungliga klasserna, tenderar det justerade VLM att visa överdrivet självförtroende, vilket leder till en sämre kalibrering. Vid inferens, om en klass avviker avsevärt från den textuella distributionen som lärdes under träningen, kan den justerade CLIP-modellen misslyckas med att passa bra över modaliteterna, vilket resulterar i felaktiga självförtroendebedömningar. Det är dessutom intressant att notera att vanliga kalibreringstekniker, såsom Temperature Scaling (TS), inte bara misslyckas med att lösa detta problem utan i vissa fall kan förvärra det.

För att hantera denna utmaning introducerar vi en metod för att justera de predicerade självförtroendenivåerna, baserat på avvikelser i de textuella funktionerna. Denna metod innebär att använda en textuell avvikelse-baserad poäng för att skala temperaturvärdet, vilket uppdaterar självförtroendenivåerna för att bättre stämma överens med den verkliga sannolikheten för korrekt klassificering. Textuell deviation (TD) beräknas genom att jämföra avståndet mellan nya klasser och de ursprungliga klasserna i både den förtränade och finjusterade CLIP-modellen. Om TD-poängen är låg betyder det att klassen har en större sannolikhet att divergera från de ursprungliga klasserna och därmed är det mer benägen att visa överdrivet självförtroende.

Enligt vår metod, när vi inför denna justering vid inferens, bibehålls de vanliga kalibreringsresultaten för de ursprungliga klasserna, medan justeringen förbättrar kalibreringen för de nya klasserna genom att skala om självförtroendet för dessa baserat på deras textuella avvikelse. För detta ändamål beräknas det justerade logitvärdet för varje testprov genom att kombinera den justerade temperaturvärdet med det predicerade textuella avståndet. Detta ger en mer realistisk och kalibrerad inferens för nya klasser, särskilt när dessa har en låg proximitet till de ursprungliga klasserna.

Slutligen bör det understrykas att metoder som DAC (Distance-Aware Calibration) är praktiska, eftersom de baseras enbart på textbaserad information utan behov av externa datasätt eller överdriven justering av den visuella informationen. Denna metod hjälper till att bättre kalibrera VLM:s förmåga att hantera öppet vokabulär, där nya klasser kan behandlas på ett sätt som förbättrar förutsägbarheten utan att påverka precisionen för de redan kända klasserna.

Hur MaskCLIP+ Förbättrar Prestanda för Zero-Shot Dense Segmentering utan Annotationskrav

MaskCLIP+ representerar ett betydande framsteg inom området för zero-shot dense segmentering, där systemet inte kräver någon mänsklig annotation för att göra noggranna och tillförlitliga segmenteringar. Med hjälp av MaskCLIP:s förmåga att använda förutbildade modeller och pseudo-etiketter, kan MaskCLIP+ uppnå imponerande resultat även på komplexa uppgifter som tidigare krävde omfattande manuellt arbete och datamärkning. Exempelvis, när MaskCLIP+ tillämpades på PASCAL Context utan någon form av mänsklig annotation, uppnådde det en mIoU på 31,1, vilket bevisar dess effektivitet för segmenteringsuppgifter där traditionell träningsdata inte är tillgänglig.

En av de mest intressanta insikterna från MaskCLIP+ är den förmåga som finns att hantera nya och okända kategorier, vilket innebär att systemet kan segmentera objekt som inte ingick i träningsdata. Till skillnad från traditionella segmenteringsmetoder, som kräver att alla kategorier är fördefinierade och annoterade, gör MaskCLIP+ det möjligt att utföra segmentering på bilder med objekt som kan vara både ovanliga och finare i sin kategorisering, som till exempel en röd bil kontra en gul bil. Detta gör tekniken oerhört flexibel och användbar för en rad olika applikationer, från bildsökning och digitalt innehåll till automatiserad bildbearbetning där man inte alltid kan förutsäga vilka objekt som kan förekomma.

Den stora förbättringen MaskCLIP+ ger är inte bara en högre noggrannhet utan också en förbättrad robusthet, särskilt när det gäller hantering av korrumperade eller förvrängda bilder. I experiment som innefattar olika former av bildförstöringar visade det sig att MaskCLIP+ var mycket mer motståndskraftig mot dessa än tidigare modeller som byggde på ResNet. Vid olika nivåer av bildförstöring, från milda till de mest allvarliga, behöll MaskCLIP+ förmågan att skapa tillförlitliga etiketter och segmenteringar, vilket gör den användbar för applikationer där bildkvaliteten kan variera kraftigt.

För att uppnå denna höga prestanda bygger MaskCLIP+ på en transduktiv inställning av zero-shot segmentering, vilket innebär att modellen, även om den inte får någon information om de osedda klasserna under träningen, kan tilldela pseudo-etiketter till pixlar som tillhör dessa osedda klasser. Den här metoden gör det möjligt för MaskCLIP+ att överträffa tidigare metoder som SPNet och ZS3Net, som båda kräver att nätverken tränas på en viss uppsättning klasser eller använder efterbehandlingstekniker för att förbättra sina resultat. MaskCLIP+ har dock fördelen att den inte kräver någon sådan efterbehandling, vilket gör den enklare och mer direkt att implementera.

Den framträdande egenskapen hos MaskCLIP+ är också dess förmåga att hantera finare och mer varierade objektklasser, såsom specifika färger på bilar eller specifika ansikten av kändisar, och till och med helt nya koncept, som animerade karaktärer. Detta gör att MaskCLIP+ är särskilt användbart för applikationer som involverar storskalig bildanalys eller automatisk identifiering av objekt i bilder som kommer från internet eller oberoende bildkällor, där tillgången till etiketter är begränsad.

När det gäller jämförelse med andra metoder visade resultaten att MaskCLIP+ inte bara överträffade tidigare teknologier i termer av prestanda för osedda klasser, utan också var konkurrensmässig i förhållande till fullt övervakade modeller. På PASCAL VOC, PASCAL Context och COCO Stuff förbättrade MaskCLIP+ den tidigare bästa metoden med en signifikant marginal i både mIoU för osedda klasser och den harmoniska medelvärdet för både sedda och osedda klasser. Det visade sig också vara konkurrensmässig i relation till de helt övervakade baslinjerna, vilket gör det till ett starkt alternativ för verkliga användningsområden där man vill minska behovet av manuell datamärkning.

När man tänker på implementeringen av MaskCLIP+ i praktiska tillämpningar är det viktigt att förstå att även om modellen är exceptionellt kraftfull, kan det finnas utmaningar med att hantera mycket komplexa och ovanliga bilder. Till exempel kan resultat från bilder med ovanliga eller mycket abstrakta objekt ibland bli mer osäkra, även om MaskCLIP+ har visat sig vara robust under de flesta förhållanden. Ändå, ju mer diversifierad och representativ träningsdata som finns tillgänglig, desto bättre kommer modellens prestanda vara i olika scenarier.

Hur kan CLIP anpassas för att förstå 3D-objekt utan träning?

Att tolka och förstå tredimensionella objekt utan specifik träning har länge varit en utmaning inom datorseende. Med framväxten av multimodala modeller som CLIP, och dess senare varianter som PointCLIP V2, har en ny riktning tagit form – där språkets uttryckskraft utnyttjas för att förbättra 3D-förståelse. Istället för att använda generiska texter som ”ett foto av en [KLASS]”, används nu rikligt detaljerade och semantiskt laddade beskrivningar genererade av språkmodeller som GPT-3, vilket ger CLIP ett mer formriktigt och innehållsligt rikt språkankare för 3D-tolkning.

Med hjälp av GPT-3 utvecklas fyra strategier för att skapa sådana 3D-specifika texter. För det första används beskrivande kommandon där modellen skapar övergripande captioner baserat på djupkartor – till exempel: ”Det skildrar [fönstret] som en mörk glasruta.” Därefter kommer fråge-svar-strategin där GPT-3 svarar på hur specifika objekt ser ut i djupkartor. Den tredje metoden är omskrivningar av befintliga beskrivningar för att berika variationen, och slutligen används nyckelordsgenerering där en uppsättning begrepp omformas till kompletta, semantiskt tunga meningar. På så sätt fylls den språkliga representationen med kontextuella och geometriska detaljer som är relevanta för 3D-strukturen.

När denna procedur tillämpas på ett dataset med K kategorier, ersätts [KLASS] i varje kommando med respektive kategori, vilket genererar ett rikt textmaterial som sedan matas in i CLIP:s textkodare. Resultatet blir en förstärkt text-bild-överensstämmelse, särskilt tydlig i likhetskartor där förbättrad korrelation mellan projicerade visuella drag och textbeskrivningar framträder.

Denna metod möjliggör en ny form av 3D-lärande i öppna världar. I zero-shot-klassificering visar PointCLIP V2 inte bara förbättrad prestanda utan också robust generaliseringsförmåga. Detta beror dels på den realistiska projektionen av punktmoln till djupkartor, och dels på den semantiskt anpassade textgenereringen. Dessa två komponenter integreras i ett system som både kan förstå objekt utan tidigare exempel och segmentera delar av dem.

I få-exempel-lärande (few-shot) anpassas projektionen till en lärbar modul där punktmoln omformas till voxlar, filtreras med Gaussisk utjämning och bearbetas med 3D-konvolutioner. Denna modul lär sig att generera CLIP-kompatibla djupkartor. Tillsammans med en adaptermodul (interview adapter) från tidigare versioner uppnås förbättrad tolkning av geometrisk information i små dataset.

Vidare visar PointCLIP V2 förmåga till noll-exempel-segmentering av objektets delar. Genom att extrahera täta visuella drag från olika projicerade vyer och matcha dessa med textuella drag genererade för varje del (t.ex. ”Beskriv [DEL] av en [KLASS] i en djupkarta”) kan modellen utföra segmentering av objekt i flera vyer. Dessa segmenteringsresultat projiceras tillbaka till 3D-rummet och sammanställs genom genomsnittlig viktning, vilket mildrar effekterna av partiell ocklusion.

Inom objektigenkänning i zero-shot-sammanhang används en liknande princip där 3DETR genererar föreslagna 3D-rutor, och punktdata inom varje ruta skickas vidare till klassificeringssystemet. Här fungerar CLIP som ett förstärkande huvud, vilket möjliggör detektion av tidigare osedda objekt utan explicita etiketter eller förträning på dessa.

Utvärderingar på standarddatabaser som ModelNet10, ModelNet40 och ScanObjectNN visar tydligt hur PointCLIP V2 överträffar tidigare metoder. Medan andra modeller kräver förträning på 3D-data, kan V2 utföra inferens direkt utan 3D-lärande. Resultaten visar en tydlig ökning i noggrannhet, särskilt i verklighetsnära scener där buller och variation är vanligt förekommande. Detta styrks ytterligare av ablationsstudier där varje steg i projektionen – från kvantisering till utjämning – visar sig ha mätbar betydelse för prestandan.

Det är avgörande att förstå att den stora framgången för denna metod inte bara vilar på styrkan i CLIP eller GPT-3 var för sig, utan i samspelet mellan de två. Den språkliga kodningen måste bära form och struktur, inte bara semantik. Och den visuella representationen måste vara tillräckligt rik och projicerad med sådan precision att texten kan fästa vid den. Det är just i detta gränsland mellan språk och form, mellan det deskriptiva och det visuella, som en ny förståelse för 3D-objekt utan träning tar form.

Hur kan konsensus uppnås i opålitliga trådlösa nätverk trots bysantinska fel och störningar?
Hur politisk kontroll hotar neutral kompetens i amerikanska byråkratier och hur den bevaras
Hur har USA:s invandringslagar format ödet för unga utan papper?
Hur hantera egenvärden och ortogonala vektorer i matrisberäkningar?