Test-Time Prompt Tuning (TPT) har visat sig vara en kraftfull metod för att förbättra prestandan hos vision-språkmodeller under testtiden. Det här tillvägagångssättet kan användas för att justera modeller utan behov av ny träningsdata eller annoteringar, vilket gör det särskilt effektivt när man arbetar med distributionsskift eller när modellen står inför utmaningar i generalisering.
En av de viktigaste fördelarna med TPT är dess förmåga att anpassa en förtränad modell till nya datadistributioner utan att behöva återträna den helt. Detta uppnås genom att endast justera de testtidspromptar som används för att styra modellen vid inferens. Denna process har visat sig vara särskilt effektiv när man jämför med mer traditionella metoder för dataaugmentering eller ensembler av modeller, där förbättringarna ofta är mer begränsade. I tabell 6.7 kan vi till exempel se att TPT i kombination med metoder som CoOp eller CoCoOp ger signifikant bättre prestanda än traditionella ensemblemetoder.
TPT fungerar genom att optimera en förtränad prompt under testtiden, vilket gör att modellen kan anpassa sig till skillnader i inputdata utan att förändra själva modellens parametrar. Detta skiljer sig från vanliga modellensembler, där man aggregerar resultat från flera förtränade modeller eller flera omgångar av samma modell med olika initialiseringar. En intressant observation är att när TPT kombineras med andra metoder som CoOp eller CoCoOp, förbättras resultaten ytterligare. Detta beror på att dessa metoder fungerar i samklang med TPT och optimerar prompten vid inferens snarare än att bara förlita sig på förtränade parametrar.
Vid jämförelser mellan TPT och baslinjemetoder som endast använder dataaugmentering, som "averaged prediction" och "majority vote", är skillnaderna också tydliga. Båda dessa metoder misslyckas med att uppnå de förbättringar som TPT erbjuder. Dataaugmentering utan optimering ger endast begränsad förbättring, vilket tyder på att det inte är trivialt att designa en algoritm som effektivt använder augmented data på ett sätt som är direkt jämförbart med TPT.
Ett annat intressant resultat kommer från användningen av "confidence selection", som spelar en viktig roll i TPT. Genom att selektera med högre säkerhet förbättras modellens prestanda, vilket även har visat sig vara fördelaktigt för andra test-tidsoptimeringsmetoder som MEMO. När en lägre percentilgräns för säkerhet tillämpas, förbättras resultatet signifikant, vilket visar på värdet av att använda mer pålitliga prediktioner i modellen.
TPT:s förmåga att hantera "out-of-distribution" (OOD) data är också imponerande. I tabell 6.6 visas resultat från överföring av modeller tränade på ImageNet till mer specifika klassificeringsuppgifter på finare nivåer, som Flower102 och Caltech101. Metoden bibehåller en hög grad av noggrannhet även när modellen överförs till andra dataset med olika distributioner.
Det är också värt att notera att TPT inte bara förbättrar prestanda vid testtiden, utan det gör det utan att kräva ytterligare träning eller annotering av data. Det innebär att denna metod är särskilt användbar i praktiska tillämpningar där man inte har möjlighet att samla in nya träningsdata eller där träningsdata inte är tillgängliga för en viss uppgift.
För att få ut det mesta av TPT är det viktigt att förstå hur metoden kan anpassas till specifika uppgifter. Eftersom TPT bygger på en finjustering av testtidspromptar är det viktigt att experimentera med olika sätt att initiera dessa prompts, särskilt när man arbetar med olika typer av data eller modeller. Det är också värdefullt att fortsätta undersöka hur TPT kan integreras med andra metoder som till exempel "confidence selection", för att ytterligare optimera prestandan.
Hur kan man förbättra effektiviteten i vision-språkmodeller genom lämplig adapterinlärning?
Att förbättra prestanda och effektivitet i vision-språkmodeller är en central fråga inom artificiell intelligens, och detta har lett till utvecklingen av flera tekniker och metoder för att optimera och finjustera dessa modeller. En sådan metod är Tip-Adapter och dess vidareutveckling, Tip-Adapter-F, som erbjuder ett effektivt sätt att förbättra modeller som CLIP, samtidigt som den behåller den ursprungliga modellens beräkningsfördelar.
Tip-Adapter introducerades som en lösning för att förbättra prestanda på uppgifter med få exempel (few-shot learning) och baseras på att lära sig nya funktioner genom att införliva lämpliga små träningsbara adaptrar i en redan tränad modell. Genom att använda adaptermoduler som är små och lämpligt finjusterade, utan att kräva omfattande omträning av den ursprungliga modellen, erbjuder denna metod en enkel men effektiv lösning för att förbättra specifika uppgifter inom visuell klassificering och multimodala uppgifter.
Tip-Adapter-F är en förfinad version av denna metod som unfreeze:ar de cachade nycklarna som parametrar och optimerar dem under några få träningscykler. Denna metod kräver endast 20 träningscykler för att uppnå toppmodern prestanda på ImageNet, vilket är en av de mest utmanande datamängderna för bildklassificering. Detta står i stark kontrast till andra metoder som CoOp och CLIP-Adapter, som kräver upp till 200 träningscykler för att nå liknande resultat. Denna skillnad innebär en avsevärd minskning av träningskostnader och tid, vilket gör Tip-Adapter-F till en praktisk lösning för effektiva få-skottsinlärningar.
Experiment har visat att både Tip-Adapter och Tip-Adapter-F erbjuder en utmärkt balans mellan noggrannhet, träningshastighet och inferenshastighet. Dessa adaptrar har visat sig vara inte bara effektiva utan också mångsidiga, och kan tillämpas på en rad nedströmsuppgifter som kräver vision-språkmodeller. Dessutom behåller dessa metoder de beräkningsmässiga fördelarna med den ursprungliga CLIP-modellen, samtidigt som de erbjuder en betydande förbättring av prestanda i situationer med få exempel.
Modellen CLIP, som föregick dessa metoder, utnyttjar en kontrastiv förlust för att lära sig en gemensam inbäddningsrymd mellan bilder och text. Genom att träna på ett stort dataset med bild-text-par kan CLIP matcha bilder med en mängd semantiska begrepp, vilket gör den effektiv för nollskottsklassificering. Men även om CLIP har uppnått stora framgångar, finns det fortfarande ett gap mellan dess nollskottskapacitet och den prestanda som uppnås genom fullt övervakad träning. För att överbrygga detta gap introducerade CoOp, en metod som optimerar textprompter för att förbättra CLIP:s prestationer i specifika uppgifter. Vår metod, baserad på Tip-Adapter och Tip-Adapter-F, erbjuder dock ett alternativ till prompt-optimering genom att använda lämpliga adaptermoduler för finjustering av funktioner, vilket ger bättre prestanda med mindre träningsbehov.
Därtill har transferinlärning blivit en hörnsten för modern AI, vilket gör det möjligt att använda förtränad kunskap från stora datamängder för att anpassa modeller till specifika uppgifter utan att behöva samla nya omfattande träningsuppsättningar. De adapterbaserade metoderna för CLIP bygger på denna filosofi genom att bevara den förtränade kunskapen och samtidigt lägga till lämpliga små, träningsbara moduler för att förbättra modellens prestanda på specifika uppgifter.
Det är också värt att notera att det finns en betydande skillnad mellan de metoder som fokuserar på optimering av textprompter och de som använder sig av adapterinlärning. Medan optimering av textprompter har visat sig vara effektivt för att förbättra resultat på vision-språkuppgifter, erbjuder adaptermetoder en enklare och mer direkt väg till förbättringar genom att lägga till små, träningsbara komponenter till redan tränade modeller. Denna metod minskar behovet av omfattande träning och gör det möjligt att uppnå stark prestanda utan att helt överge den ursprungliga modellen.
I arbetet med att optimera vision-språkmodeller är det avgörande att förstå att balans mellan prestanda, träningskostnader och beräkningskrav är en viktig faktor. Effektiva metoder för få-skottsinlärning, såsom de adapterbaserade teknikerna, ger ett lovande alternativ till mer resurskrävande metoder som kräver omfattande träning på stora datamängder. Genom att utnyttja dessa metoder kan man uppnå robusta resultat på specifika uppgifter utan att behöva förlita sig på omfattande träningscykler och komplexa optimeringsstrategier.
Det är också viktigt att förstå att dessa metoder inte bara erbjuder ett sätt att förbättra modellernas prestanda på få-skottsinlärning, utan också representerar ett steg mot att utveckla mer effektiva och skalbara modeller för multimodala uppgifter, där integrationen av visuell och språklig information spelar en avgörande roll. Genom att utforska och implementera adaptermetoder kan man effektivt förbättra prestandan för vision-språkmodeller och samtidigt behålla de beräkningsmässiga fördelarna från tidigare tränade modeller.
Hur kan vi förbättra förtroendekalibrering i kontrastiva Vision-Language-modeller?
Vision-språkmodeller (VLM), som CLIP, har blivit kraftfulla verktyg inom flera områden som bildigenkänning, retrieval-förstärkt uppgiftsanpassning och visuella chattbottar. Dessa modeller har visat sig vara exceptionella i öppen vokabulär, där de kan klassificera bilder utan att vara explicit tränade på alla möjliga kategorier. För att förbättra VLM:ers prestanda i downstream-uppgifter har olika finjusteringstekniker utvecklats, där promptlärande har blivit populärt på grund av dess parametriska effektivitet och robusthet. Ett viktigt problem har dock inte fått tillräcklig uppmärksamhet: förtroendekalibreringen i VLM:er, särskilt vid användning i zero-shot eller finjusterade scenarier, vilket kan underminera dessa modellers tillförlitlighet vid kritiska tillämpningar.
Förtroendekalibrering är avgörande för att säkerställa att en modell inte bara ger ett korrekt svar, utan också uttrycker en realistisk sannolikhet för att detta svar är korrekt. I öppna vokabulärsscenarier, där VLM:er förväntas generalisera till både redan sedda och nya klasser, är det särskilt viktigt att modellen ger tillförlitliga och korrekta förutsägelser. Trots att promptlärande har visat sig förbättra noggrannheten i klassificering, har tillförlitligheten i modellens förutsägelser varit mindre utforskad. Det är i dessa situationer som kalibreringsproblem kan uppstå.
Tidigare studier har visat att den förtränade CLIP-modellen är välkalibrerad vid zero-shot-inferens, där modellen förutsäger korrekta sannolikheter för alla klasser som den har tränats på. Problemet uppstår dock vid finjustering för downstream-uppgifter, där kalibreringen ofta blir felaktig. Detta innebär att de förutsagda klassprobabiliteterna inte längre reflekterar den verkliga sannolikheten för att klassificeringen är korrekt. Ett särskilt problem, som hittills har fått lite uppmärksamhet, är att finjusterade VLM:er tenderar att vara överkonfidenta när det gäller nya klasser, medan de är underkonfidenta för redan existerande bas-klasser. Denna misskalibrering är ett hinder för att använda dessa modeller på ett pålitligt sätt i praktiken, till exempel inom sjukvårdsdiagnostik eller autonom körning, där felaktig förtroendeuppskattning kan få allvarliga konsekvenser.
För att åtgärda denna problematik har flera efterhandskalibreringstekniker (post-hoc) utvecklats. Dessa tekniker är dock oftast endast effektiva för att kalibrera modeller på de klasser de har tränats på, dvs. bas-klasserna. När det gäller nya, osedda klasser är de befintliga metoderna otillräckliga. För att lösa detta har vi introducerat en enkel men effektiv metod som vi kallar Distance-Aware Calibration (DAC). DAC justerar automatisk temperaturparametern baserat på avståndet mellan de predicerade textetiketterna och bas-klasserna. Genom att beräkna en textuell avvikelse för varje ny klass kan modellen justera sina förutsägelser mer exakt, beroende på hur långt bort dessa nya klasser ligger från bas-klasserna. Denna justering gör det möjligt att förbättra förtroendekalibreringen för nya klasser i öppna vokabulärsscenarier, vilket gör modellen mer pålitlig i praktiska tillämpningar.
DAC har visat sig vara effektiv när den integreras med flera olika metoder för promptlärande, vilket bekräftas genom experiment på elva olika uppgifter. DAC minskar till exempel den förväntade kalibreringsfelet (ECE) med i genomsnitt 6,84 % över dessa uppgifter, och i vissa fall når minskningen upp till 16 %. Liknande förbättringar har observerats för andra metoder, såsom MaPLe och PromptSRC. DAC har även visat sig vara en användbar förbättring av existerande post-hoc metoder, inklusive Density-Ratio Calibration. Denna metod ger en betydande förbättring även när den appliceras på redan existerande kalibreringstekniker.
I sammanfattning visar våra experiment att DAC inte bara kan kalibrera modellen bättre för nya klasser utan även förfina kalibreringen av de bas-klasser som modellen redan har lärt sig. Detta gör den till ett kraftfullt verktyg för att förbättra prestandan hos VLM:er i praktiska tillämpningar som kräver hög tillförlitlighet och noggrannhet, där misskalibrering kan leda till allvarliga konsekvenser.
Att förstå denna kalibreringsutmaning är viktigt för utvecklare och forskare som arbetar med att implementera VLM:er i praktiska system. Utan en effektiv kalibrering av förtroendet i dessa modeller kan man inte lita på deras prediktioner, vilket gör dem mindre användbara för kritiska tillämpningar. I framtiden bör det finnas en större medvetenhet om kalibreringsproblem och utveckling av metoder som gör dessa modeller mer robusta och pålitliga.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский