Vid analysen av multimodala system för video, ljud och tal, blir det tydligt att dessa teknologier har potentialen att omvandla hur vi interagerar med och förstår videoinnehåll. I detta sammanhang har system som VidCap, som integrerar olika typer av beskrivningar – visuella, ljudliga och talade – blivit centrala verktyg. Genom att använda avancerade språkmodeller, såsom stora språkliga modeller (LLM), kan dessa system generera precisa och sammanhängande bildtexter som beskriver vad som sker i en video ur olika perspektiv.
VidCap-systemet använder specialiserade "captioners" för att skapa beskrivningar för video, ljud och tal. Dessa beskrivningar kan sedan finjusteras och integreras av en LLM för att skapa en sammanhängande förståelse av videomaterialet. Denna process gör det möjligt att tillhandahålla en mycket detaljerad och multimodal tolkning av innehållet, vilket öppnar upp nya möjligheter för användare som arbetar med videoinnehåll inom forskning, utbildning och underhållning.
En av de viktigaste faktorerna för effektiv videoanalys är tidsmässig konsekvens. För att skapa meningsfulla videoklipp är det avgörande att hålla isär sekvenser som inte delar samma kontext. VidCap använder sig av AutoShot-modellen för att förutsäga klippgränser baserat på semantiska förändringar över tid. Denna metod säkerställer att de klipp som skapas behåller en sammanhängande berättelse utan att blanda ihop bilder med inkonsekvent information.
När vi talar om multimodal annotering, handlar det om att generera beskrivningar för varje modalitet (video, ljud, tal) separat, för att sedan slå samman dessa till en fullständig förståelse av innehållet. Detta innebär att systemet inte bara beskriver vad som händer i en video visuellt, utan också hur ljud och tal relaterar till de visuella elementen. Genom att använda en sådan systematik kan man skapa mycket mer precisa och detaljerade textbeskrivningar för användning i en rad olika applikationer.
En central del av dessa system är hur de tränas. InternVid2, som är en vidareutveckling av dessa multimodala system, har genomgått flera träningsfaser där olika datasets har använts för att förbättra systemets prestanda. Den senaste träningsfasen införlivar även högkvalitativa dataset som TVQA, NTU-RGB-D och PerceptionTestQA, vilket bidrar till en mer mångsidig och robust förståelse av video och ljud. Genom att använda en sådan omfattande datamängd kan InternVid2 förbättra sin förmåga att känna igen handlingar, kategorisera innehåll och besvara frågor om video på ett mycket mer exakt sätt.
Vid jämförelser mellan olika modeller är det tydligt att InternVid2 utmärker sig på flera viktiga områden, såsom actionsidentifiering, video-sökning och fråge-svar. I tester på dataset som Kinetics och Something-Something har InternVid2 visat sig överträffa tidigare modeller, vilket visar på modellens förmåga att analysera både rumsliga och tidsmässiga element i videomaterial. Modellen presterar också mycket bra i scenarier med obearbetade videor, där den når höga poäng på dataset som ActivityNet och HACS.
Den stora fördelen med denna typ av multimodala system är att de kan användas för att förbättra användarupplevelsen inom en mängd olika områden, från underhållning och media till forskning och utbildning. Genom att generera noggrant anpassade bildtexter och beskrivningar kan dessa system göra det möjligt att skapa mer tillgängligt och interaktivt videoinnehåll. Det innebär att användare, oavsett om de är personer med synnedsättning eller forskare som behöver analysera stora mängder videodata, kan dra nytta av systemets förmåga att leverera en mer fullständig och exakt beskrivning av vad som händer i en video.
Det är också viktigt att förstå att dessa teknologier inte bara är begränsade till att förstå video och ljud på en ytlig nivå. Genom att koppla ihop multimodala beskrivningar från video, ljud och tal kan system som VidCap skapa en djupare förståelse av komplexa interaktioner och händelser i videomaterial. Detta öppnar upp för en rad nya användningsområden där människor kan kommunicera och interagera med video på sätt som tidigare varit omöjliga.
För att maximera effektiviteten i sådana system är det också avgörande att kontinuerligt förbättra och anpassa träningsdatan, så att den reflekterar såväl mångfalden i verkliga miljöer som den ökande komplexiteten hos moderna videomaterial. Detta kräver en ständig utveckling av både teknik och metodik för att kunna hantera de enorma mängder data som genereras och för att förstå komplexa händelser på en djupare nivå.
Hur kan Test-Time Prompt Tuning förbättra modellens generalisering?
Test-time optimering har blivit ett effektivt verktyg för att förbättra modellens förmåga att generalisera på testdata utan behov av ytterligare träning. En stor utmaning här är att hitta en lämplig metod för att definiera och tillämpa optimeringsmål vid testtillfället. Test-time training (TET) och dess varianter modifierar träningsmålet och nätverksarkitekturen genom att lägga till en självövervakad multitaskgren som används under testtiden för att beräkna optimeringsmål och anpassa nätverket till det testprov som presenteras. Ett vanligt exempel på detta är entropiminimering, som syftar till att utveckla självövervakade mål. Ett sådant tillvägagångssätt är TENT (Test-time entropy minimization), som minimerar entropin hos batchvis förutsägelseprobabilitetsfördelningarna, men detta kräver att mer än ett testprov används för att få en icke-trivial lösning.
Zhang et al. föreslår en teknik för marginal entropiminimering som fungerar på en enda testbild genom att använda databerikning. Detta gör att metoden kan arbeta effektivt även när endast ett testprov är tillgängligt. En annan central utmaning handlar om att välja rätt parametergrupp för optimering. Enligt tidigare forskning har det visat sig att batchnormalisering (BN) lagrar domänspecifika skillnader i bilddata, och att anpassning av BN-statistik vid testtid kan öka modellens robusthet mot distributionsskift. Även om detta tillvägagångssätt är effektivt, innebär det vissa restriktioner på nätverksarkitekturen.
Det finns också en annan metod att uppdatera funktionsutvinningarna medan man fryser prediktionsmodulen. Zhang et al. har visat att optimering av hela modellen vid testtillfället också kan vara framgångsrikt. En intressant metod som adresserar dessa två problem är Test-Time Prompt Tuning (TPT), där parametrarna som optimeras är testproven snarare än modellens kärnstruktur. Vårt mål är att undvika att förändra förtränade funktioner och bevara förmågan till nollskottsgeneraliseringsförmåga i förtränade modeller, som till exempel CLIP.
För att ytterligare förbättra denna metod, introducerar vi en teknik för att välja "confidence", vilket innebär att filtera bort brusiga augmenteringar som kan leda till vilseledande prediktioner. Detta gör att metoden blir mer exakt vid optimering och reducerar risken för felaktiga slutsatser baserade på otillförlitliga data.
När det gäller att använda CLIP för specifika nedströmsuppgifter utan att använda ytterligare träningsdata, handlar det om att ge modellen rätt kontext för att maximera nyttan av dess förtränade funktioner. I CLIP, som består av två parallella kodare (en för text och en för bild), tränas modellen med en kontrastiv förlust för att främja likhet mellan text- och bildvektorer, vilket gör att texten och bilden aligneras i funktionsutrymmet.
Ett exempel på hur detta tillämpas är i bildklassificering, där man för ett testprov (en enskild bild Xtest) med en viss kategori använder en handtillverkad textprompt (t.ex. "a photo of a"). Denna prompt läggs till som en prefix för varje kategori i uppgiften, vilket gör att modellen kan koppla ihop den textuella beskrivningen med bildens funktioner för att beräkna likheten och därmed förutsäga klassen för bilden.
Till skillnad från traditionella metoder för att finjustera modellen, där man tränar om hela nätverket eller delar av det på specifika uppgifter, är prompttuning ett mer subtilt tillvägagångssätt. Här optimeras endast den textuella prompten, vilket inte förändrar de förtränade funktionerna och därför bevarar modellens förmåga att generalisera till nya, osedda uppgifter. Denna metod är särskilt användbar när det inte finns någon tillgång till ytterligare träningsdata och när endast ett testprov är tillgängligt för att göra förutsägelser.
För att ytterligare förbättra denna metod och utnyttja den rika kunskapen som finns i förtränade modeller som CLIP, är vårt mål att utveckla en test-time prompt tuning-strategi som är specifikt anpassad för att effektivt extrahera och tillämpa denna kunskap under testning. Genom att välja en lämplig förlustfunktion som inte kräver etiketter eller ytterligare träningsdata, kan vi optimera prompten för att ge en noggrann och robust förutsägelse.
Vid användning av CLIP för mer komplexa uppgifter, som kontextberoende visuell resonemang, där testdata inkluderar både positiva och negativa exempel på en mänsklig-objekt-interaktion (HOI), ger test-time prompt tuning en kraftfull metod att direkt anpassa modellen till testprovet utan att förlora den generaliseringsförmåga som CLIP erbjuder. Här handlar det om att ge modellen rätt kontext för att kunna göra den nödvändiga slutledningen, såsom att avgöra om ett testprov visar en viss interaktion eller inte.
Den grundläggande fördelen med TPT är dess förmåga att erbjuda en lösning utan behov av träningsdata och etiketter, vilket gör den särskilt användbar för uppgifter där det inte finns tillgång till märkta data och där det enda som behövs är att anpassa modellen till ett enskilt testprov. Genom att kombinera fördelarna med förtränade modeller och optimering vid testtid kan TPT förbättra noggrannheten och effektiviteten vid bildklassificering och andra vision-språkuppgifter.
Hur effektiva adapter-modeller förbättrar CLIP: Prestanda och Robusthet
I den senaste utvecklingen inom vision-språk modeller har adapter-metoder blivit centrala för att förbättra klassificeringen vid få exempel (few-shot learning) i system som CLIP. Dessa metoder, inklusive CLIP-Adapter och dess förlängning Tip-Adapter, erbjuder lösningar för att effektivt förbättra CLIPs förmåga att hantera bildklassificering genom att reducera den beräkningsmässiga komplexiteten, samtidigt som man bibehåller hög noggrannhet.
CLIP (Contrastive Language-Image Pretraining) är en kraftfull modell som lär sig semantiska representationer från både bilder och text. Det är dock känt att även de mest avancerade modellerna har begränsningar när det gäller att generalisera till nya domäner eller klara av uppgifter med få träningsdata. Adapter-modeller som CLIP-Adapter och Tip-Adapter adresserar dessa problem genom att introducera små men effektiva modifieringar i den existerande modellen. CLIP-Adapter bytte ut den tidigare metoden för prompt-tuning, som användes i CoOp, mot lägre viktiga flaskhalslager som dynamiskt kan blanda den förtränade kunskapen från CLIP med de anpassade funktionerna. Genom att använda dessa bottleneck-lager istället för att direkt justera hela modellen, kan CLIP-Adapter ge bättre resultat med betydligt lägre beräkningskostnader.
Tip-Adapter går ännu längre genom att eliminera behovet av träning baserat på Stokastisk Gradientnedstigning (SGD). Istället använder den en cache-modell som byggs från ett fåtal exempel, vilket gör att den kan fungera som en träningsfri adapter. Det här innebär en radikal förenkling när det gäller beräkningskrav, samtidigt som den bibehåller eller till och med överträffar den prestanda som nås av traditionella träningsbaserade metoder. Tip-Adapter-F, som är en finjusterad version av Tip-Adapter, ytterligare förbättrar resultatet genom att tillåta ett fåtal träningsomgångar för att finjustera och därigenom uppnå ännu högre noggrannhet.
I experimenten med ViT-B/16 som bildryggrad visade det sig att placeringen av adaptrar på olika lager hade en stor inverkan på prestandan. Det bästa resultatet uppnåddes genom att införa adaptrar i det sista lagret (lager 12), vilket visade sig vara det mest effektiva i termer av både prestanda och beräkningskostnader. Om adaptrarna placeras tidigare i nätverket, ökar den beräkningsmässiga belastningen och risken för att rubba den förtränade kunskapen från CLIP, vilket kan leda till en försämring av prestandan. Detta understryker vikten av att placera adaptrarna på rätt ställe för att bevara modellen och undvika onödiga kostnader.
En annan viktig aspekt är hur designen av promptar påverkar modellen. CLIP-Adapter och Tip-Adapter bygger vidare på en standardiserad promptensemble med sju mallar. Dock visade sig att användningen av en enda prompt istället för en ensemble ledde till en liten prestandaförlust, särskilt för modeller som Zero-shot CLIP och Tip-Adapter. Denna förlust var inte lika tydlig för de mer avancerade modellerna, som Tip-Adapter-F och CLIP-Adapter, vilket tyder på att de är mer robusta mot variationer i prompten. Detta är en avgörande insikt för användare som bygger sådana system: bättre prestanda uppnås genom att vara mindre känslig för förändringar i promptdesignen.
Vidare har dessa adapter-metoder visat sig vara särskilt effektiva vid hantering av distributionsskiften, vilket innebär att modeller som tränats på en dataset kan överföra sina färdigheter till en annan, även om datamängderna skiljer sig åt i termer av semantisk betydelse. Experiment som utfördes med ImageNet och två andra dataset, ImageNetV2 och ImageNet-Sketch, visade att Tip-Adapter, till och med utan träning, var mer robust mot sådana skiften än andra metoder, som CoOp och CLIP-Adapter. Detta beror på den cache-baserade konstruktionen av modellen, som förhindrar överanpassning till träningsdatasetet och gör modellen mer flexibel när den möter nya typer av data.
En intressant observation är att när man justerade antalet exempel per kategori (så kallade "shots") påverkades prestandan marginellt, vilket ytterligare understryker de adapter-baserade metodernas förmåga att upprätthålla hög noggrannhet även när data är sparsamma. Detta gör dessa metoder idealiska för situationer där man har begränsat antal träningsdata, men ändå behöver upprätthålla ett högkvalitativt klassificeringsresultat.
Sammanfattningsvis erbjuder CLIP-Adapter och Tip-Adapter en innovativ och effektiv lösning för att förbättra bildklassificering i modeller som CLIP. Dessa metoder ger stora fördelar när det gäller att bibehålla den förtränade kunskapen, öka robustheten mot distributionsskiften och minska beräkningskostnaderna, vilket gör dem mycket användbara för verkliga applikationer där det finns behov av effektivitet och flexibilitet.
Hur man effektivt hanterar förtroendejustering i kontrastiva vision-språkmodeller: DACs roll och effektivitet
I denna studie undersöker vi utmaningen med förtroendejustering i kontrastiva vision-språkmodeller (VLM), som har blivit ett viktigt verktyg inom datorseende och naturlig språkbehandling. Modeller som CLIP har visat sig vara mycket effektiva för att koppla samman visuella koncept med textuella beskrivningar, men en vanlig utmaning är deras benägenhet att ge felaktiga förtroendesignaler för nya klasser. För att hantera denna fråga introducerar vi metoden Distance-Aware Calibration (DAC), som fokuserar på att förbättra kalibreringen av dessa modeller genom att justera logitskalan baserat på textinformation.
Förtroendejustering är avgörande för att säkerställa att de förtroendepoäng som produceras av maskininlärningsmodeller verkligen reflekterar deras verkliga tillförlitlighet. Traditionellt har man använt post-hoc kalibreringstekniker efter träningsfasen. Dessa metoder kan delas in i två huvudkategorier: skalbaserade och bin-baserade tekniker. De skalbaserade metoderna, som temperaturjustering, lär sig en enskild skalar för att justera logiternas skala. Å andra sidan grupperar bin-baserade metoder prover i grupper baserat på deras förtroendevärden och kalibrerar varje grupp individuellt.
Den huvudsakliga metoden som vi undersöker här, DAC, tar ett annat tillvägagångssätt genom att justera logitskalans värde genom att använda en textbaserad avvikelseskala som är särskilt anpassad för nya klasser. Till skillnad från traditionella metoder, som ofta lider av att inte generalisera bra till nya klasser, har DAC visat sig effektivt hantera denna problematik. Genom att beakta den textuella närheten mellan förutsagda textetiketter och de befintliga bas-klasserna, kan DAC generera mer pålitliga förtroendeuppskattningar för nya klasser, även när modellen är finjusterad med prompt-tuning-tekniker.
Vid våra experiment med DAC, där vi använder UCF101- och DTD-datamängder, ser vi att DAC minskar kalibreringsfel (ECE) effektivt även när antalet etiketter per klass är lågt i så kallade "few-shot"-inställningar. Detta innebär att modellen presterar bra i scenarier med begränsade träningsdata per klass, vilket är en vanlig utmaning i verkliga tillämpningar av maskininlärning. Det är också viktigt att notera att DAC bibehåller hög effektivitet när det gäller inferens, utan att lägga på betydande extra beräkningskostnader.
En annan viktig aspekt är betydelsen av textuell normalisering inom DAC-metoden. När vi standardiserar de funktioner som genereras av den textuella kodaren, förbättras kalibreringen av klasserna avsevärt. Detta kan verka trivialt, men våra experiment visar att normalisering av textfunktionerna är en avgörande faktor för att uppnå en noggrann kalibrering. Om normalisering uteblir, riskerar vi att göra felaktiga uppskattningar när vi jämför textuella närhetsavstånd. Denna slutsats bekräftar att normalisering är kritisk för att säkerställa effektiviteten i avståndsbaserade kalibreringsmetoder.
En jämförelse av DAC med andra metoder som Density-Ratio Calibration (DEN) på ImageNet-1k-datamängden visar att DAC överträffar DEN både i kalibreringsnoggrannhet och inferenshastighet. DAC:s förmåga att bibehålla en hög nivå av kalibrering utan att införa för mycket extra beräkningskostnad gör det till en lovande metod för realtidsapplikationer. Det visar också hur DAC, i kombination med andra skalbaserade metoder, kan ge överlägsen prestanda, särskilt när det gäller nya klasser som inte har sett tidigare under träning.
Slutligen är det viktigt att förstå att förtroendejustering i kontrastiva vision-språkmodeller inte bara handlar om att förbättra noggrannheten i klassificeringen, utan även om att göra dessa modeller mer robusta och pålitliga i miljöer där nya och okända klasser förekommer. När vi finjusterar modeller som CLIP, måste vi vara medvetna om de risker som felaktiga förtroendeuppskattningar kan medföra, särskilt i applikationer där tillförlitlighet och säkerhet är avgörande.
För att fullt ut förstå effekterna av DAC och förtroendejustering rekommenderas vidare läsning av litteraturen kring kalibrering i djupinlärning, samt de senaste framstegen inom vision-språkmodeller och deras tillämpningar. Genom att kombinera traditionella kalibreringsmetoder med innovativa tekniker som DAC kan vi ytterligare förbättra prestandan hos dessa avancerade modeller.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский