I en tid då multimodala modeller spelar en allt större roll inom områden som bildigenkänning och textförståelse, ställs utvecklare inför utmaningen att hantera den komplexitet och variation som finns i stora datamängder. En viktig metod för att förbättra modellens kapacitet och effektivitet är att kombinera olika inlärningstekniker, som exempelvis kontrastiv inlärning och generativ övervakning. Kontrastiv inlärning har visat sig vara effektiv när det gäller att extrahera kunskap från stora, bullriga datamängder genom att skapa relationer mellan olika datainstanser. Men när det gäller att generera respons på användarinstruktioner och lösa mer komplexa uppgifter, blir det uppenbart att enbart kontrastiv inlärning inte räcker till. Det är här generativ övervakning kommer in som ett komplement, vilket möjliggör för modellen att producera svar och utföra uppgifter som kräver en högre grad av kreativitet och förståelse.

InternVL är ett exempel på en öppen multimodal stor språkmodell som implementerar denna sammanslagning av teknologier för att skapa en effektiv lösning för multimodala uppgifter. Modellen är designad för att bättre kunna hantera och förstå relationerna mellan text och bild genom att föra samman ett avancerat vision-encoder med en stor språkmodell (LLM). En av de centrala styrkorna i InternVL är dess användning av en stor vision-encoder, som är skalenlig upp till 6 miljarder parametrar, vilket ger en stark och generell representation av visuella data. Denna representation kan sedan kopplas samman med en LLM för att hantera uppgifter som sträcker sig över olika domäner och användningsområden.

En annan viktig aspekt av InternVL är den progressiva bild-text justeringen, som gör det möjligt att steg för steg anpassa de två stora komponenterna – vision-encodern och LLM – på ett sätt som är anpassat för heterogena dataset med olika skala och kvalitet. Denna metod tillåter modellen att expanderas från 10 miljarder till 100 miljarder parametrar och maximera användningen av nätverkets bullriga data.

För att ytterligare förfina prestandan och brygga gapet mellan öppen källkod och de stora kommersiella multimodala modellerna, har forskarna utvecklat InternVL-Chat, en modell särskilt inriktad på multimodala samtal. InternVL-Chat har en enkel och effektiv arkitektur med en lättvikts MLP-projektor som kopplar samman vision-encodern och LLM på ett sätt som ger en kompakt och effektiv struktur. Modellen använder också en dynamisk högupplösningsteknik där bilder segmenteras i mindre bitar, vilket gör det möjligt att fånga både den globala och lokala kontexten av en bild.

Detta arbete visar på den stora potentialen hos InternVL och InternVL-Chat att konkurrera med de bästa kommersiella modellerna på marknaden. På flera multimodala benchmark-tester, inklusive OCR-relaterade dataset som TextVQA, har InternVL-Chat överträffat modeller som GPT-4V och Gemini Pro 1.5, vilket är en stor prestation inom området.

För att uppnå dessa resultat har InternVL använt sig av en högkvalitativ tvåspråkig dataset som innehåller både engelska och kinesiska exempel på naturliga scener, diagram, dokument och konversationer. Detta har möjliggjort träning på en mångsidig samling data, vilket är en av de faktorer som gör InternVL till en stark kandidat för framtida multimodala tillämpningar. Vidare har en datatranslationspipeline utvecklats, vilket gör det möjligt att enkelt utöka modellen till fler språk.

Trots de framsteg som InternVL och InternVL-Chat har gjort, återstår fortfarande flera utmaningar inom multimodal inlärning. Den största utmaningen ligger kanske i att fortsätta förbättra modellerna så att de inte bara kan hantera text och bild effektivt utan också bättre förstå och generera respons på mer komplexa multimodala uppgifter. För att nå denna målsättning krävs både tekniska framsteg inom modellens arkitektur samt ytterligare insikter om hur olika typer av data bäst kan kombineras för att uppnå bästa möjliga resultat.

Modellen InternVL representerar därför en viktig milstolpe inom utvecklingen av multimodala modeller och erbjuder insikter i hur framtida system kan anpassas för att bättre förstå och integrera både text- och bildbaserad information.

Hur man förbättrar objektigenkänning med öppen vokabulär genom användning av Transformerbaserade metoder

För att hantera den växande komplexiteten i objektigenkänning har det föreslagits olika metoder för att förbättra träning och prediktion. En viktig utmaning är hur man hanterar öppen vokabulär i objektigenkänning, där systemet kan identifiera objekt utan att vara begränsat till ett fördefinierat antal klasser. En effektiv metod för att uppnå detta har varit användningen av detekterings-transformatorer, där olika tekniker används för att optimera träningsprocessen och förbättra resultatet vid inferens.

Vid implementering av denna metod är ett centralt element att kombinera inmatade villkorade inbäddningar, såsom text- och bildinbäddningar, med objektfrågor som representerar de olika klasserna. När dessa objektfrågor kombineras med de villkorade inbäddningarna, uppstår en ny uppsättning av klass-specifika frågor, som gör det möjligt att identifiera och lokalisera objekt i bilden mer effektivt. Men en av de största utmaningarna med denna metod är att hantera flera objekt från samma eller olika klasser i en bild, vilket kan försvåra detektion om objektfrågorna inte är tillräckligt rika eller mångsidiga.

För att hantera detta, replikerar man objektfrågorna R gånger och de villkorade inbäddningarna N gånger innan man applicerar den konditionella operationen. Detta gör att modellen kan generera ett stort antal frågor för matchning vid varje framåtdrift. För att bevara oberoendet mellan de olika frågekopiorna under den slutliga konditioneringen används en uppmärksamhetsmask, vilket är en teknik som liknar den som används i tidigare arbeten. Med denna metod kan vi effektivt hantera flera objekt av samma klass eller från olika klasser inom en bild.

När objektfrågorna väl har bearbetats och matchats mot den sannolika klassificeringen, används en binär matchningsförlust för att optimera resultatet. Denna förlust beräknas genom en binär korsentropi (BCE) för att jämföra de förutsagda sannolikheterna mot de verkliga sannolikheterna. Målet är att modellen ska kunna identifiera alla instanser av en viss klass i bilden, samtidigt som den korrekt klassificerar objekt av andra klasser som "inte matchade".

För att förbättra modellens inlärning införs även en inbäddningsrekonstruktionskomponent som förutspår en inbäddning som kan rekonstruera de villkorade inbäddningarna från text eller bild. Detta tillvägagångssätt förbättrar modellens förmåga att separera och representera olika koncept på ett effektivt sätt, vilket bidrar till en mer diskriminerande träningssignal. Den slutliga förlusten beräknas som en kombination av matchningsförlusten, box-förlusten (som hanterar koordinaterna för de detekterade objekten) och inbäddningsrekonstruktionsförlusten.

Vid inferens, när modellen är i drift, matas alla textinbäddningar för både grundläggande och nya klasser in i modellen, och sedan slås detektionsresultaten samman genom att välja de bästa k-prognoserna med de högsta poängen. Detta säkerställer att vi får de mest relevanta och exakta objektprediktionerna. För att förbättra modellens kapacitet och minska beräkningskraven, bearbetas objektfrågorna parallellt via en transformerbaserad decoder.

Det är också viktigt att förstå de olika dataseten och utvärderingsmåtten som används för att testa sådana modeller. OV-DETR, till exempel, utvärderas på två standarddatasets för öppen vokabulär, LVIS och COCO. De specifika måtten för dessa dataset hjälper till att identifiera hur väl modellen presterar på olika typer av objekt, från vanliga objekt till mer sällsynta och utmanande klasser. Resultaten på dessa benchmarks är avgörande för att förstå hur väl modellen kan hantera öppen vokabulär och generalisera till nya objekt.

För den som vill förbättra sin förståelse för dessa metoder, bör det också noteras att prompt-tuning är en viktig del i att anpassa förtränade språkliga modeller för datorseende. Genom att skapa och använda specifika textprompter för varje klass, som beskrivs av tidigare studier, kan man förbättra den semantiska förståelsen av bilder och objekt genom att kombinera text- och bildinbäddningar. Detta ger modellen möjlighet att mer exakt förstå och kategorisera objekten i bilder, vilket i sin tur leder till mer exakt objektigenkänning.

För att ytterligare förbättra träning och inferens, bör även uppmärksammas att det är avgörande att använda kraftfulla GPU:er och optimerade parametrar, som de som beskrivs i implementeringen av OV-DETR. Genom att noggrant justera viktningarna för olika förlustfunktioner kan man optimera modellens prestanda på både grundläggande och nya klasser.

Hur anpassas CLIP för 3D-förståelse?

I dagens snabbt framväxande område av 3D-djupinlärning och multimodalitet har metoder som PointCLIP och dess vidareutveckling, PointCLIP V2, blivit centrala verktyg för att överföra CLIP:s förtränade 2D-modeller till 3D-domänen. Denna anpassning möjliggör korsmodal nollskottigenkänning och andra komplexa uppgifter, utan att kräva 3D-specifik träning. Genom att använda tekniker som multiview-projektion och en finjusterad adapter som samlar multiview-representationer, har PointCLIP visat imponerande resultat på uppgifter som 3D-klassificering, segmentering och objektigenkänning.

PointCLIP tillämpar först CLIP för att genomföra punktmolnsanalys och uppnå tillfredsställande resultat. Byggd på dessa framsteg, tar PointCLIP V2 ett steg längre och etablerar en kraftfull 3D-modell som kan hantera öppna världsuppgifter. V2 introducerar en realistisk projektion för högkvalitativ djupkarta-syntes och en GPT-3-modell för att generera 3D-specifika beskrivningar, vilket förbättrar visuell och språklig anpassning.

Ett av de viktigaste momenten som undersöks är nollskottsklassificeringen på olika dataset som ModelNet40 och ScanObjectNN. Dessa uppgifter bekräftar att både PointCLIP V1 och V2 har potentialen att känna igen 3D-objekt i verkliga miljöer utan någon tidigare träning på dessa specifika objekt. I ett särskilt test av 3D-klassificering presterade både PointCLIP och PointCLIP V2 betydligt bättre än andra 3D-modeller som PointNet och PointNet++. PointCLIP V2 visade särskilt en markant förbättring i den så kallade enskottsklassificeringen, där modellen lyckades uppnå över 87 % noggrannhet med 16 skott på ModelNet40.

För uppgiften att segmentera delar av objekt utan att träna på dessa specifika objekt först, har PointCLIP visat goda resultat. PointCLIP V2 visade en konsekvent överlägsen prestanda, vilket tyder på att modellen har en förmåga att hantera komplexa 3D-geometrier. När det gäller del-segmentering på dataset som ShapeNetPart, där 16 klasser och 50 delar finns, visade V2 en mycket högre mIoUI (Mean Intersection of Union) jämfört med V1. Detta demonstrerar den förbättrade förmågan att tolka och segmentera 3D-objekt på en detaljerad nivå.

Vid detektion av 3D-objekt på ScanNet V2-datasetet presterade PointCLIP V2 betydligt bättre än V1 i termer av medelprecision, vilket innebär att den har förmågan att noggrant detektera och klassificera objekt i verkliga, öppna miljöer. Denna förbättring kan förklaras av V2:s introduktion av en mer sofistikerad projektion och användning av GPT-3 för textuell beskrivning, vilket förbättrar samspelet mellan visuell och språklig information.

Ett avgörande inslag i både PointCLIP och PointCLIP V2 är den specifika användningen av 3D-texter och språkmodeller för att förbättra nollskottens prestanda. Genom att använda GPT-3 och anpassade textkommandon för 3D-objekt skapas en starkare språk-bild-anpassning, vilket gör det möjligt för modellerna att lösa uppgifter utan att ha tränats på dem tidigare. Detta visade sig i form av en betydande prestandaförbättring (+25,11 %) i nollskottsuppgifter på ModelNet40.

En aspekt som är viktig för att förstå teknologins potential är att, trots dessa framsteg, står vi fortfarande inför stora utmaningar. Att överföra 2D-modellernas kapabiliteter till 3D-världen är inte enkelt, och det krävs noggranna justeringar och specifik träningsdata för att uppnå optimala resultat. Dessutom är det viktigt att förstå att även om PointCLIP och V2 har visat framgång på många uppgifter, återstår det att se hur dessa modeller hanterar mer komplexa och varierande 3D-scenarier i öppna, dynamiska miljöer. Ett framtida mål är att vidareutveckla dessa modeller för att arbeta med mer mångfacetterade uppgifter som 3D-detektionssystem i utomhusmiljöer och visuell jordankring, vilket skulle öppna dörrar till mer praktiska tillämpningar.