I den senaste utvecklingen av objektigenkänning har modeller som DETR (Detection Transformer) visat sig vara framgångsrika när det gäller att omvandla det klassiska objektigenkänningsproblemet till ett end-to-end uppsättningsmatchningsproblem för stängda uppsättningar av objektklasser. Detta har lett till en förenkling av hela pipeline, där behovet av manuell design, såsom ankargenerering och icke-maximal undertryckning, helt elimineras. Modellen förlitar sig istället på en transformerbaserad arkitektur som gör det möjligt att förutsäga objekt med hjälp av lärbara objektfrågor och en transformerdecoder. Men när vi går bortom stängda uppsättningar, där vi måste kunna känna igen objekt som inte har setts tidigare eller inte har några märkta bilder, blir problematiken mer komplex.

För att möta dessa utmaningar presenterar OV-DETR (Open-Vocabulary DETR) en innovativ lösning för öppet vokabulär objektigenkänning. Här handlar det inte längre om att matcha objekt mot en förutbestämd uppsättning av klasser, utan att istället göra en dynamisk matchning baserat på textuella eller bildbaserade beskrivningar av objekt. Denna metod utmanar den traditionella synen på objektigenkänning genom att föra in begreppet "matchability" – en förmåga att matcha objektbeskrivningar, vare sig dessa beskrivs med text eller bild, till de resultat som genereras av modellen.

En viktig förutsättning för denna metod är att transformera det traditionella matchningsmålet från ett fast uppsättningsmatchningsproblem till ett binärt konditionellt matchningsproblem. Genom att använda CLIP (Contrastive Language-Image Pretraining)-modellen, som är tränad för att skapa starka korsmodalitetsrepresentationer mellan text och bild, genereras bild- och textembeddingar som kan användas som konditionella ingångar till modellen. Denna metod innebär att objekt som inte finns i träningsdata kan kännas igen genom att matcha de insamlade representationerna med objekt som beskrivs av exempelbilder eller text.

För att konkretisera denna process använder OV-DETR en ny strategi där de traditionella DETR-baserade frågorna omvandlas till att hantera öppet vokabulär via konditionella ingångar. Träningsprocessen bygger på att de konditionella inputembeddings (text eller bild) projiceras in i samma funktionella rum som objektfrågorna, vilket gör det möjligt för modellen att effektivt matcha och identifiera nya objekt utan att behöva förlita sig på fasta klassgränser.

Det är viktigt att notera att denna metod innebär en rad förändringar i hur matchningskostnader beräknas. Vid användning av den traditionella bipartitmärkningstekniken är matchningen begränsad till de objektklasser som har märkts i träningsdata, vilket gör att nya objektklasser som inte är representerade i data inte kan matchas. Detta problem löses i OV-DETR genom att använda ett villkorligt matchningsförfarande som inte är beroende av fasta objektklasser, vilket ger modellen flexibilitet att arbeta med nya klasser, även utan tidigare träning på dessa.

En annan central aspekt av denna metod är hur modellen hanterar träningsdata. För att säkerställa att modellen kan generalisera till nya, osedda klasser, tillförs även bilder som föreslagna objekt från dessa klasser, även om deras textuella etiketter är frånvarande. Detta gör att modellen inte bara kan känna igen nya objekt baserat på deras visuella egenskaper utan även på deras textuella beskrivningar.

Det är också värt att förstå att de metodologiska förändringarna som görs i OV-DETR för att hantera öppet vokabulär kräver omfattande förändringar i träningsstrategierna. För att effektivt kunna matcha konditionella ingångar och detektionsresultat, måste modellen balansera och integrera både bild- och textinformation under träningsfasen. Genom att växla mellan text- och bildbaserade input kan modellen tränas att vara flexibel nog för att hantera alla typer av beskrivelser och objektexempel, vilket är avgörande för framgångsrik öppet vokabulär objektigenkänning.

Det är viktigt för läsaren att förstå att den huvudsakliga utmaningen som adresseras av OV-DETR inte bara är att matcha klassificeringar utan även att hantera objektidentifiering i en dynamisk och osäker miljö där nya objekt kan dyka upp utan förvarning. Denna flexibilitet gör modellen särskilt användbar för applikationer där objektklasser inte är fördefinierade, såsom i vissa typer av automatiserade övervakningssystem, robotteknik eller vid hantering av stora datamängder från olika källor.

Hur MaskCLIP Förändrar Sättet Vi Tänk På Segmentation och Zero-Shot Prestanda

Att dela upp bildsemantik i lokala segment och korrekt justera den med koncept som "man", "bat", "swing" eller "patch" innebär en grundläggande utmaning för många nuvarande segmenteringsmodeller. Modeller som tränas enbart med bildetiketter saknar denna finkänsliga förståelse av koncept, vilket gör att de inte kan hantera bilder på det sätt som vi faktiskt tolkar dem – genom att förstå de specifika relationerna mellan objekt i en scen. CLIP, en modell som tränats för att koppla bilder med textbeskrivningar, erbjuder en intressant möjlighet att omvandla denna utmaning genom att dra nytta av både bild- och textdata.

Men att helt enkelt använda CLIP för segmentering leder till problem. Traditionellt sett följer segmenteringsmodeller en enkel process där en bakgrundsmodell som tränats på ImageNet-Data används och sedan finjusteras med specifika segmenteringsmoduler. Problemet är att denna metod, när den appliceras på CLIP för segmentering, inte kan leverera på "zero-shot"-kravet – alltså förmågan att segmentera objekt eller klasser som modellen aldrig har tränats på. Ett av de största hindren ligger i den förlust av semantisk koppling mellan visuell och språklig data som sker under finjusteringen. När en modell tränas på ett sätt där både bilden och texten modifieras, bryts den ursprungliga associationen mellan dessa två dataformer, vilket leder till att segmenteringen blir ineffektiv på nya eller osedda klasser.

MaskCLIP erbjuder ett svar på detta problem genom att bevara den ursprungliga CLIP-modellens vikter utan att finjustera dem. Istället modifieras bildens kodare genom att använda en Transformer-liknande mekanism, där en global uppmärksamhetspooling (global attention pooling) används för att skapa en mer exakt representation av bildens lokala semantik utan att förlora den ursprungliga språkliga-bildliga kopplingen. Genom att göra detta kan MaskCLIP skapa pixeltäta segmenteringsmasker utan att behöva förlita sig på enorma mängder etiketterade data.

En av de mest kraftfulla aspekterna av MaskCLIP är dess förmåga att segmentera öppna vokabulärklasser, som föremål beskrivna med fria textfraser. Till exempel kan den hantera begrepp som "vit bil" eller "röd buss" utan att behöva träning på dessa specifika objekt tidigare. Detta öppnar dörren för användning av MaskCLIP i en rad applikationer där etiketterna inte är strikt definierade eller där man arbetar med dynamiska och ospecificerade dataset. Den här förmågan att arbeta med oklassificerade klasser är en direkt följd av CLIP:s träningsmetod, där modellen har tränats på en stor mängd bilder från hela internet, vilket ger den en otrolig robusthet för att hantera skiftande datafördelningar och inkompletta eller osäkra data.

För att förbättra prestandan ytterligare har två förfiningstekniker introducerats: "key smoothing" och "prompt denoising". Key smoothing innebär att man använder de förfinade "key features" som genereras av CLIP:s bildkodare för att skapa en smidigare och mer konsekvent förutsägelse av objekt. Genom att smidigt justera prediktionerna baserat på likheter i dessa nyckelfunktioner kan modellen bättre hantera variationer i objekt och scenkonfigurationer, vilket leder till mer precisa segmenteringsresultat.

Det är viktigt att förstå att den här metoden för att hantera "zero-shot"-segmentering, genom att undvika omfattande finjustering, erbjuder stora fördelar i applikationer där snabb implementering är nödvändig, och där etiketterade data är knappa. Samtidigt kräver den här metoden en förståelse för både styrkorna och begränsningarna med CLIP:s ursprungliga träningsdatabaser. MaskCLIP fungerar bra när bilder är nära relaterade till de bilder som CLIP har tränats på, men det kan finnas problem med segmentering av mer ovanliga eller helt nya objekt som inte kan tolkas genom den språkliga representationen.

En annan viktig aspekt är att MaskCLIP, även om den är effektiv för bildsegmentering, fortfarande är beroende av de specifika egenskaper hos den underliggande CLIP-modellen. Detta innebär att de metodologiska förbättringarna för segmentering, såsom key smoothing, inte är universellt applicerbara på alla typer av bilddata. För att MaskCLIP ska vara framgångsrikt krävs det en djupare förståelse för CLIP:s inlärningsprocess och de specifika transformer-lager som används för att skapa den semantiska representationen av bilder.