På bare et tiår har feltet for datamaskinsyn og mønstergjenkjenning gjort bemerkelsesverdige fremskritt, drevet av tre sentrale faktorer: (a) tilgjengeligheten av store og mangfoldige datasett, (b) tilgangen til skybasert og personlig databehandling, og (c) den åpne utgivelsen av avanserte nevrale nettverksarkitekturer og modeller. Dette har ført til store gjennombrudd på tvers av mange anvendelsesområder, fra intelligent transport og helsevesen til landbruk og havforskning.
En av de mest transformative utviklingene innen kunstig intelligens har vært fremveksten av Vision-Language Models (VLMs), som har brakt sammen datamaskinsyn og naturlig språkbehandling på en måte som tidligere var utenkelig. Denne integreringen av visuelle og språklige data har åpnet opp for en rekke nye muligheter for intelligenssystemer, som kan forstå, resonere og generere multimodale data. Det er ikke bare et teknisk gjennombrudd, men også en intellektuell milepæl i måten vi nærmer oss maskinforståelse på.
VLMs er bygget på grunnleggende konsepter som involverer store, multimodale representasjoner, der både visuelle og tekstuelle data blir brukt til å skape modeller som kan både forstå og generere innhold. Arkitekturene som understøtter disse modellene er unike og svært sofistikerte, og de krever omfattende forhåndstrening på tvers av store datasett for å fungere effektivt. Pre-treningen muliggjør at modellen lærer å koble sammen bilder og tekst på en måte som gir den evnen til å utføre komplekse resonnementer og generere nytt innhold på bakgrunn av visuelle og språklige data.
Applikasjonene for VLMs er mangfoldige og utvider seg raskt. Fra å forbedre bilde- og gjenkjenningssystemer til å muliggjøre sofistikert visuell innholds-generering, har disse modellene potensialet til å revolusjonere flere områder. Et bemerkelsesverdig eksempel er bruken av VLMs i systemer som kan samhandle med mennesker på mer naturlige og intuitive måter. For eksempel kan VLMs brukes til å utvikle assistenter som både forstår og reagerer på bilder og tekst, og på den måten utfører oppgaver som tidligere var utenfor rekkevidde for AI-teknologier.
Imidlertid er det flere utfordringer som følger med bruken av disse modellene. En av de største er problemene med funksjonsjustering mellom de visuelle og språklige dataene. Det er ikke nok at modellen kan generere et bilde eller en tekst basert på den andre, den må kunne koble de to på en meningsfull og logisk måte. Dette krever komplekse metoder for å sikre at informasjonen fra begge modaliteter er i samsvar med hverandre. I tillegg er datakravene for slike modeller enorme, og de krever tilgang til store mengder variert informasjon som kan dekke en bred forståelse av verden.
Skalerbarhet er også en viktig utfordring. VLMs er ressurskrevende, både når det gjelder beregningskraft og lagringskapasitet. Dette kan være et hinder for deres utbredelse i kommersielle applikasjoner og i mer tilgjengelige systemer for forskning og utvikling. I tillegg, med store datasett og komplekse modeller, kan vurdering av ytelsen være problematisk. Hvordan evaluerer man nøyaktig effektiviteten av et system som kombinerer visuelle og tekstuelle input? Er det nok å vurdere nøyaktigheten på tvers av modaliteter, eller må det også tas hensyn til modellens evne til å generere meningsfullt innhold?
Ved siden av de tekniske utfordringene finnes det også etiske spørsmål som må adresseres. For eksempel kan VLMs forsterke eksisterende skjevheter i treningsdataene, og det er viktig å være bevisst på hvordan disse teknologiene kan brukes på en rettferdig og ansvarlig måte. Videre, med tanke på datainnsamling og personvern, er det nødvendig å etablere strenge retningslinjer for hvordan data skal samles inn og brukes, samt hvordan modeller kan beskytte individets rettigheter.
VLMs representerer et betydelig skifte i hvordan vi tenker på kunstig intelligens. Der tidligere AI-systemer ofte var spesialiserte og isolerte til én type data, for eksempel bildebehandling eller tekstgjenkjenning, er VLMs designet for å fungere på tvers av flere forskjellige typer data. Denne tilnærmingen skaper muligheter for mer dynamiske og fleksible AI-systemer, som kan tilpasse seg ulike kontekster og behov.
Viktige trender som bør følges nøye i utviklingen av VLMs inkluderer forskning på måter å forbedre modellens forståelse og representasjon av visuelle objekter og tekst, samt hvordan man kan sikre at disse modellene kan generalisere effektivt til nye domener. Videre vil det være nødvendig å utvikle mer effektive metoder for å håndtere store datasett og for å gjøre modellene mer tilgjengelige for bruk i kommersielle applikasjoner uten å kreve enorme ressurser.
For leseren er det essensielt å forstå at VLMs ikke bare er et teknologisk verktøy, men en plattform for å utforske nye måter å interagere med maskiner på. Dette feltet har potensialet til å revolusjonere ikke bare spesifikke bruksområder, men måten vi tenker på maskinforståelse i seg selv. Når VLMs blir mer sofistikerte og tilgjengelige, vil de utgjøre grunnlaget for mange fremtidige fremskritt i kunstig intelligens og vår interaksjon med den.
Hvordan kan tekststyrt 3D-bevegelsesgenerering forbedres gjennom effektiv modellarkitektur og henting av relevante prøver?
I utviklingen av tekststyrt 3D-bevegelsesgenerering er en av de mest utfordrende delene å etablere en effektiv og nøyaktig bevegelsesdekoder. Denne oppgaven involverer bruk av diffuse modeller for å fjerne støy og generere realistiske bevegelser basert på tekstbeskrivelser. En slik modell, som vist i figur 16.2, benytter seg av en Transformer-basert arkitektur og integrerer flere viktige designvalg som er skreddersydd for diffuse modeller og tekststyrte bevegelsesgenerering. Den primære komponenten som skiller denne tilnærmingen fra tidligere arbeider, er bruken av effektive selv- og kryssoppmerksomhetsteknikker for å håndtere de enorme beregningskravene som følger med lengre bevegelsesserier.
Bevegelsesdekoderen, som er en sentral del av modellen, er designet for å håndtere variasjoner i bevegelsens lengde. Modellen er sammensatt av flere lag, inkludert et innkapslingslag for bevegelsens data, en tekstkoder og en selve bevegelsesdekoder. Innkapslingslaget er ansvarlig for å projisere hvert bevegelsesramme til en numerisk representasjon som deretter kan behandles av modellens hovedkomponenter. Ved å bruke posisjonsinnkapsling, kan tidsmessige forhold mellom forskjellige bevegelsesrammer også tas med i beregningene, noe som er avgjørende for å opprettholde kontinuiteten i bevegelsen.
For tekstbeskrivelsen av bevegelsen benytter modellen forhåndstrente CLIP-modeller. CLIP er kjent for å kunne hente ut tekst-til-bilde relasjoner og brukes her for å overføre tekstlige beskrivelser til bevegelsesmønstre. Dette gjør det mulig å bruke større forhåndstrente datasett for å lære de underliggende trekkene i tekstbeskrivelser, noe som igjen forbedrer modellens generaliseringsevne. En viktig funksjon i denne prosessen er at tekstkoden er fryst under treningen, mens de påfølgende Transformer-lagene er lærbare for å bedre tilpasse tekstfunksjonene til den spesifikke oppgaven for tekst-til-bevegelse.
Effektiv selv- og kryssoppmerksomhet er essensielle komponenter i denne modellen. Selv-oppmerksomhet gir en global forståelse av hele sekvensen av bilder, noe som er spesielt viktig for å estimere støyen som skal fjernes under den reverserte diffusionsprosessen. Dette kan være svært krevende, ettersom lengden på sekvensene kan være på flere hundre rammer. Den tradisjonelle oppmerksomhetsmekanismen som tar O(n²) tid ved beregning av oppmerksomhetsvektorer, er derfor utilstrekkelig for å håndtere lange sekvenser på en effektiv måte. For å løse dette, benytter modellen en effektiv oppmerksomhetsteknikk som reduserer beregningstiden betraktelig ved å bruke en global funksjonskart (Fg). Den nye beregningsmetoden tillater modellen å håndtere store sekvenser raskere samtidig som den opprettholder høy nøyaktighet.
En annen viktig designfunksjon er styliseringsblokken. Denne blokken injiserer både tekstbeskrivelser og tidsstegsinformasjon inn i bevegelsens funksjoner. Ved å bruke tidsstegsinformasjon kan modellen lettere forstå hvilken fase av den reverserte diffusionsprosessen den er i, og dermed redusere kompleksiteten i støyfjerningsprosessen. Samtidig gjør det tekstbeskrivelsen lettere for modellen å generere bevegelsesserier som er mer i samsvar med den gitte teksten.
En annen utfordring som oppstår i genereringen av 3D-bevegelser er hvordan man kan forbedre modellens resultater ved å hente relevante prøver fra en ekstern bevegelsesdatabase. Dette er en teknikk som har vært mye brukt i videospillindustrien, der man henter høy-kvalitets bevegelsessegmenter for å blande og generere nye bevegelseskombinasjoner. Ved å introdusere henteteknikker i generative modeller kan vi gi modellen mer informasjon om eksisterende bevegelsesmønstre og dermed forbedre resultatene. Denne tilnærmingen står imidlertid overfor flere utfordringer. Den første er hvordan man kan hente de mest relevante bevegelsessekvensene, ikke bare basert på tekstlig likhet, men også ved å vurdere lav-nivå forskjeller mellom de hentede prøvene og de ønskede resultatene.
Den andre utfordringen er hvordan man kan bruke de hentede prøvene til å forbedre bevegelsens funksjoner. Dette krever en selektiv integrering av informasjon fra prøvene som er gunstig for genereringsprosessen. Den tredje utfordringen er hvordan man kan utforme en effektiv inferensstrategi under testfasen, for eksempel ved å bruke klassefri veiledning for å maksimere innflytelsen av de hentede prøvene på de genererte resultatene.
Disse utfordringene kan imidlertid løses ved hjelp av en hybrid hentingsteknikk som vurderer både semantiske og kinetiske likheter, og som kan tilpasse seg raskt under testfasen. Semantisk-modulert oppmerksomhet benyttes i refineringstrinnet for å bearbeide de hentede bevegelsene, og på den måten kan modellen generere mer presise og tilpassede bevegelsessekvenser.
Når man utvikler slike modeller, er det viktig å være klar over at generering av 3D-bevegelser ikke bare handler om å hente eksisterende bevegelseselementer, men også om å forstå hvordan de ulike elementene kan kombineres og tilpasses den spesifikke teksten som beskriver bevegelsen. Dette krever en grundig forståelse av både de tekniske utfordringene i modellens arkitektur og de semantiske nyansene i teksten som beskriver bevegelsene.
Hvordan Overførbarhet og Effektivitet i Tuningsmetoder Påvirker Visuelle Modeller
Når det gjelder overføring av kunnskap fra én dataset til en annen, spesielt når man benytter forhåndstrente modeller som ImageNet, er det flere faktorer som påvirker ytelsen til ulike metoder for finjustering av parametre. Dette gjelder særlig når strukturerte datasett som SmallNORB/elevation eller Clevr/count benyttes, som har et klart annerledes etikettrom enn ImageNet. Et betydelig aspekt ved overføringslæring er at de dypere lagene i modellen krever finjusterte parametere for å lære spesifikke semantiske egenskaper knyttet til oppgavene i de ulike datasettene.
Adapter, LoRA og VPT er tre populære teknikker for å tilpasse forhåndstrente modeller. De spiller en komplementær rolle i forhold til hverandre. Adapter og LoRA er hovedsakelig til stede i de dypere lagene, med større innbeddingsdimensjoner enn fire, mens deres tilstedeværelse avtar i de grunnere lagene. VPT derimot, er distribuert på tvers av nesten alle lagene i nettverket, og innbeddingsdimensjonen varierer betydelig på tvers av forskjellige grupper. I naturlige datasett er VPT-modulene mer konsentrert i de grunnere lagene, mens de i strukturerte datasett er mer fremtredende i de dypere lagene. Denne dynamikken viser hvordan de ulike teknikkene utfyller hverandre, og understreker utfordringen med å finne den optimale kombinasjonen manuelt.
En viktig innsikt som kan trekkes fra studier på tvers av forskjellige dataset er hvor effektivt en automatisert søketilnærming kan tilpasse arkitekturen til spesifikke dataset. Det er her metoder som NOAH (Neural Architecture Search) skiller seg ut. Ved å bruke en søkebasert tilnærming kan NOAH finne en arkitektur som er skreddersydd til de unike kravene til hvert dataset, og demonstrerer at automatisert søk har flere fordeler sammenlignet med manuell utvikling av parametereffektiv tuning.
Studier har også vist at det finnes en bemerkelsesverdig grad av overførbarhet mellom subnets når en modell trenes på ett dataset og deretter benyttes på et annet. For eksempel ble en subnet funnet på ImageNet og deretter brukt på VTAB-1k benchmark, med resultater som viser at avstanden i ytelse mellom subnets fra ImageNet og de datasetspesifikke subnets på VTAB-1k ligger under 3 %. Denne overførbarheten var høyere når kildedataene (som ImageNet) og mål-datasettene var mer like, som i tilfelle av de naturlige datasettene.
Et annet interessant aspekt ved metoder som NOAH er deres effektivitet når det gjelder beregningskostnader. Sammenlignet med VPT, Adapter og LoRA, oppnådde NOAH minst 1,5 % bedre nøyaktighet på flere datasett, samtidig som den beregningsmessige belastningen var langt lavere. Dette gjør at NOAH er et svært attraktivt alternativ i forhold til andre tilnærminger, spesielt når man har begrensede beregningsressurser tilgjengelig. Den har også vist seg å være overlegent i forhold til individuelle prompt-moduler, som Adapter og LoRA, når det gjelder både ytelse og lagringskostnader.
Når man sammenligner tilfeldige søk med evolusjonære søk, har NOAH vist seg å ha en klar fordel. Evolusjonære søk forbedret ytelsen med omtrent 1,2 %, noe som understreker effektiviteten til den evolusjonære tilnærmingen i søk etter optimale subnets.
En annen viktig observasjon er at retrening av subnets kanskje ikke alltid er nødvendig. For NOAH har det blitt demonstrert at det ikke er noen betydelig forskjell i ytelse mellom subnets som er retrent og de som ikke er retrent. Dette kan være spesielt nyttig i situasjoner der beregningsressurser er begrensede, og der det derfor kan være ønskelig å unngå retrening.
I fremtidige undersøkelser og videreutvikling av slike metoder, kan det være nyttig å utforske hvordan man kan akselerere prosessene enda mer. Dette kan bidra til å gjøre slike tilnærminger mer tilgjengelige for bredere anvendelser, samtidig som man opprettholder høy ytelse.
Disse funnene bidrar til en dypere forståelse av hvordan man kan bruke forskjellige metoder for parameterfinjustering i visuelle modeller, og hvordan man kan utnytte automatiserte søk for å oppnå optimale løsninger på tvers av forskjellige dataset. Teknikker som NOAH viser at det er mulig å kombinere effektivitet og fleksibilitet i moderne maskinlæringsmetoder, og at denne utviklingen kan føre til mer robuste og tilpasningsdyktige modeller for fremtidige visuelle oppgaver.
Hvordan kan CLIP overføres til 3D-forståelse uten 3D-trening?
Overføringen av CLIP-modellen fra et 2D-bilde-tekst-paradigme til 3D-domener representerer et fundamentalt skifte i måten man forstår og klassifiserer tredimensjonale objekter uten eksplisitt 3D-trening. Gjennom metodene PointCLIP og PointCLIP V2 viser det seg mulig å anvende CLIPs allerede lærte visuelle semantikk i komplekse 3D-oppgaver, som objektklassifisering, segmentering og deteksjon, uten å måtte trene på store mengder tredimensjonale data.
PointCLIP benytter en prosess hvor 3D-punktmengder projiseres til 2D-visninger og mates inn i CLIPs visuelle enkoder. Denne tilnærmingen muliggjør nullskuddsklassifisering, hvor modellen kan gjenkjenne tidligere usette objekter basert på tekstbeskrivelser alene. Til tross for fraværet av 3D-trening, demonstrerer PointCLIP konkurransedyktige resultater sammenlignet med tradisjonelle 3D-metoder, noe som indikerer at projeksjonsteknikken effektivt bevarer geometrisk informasjon.
For å forbedre denne prosessen introduserer PointCLIP V2 et mer realistisk projeksjonsmodul, som blant annet kvantiserer, fortetter, glatter og komprimerer punktskyene før projeksjonen til dybdekart. Denne forbedringen viser seg avgjørende, spesielt i en ablasjonsstudie hvor aktivering av alle projeksjonstrinn fører til en betydelig forbedring i klassifiseringsytelse. Den gjennomsnittlige nøyaktigheten i nullskuddsklassifisering når da 64.22 % på ModelNet40, noe som er bemerkelsesverdig gitt at modellen aldri har blitt eksponert for disse 3D-formene tidligere.
I tillegg er det gjennomført eksperimenter med promptgenerering via GPT, hvor tekstkommandos spesifikt rettet mot 3D-geometri ytterligere forbedrer den semantiske koblingen mellom tekst og visuell representasjon. Ved å kombinere kommandoer som beskrivelse, spørsmål, parafraser og enkeltord relatert til 3D-struktur, oppnås den høyeste ytelsen. Slike teknikker viser nødvendigheten av kontekstspesifikke språkinnspill for effektiv kryssmodal forståelse.
Når det gjelder fåskuddsklassifisering, der modellen får se svært få eksempler per klasse, overgår både PointCLIP V1 og V2 andre anerkjente 3D-modeller som PointNet og CurveNet. Spesielt i ett-skuddsinnstillingen viser disse metodene signifikant høyere presisjon, noe som validerer nytten av å kombinere visuell projeksjon og språkbasert promptjustering selv ved lav treningsmengde. I en 16-skuddsinnstilling oppnås mer enn 87.60 % nøyaktighet, noe som nærmer seg fullt overvåkede tilnærminger.
Videre viser nullskuddssegmentering på ShapeNetPart at PointCLIP V2 dramatisk forbedrer mIoU-resultatene for delsegmentering, særlig i objekter med kompleks struktur som gitarer og kniver. Dette indikerer at V2s projeksjons- og tekstinnspillstrategi tillater modellen å fange opp detaljerte geometriske egenskaper, til tross for at den ikke har blitt trent på oppgaven.
På deteksjonssiden, testet på ScanNet V2-datasettet, fremviser PointCLIP V2 en betydelig forbedring i gjennomsnittlig presisjon ved begg
Hvordan integrere multimodal ansiktsgenerering og manipulering gjennom samarbeidende redigering?
Vårt samarbeidende redigeringsrammeverk er utviklet med det formål å kombinere flere ulike modaliteter for å oppnå presise og dynamiske ansiktsredigeringer. I denne sammenhengen presenteres muligheten for å integrere eksisterende unimodale difusjonsbaserte redigeringsmetoder i et samarbeidende redigeringsrammeverk. Dette er gjort ved å utvide Imagic [16] til et multimodalt paradigme, som tillater samarbeidende redigering på tvers av ulike modaliteter og forhold.
Prosessen starter med at vi følger prinsippene i Imagic for å finjustere både innkapslinger og modeller, slik at de bedre kan fange ansiktsidentiteten i redigeringsprosessen. Den fine-tunede modellen kombineres deretter med de dynamiske difusørene som er diskutert i kapittel 13.2.2. Dette gir en forbedret kapasitet for redigering der flere modaliteter samhandler. Den komplette prosedyren for samarbeidende redigering er vist i algoritme 3. Det er viktig å merke seg at finjusteringen av forhåndstrente modeller er et tiltak for å bevare ansiktsidentitet i henhold til Imagic, som er uavhengig av vårt rammeverk. Utvidelsen av rammeverket til redigering krever ingen ytterligere trening av de dynamiske difusørene.
Redigeringens muligheter blir tydeligere når man ser på kvalitative sammenligninger av ansiktgenerering. I eksemplene i figur 13.4 og 13.5 ser man hvordan vårt rammeverk produserer resultater som er sterkt konsistente med både betingelser og ansiktsidentitet, noe som ikke alltid er tilfelle for TediGAN eller Composable, som viser inkonsistens i genererte bilder når maskering eller tekstbetingelser ikke er møtt på riktig måte.
Når det gjelder den tekniske implementeringen, benytter vårt rammeverk LDM [26] som den unimodale difusjonsmodellen på grunn av dens gode balanse mellom kvalitet og hastighet. Ved å bruke en VAE (Variational Autoencoder) for bildekomprimering reduserer vi den beregningsmessige belastningen, og ved å bruke en latent rommetapning mellom inngangsbildene og det lavere dimensjonsrommet oppnår vi en mer effektiv behandling. VAE-en komprimerer bildene til et 64×64×3 latent rom, som deretter rekonstrueres til 256×256 bilder gjennom VAE-dekoderen.
I vår implementering er de dynamiske difusørene ansvarlige for å forutsi påvirkningsfunksjoner, som deretter blir brukt i en tverr-oppmerksomhet for å justere betingelsene for tekst og segmentering av ansiktsmasker. Den dynamiske difusøren fungerer som en uavhengig komponent som tillater mer presis kontroll over bildeutdataene, uten å nødvendigvis måtte trene om de opprinnelige difusjonsmodellene.
Når vi ser på detaljene for implementeringen, finner vi at modellene våre benytter en spesifikk tilnærming for å sikre at tidsstempelet til difusjonsmodellen injiseres korrekt, og det skjer ved hjelp av tilpasset lag-normalisering (AdaLN). Dette tillater at hver tidssteg justeres etter behov, noe som gir en mer finjustert og dynamisk prosess. Tiden går tilbake fra T til 1, der den gradvis reduserer støyen og produserer det endelige bildet etter at flere samarbeidsmodeller har behandlet det.
En viktig komponent i dette rammeverket er modellstørrelsen til de dynamiske difusørene. Disse er betydelig mindre enn de tradisjonelle difusjonsmodellene, som kan gjøre prosessen mer effektiv og mindre ressurskrevende. Dette er spesielt viktig når man skal implementere rammeverket på plattformer med begrensede ressurser.
Hva som er viktig å forstå i denne sammenhengen, er at et samarbeidende redigeringsrammeverk som vårt ikke bare handler om å kombinere forskjellige redigeringsmetoder, men også om å bevare og forbedre ansiktsidentitet gjennom integrering av multimodal input. Det er en balansegang mellom å beholde detaljene som definerer et ansikt og samtidig tillate fleksibilitet til å utføre dyptgående redigeringer. Kunnskap om hvordan dynamiske difusører fungerer sammen med disse redigeringsprosessene gir leseren innsikt i hvordan man kan kombinere flere redigeringsmodaliteter for å oppnå presise og identitetsbevarende resultater. I tillegg er det verdt å merke seg at selv om tekniske detaljer kan virke komplekse, er hensikten å gjøre avansert bildebehandling og redigering mer tilgjengelig for praktisk bruk på tvers av ulike anvendelsesområder.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский