FreeU er en avansert teknikk som benyttes for å forbedre genereringen av bilder og videoer fra tekstbeskrivelser ved å integrere en skaleringsstrategi for ryggfunksjoner og hoppfunksjoner. Gjennom en nøye utprøving har FreeU vist seg å være et kraftig verktøy som kan øke kvaliteten på bilder og videoer produsert av Diffusjon U-Net modeller, som f.eks. SD-XL, ControlNet og ModelScope.
I tekst-til-bilde generering har FreeU vist seg å være en betydelig forbedring. Når FreeU brukes sammen med modeller som SD-XL, kan det genereres bilder med langt høyere detaljer og teksturkvalitet. Dette gjør det mulig å oppnå 4K-bilder med finere detaljer enn ved bruk av modeller som ScaleCrafter alene. Bildene får mer presise teksturer, noe som er spesielt merkbart i både bakgrunn og forgrunn. FreeU fungerer dermed som et nyttig verktøy for å forbedre generative evner og øke oppløsningen på resultatene.
Et annet viktig aspekt av FreeU er dens evne til å forbedre pre-trente modeller som ControlNet, som benyttes for å tilføre betingede kontroller til tekst-til-bilde modeller. Når FreeU er integrert i ControlNet, får de genererte bildene en betydelig økning i detaljrikdom og realistisk utseende. Dette blir særlig tydelig når den opprinnelige betingelsen allerede har en høy detaljgrad, og FreeU fungerer som en finjustering for å bringe frem enda mer presise detaljer, både i bakgrunn og forgrunn.
Videre er effekten av FreeU også synlig i arbeidet med LCM, en effektiv en-trinns distillasjonsmetode. Når FreeU legges til LCM, ser man en markant forbedring i både bildekvalitet og detaljrikdom. Det blir dermed klart at FreeU spiller en essensiell rolle i å forbedre evnen til å generere bilder ved å integrere seg i eksisterende modeller på en måte som øker både detaljer og realisme.
I tekst-til-video generering har FreeU også vist imponerende resultater. For eksempel, når den er kombinert med ModelScope – en modell som genererer video fra tekstbeskrivelser – får de genererte videoene et mye mer realistisk utseende, med jevnere bevegelser og bedre detaljer i hvert enkelt bilde. FreeU har vist seg å være spesielt nyttig i oppgaver som involverer animasjon og video, der den bidrar til høyere kvalitet på både tekstur og bevegelse. Dette er spesielt tydelig i videoer generert av Animatediff, hvor FreeU bidrar til mer konsekvent visuell kvalitet gjennom hele videoen, uten de uønskede artefaktene som kan forekomme i standard modeller.
FreeU har også blitt brukt til å forbedre video-til-video oversettelser. Når teknikken ble benyttet i Rerender, en modell designet for å konvertere tekstbeskrivelser til realistiske videoer, ble videoene tydelig mer detaljerte, uten uønskede artefakter som kan oppstå i den opprinnelige genereringen. I et eksperiment med en hund som bærer solbriller, fjernet FreeU effektivt artefaktene relatert til solbrillene, og resulterte i en betydelig mer raffinert video.
Effekten av FreeU kan ikke forstås uten å vurdere de underliggende komponentene som er involvert i teknikken. FreeU benytter en metode for å balansere bidragene fra ryggfunksjoner og hoppfunksjoner ved hjelp av skaleringsfaktorer. Det er avgjørende å forstå hvordan disse faktorene påvirker bildene som genereres. Ved å bruke en ryggfunksjonsskaleringsfaktor under inferens kan man oppnå mer realistiske bilder, som for eksempel en kanin med realistiske ører og armer, som ellers ville blitt forvrengt uten denne skaleringsstrategien. Imidlertid er det viktig å merke seg at selv om dette gir økt detaljrikdom, kan det også føre til en uønsket oversmoothing av teksturer. For å motvirke dette introduseres hoppfunksjonsskaleringsfaktorer, som reduserer lavfrekvent informasjon og gir en mer balansert tekstur.
Når disse teknikkene er kombinert på riktig måte, kan FreeU skape bilder med en nesten perfekt balanse mellom detalj og tekstur. Denne balansen er avgjørende for å skape bilder som både er detaljrike og samtidig realistiske, uten å miste den opprinnelige teksturens dynamikk.
FreeU’s potensial går langt utover tekst-til-bilde og tekst-til-video generering. Det kan benyttes i en rekke forskjellige applikasjoner som krever høyoppløselig og detaljert bildebehandling, og vil utvilsomt spille en viktig rolle i fremtidens generative modeller. Samtidig er det viktig å forstå at selv de beste teknikkene, som FreeU, ikke er uten utfordringer. Overflødig tekstur kan være et problem i visse tilfeller, og dette må håndteres nøye for å oppnå best mulige resultater.
I fremtiden vil FreeU og lignende teknologier sannsynligvis bli stadig mer integrert i både profesjonelle og kreative applikasjoner som krever ekstremt høy bildekvalitet, som i filmproduksjon, videospillutvikling og kunstgenerering.
Hvordan kan multimodale språkmodeller forstå og beskrive videoer på et menneskelig nivå?
Den nyeste utviklingen innen multimodale store språkmodeller viser en dramatisk endring i hvordan maskiner forstår og beskriver innhold fra video. Modellen InternVideo2 demonstrerer dette ved å forene visuelle, auditive og språklige data i én samlet annotasjonsprosess, der målet er å produsere semantisk koherente og kontekstuelle beskrivelser av videoklipp. Dette muliggjør en form for "tekstualisering" av virkeligheten slik den oppleves gjennom video – en teknologisk transkripsjon av det menneskelige sanseapparatet.
Systemet VidCap representerer selve ryggraden i denne prosessen. Det fungerer gjennom et fireleddet samspill mellom dedikerte komponenter for videobilde, lyd og tale, samt et stort språkmodell-lag som sammenstiller og raffinerer disse beskrivelsene. Hver komponent jobber først uavhengig for å produsere sine respektive beskrivelser, før disse samles og finkalibreres via et integrerende nevralt lag. Denne flermodale syntesen skaper dermed ikke bare en nøyaktig transkripsjon av hver kanal, men en meningsfull fortolkning av den sammensatte hendelsen.
Et sentralt aspekt er hvordan videoklipp segmenteres før annotering. Modellen AutoShot blir brukt for å sikre temporær konsistens, ved å analysere semantiske endringer over tid fremfor visuelle brudd alene. Dette gir en mer menneskelig oppfattelse av hva som utgjør en scene eller hendelse, og sørger for at sammenheng ikke brytes av tekniske rammeverk som er uegnet for semantisk analyse.
Det som videre løfter systemets effektivitet, er det omfattende datasettet det er trent på. Med over 100 millioner videoer som inneholder integrerte video–audio–speech (VAS)-tekster, sammensatt fra både webkilder og kuraterte annotasjoner, etableres et enormt semantisk rom som modellen lærer å navigere. Under treningsprosessens andre stadium skjer det en viktig kvalitativ endring: modellen utsettes for kryssmodal innputt, og lærer å danne forbindelser på tvers av modaliteter, ikke bare innenfor én. Dette fører til en mer dyptgående representasjonsevne.
På det tredje stadiet raffineres modellen ytterligere gjennom instruksjonstilpasning – såkalt instruction tuning. Her benyttes et selektivt datasett med blant annet videoannotasjoner fra GPT-4 og komplekse spørsmål–svar-datasett, inkludert PerceptionTestQA og TVQA. Det avgjørende i denne fasen er ikke bare mengden data, men datasettets strukturelle mangfold og evne til å utfordre modellens resonnering. Dette er data som krever både visuell forståelse, språkforståelse og integrert situasjonsforståelse, og det er her modellen nærmer seg en form for menneskelig dialogisk intelligens.
Resultatene fra eksperimentene er slående. InternVideo2 overgår tidligere toppmodeller på en rekke anerkjente benchmark-datasett som Kinetics (K400–700), Moments in Time, SomethingSomethingV2 og ActivityNet. Ikke bare i finjustert læring, men også i "zero-shot"-scenarier – hvor modellen aldri har sett testdataene før – viser den fremragende resultater. Dette tyder på at modellens generaliseringsevne er betydelig styrket gjennom flermodal og instruksjonsbasert trening.
Det mest bemerkelsesverdige er at InternVideo2 oppnår dette med færre rammer per sekund og lavere oppløsning enn tidligere modeller. Hvor eldre modeller krevde høyoppløste input eller ensemble-teknikker, når InternVideo2 SOTA-nivåer med kun 16 rammer og lavere oppløsning. Dette peker på at forbedringen ligger i kvalitativ forståelse fremfor ren beregningskraft.
Et viktig aspekt som fremkommer, er modellens evne til å tolke temporale sammenhenger. På datasett som krever forståelse av tidsdynamikk – for eksempel SthSthV2 – matcher InternVideo2 eller overgår de beste tilgjengelige modellene. Det viser at integrering av lyd, tale og visuell informasjon faktisk styrker forståelsen av handlingers struktur i tid. Dette er avgjørende for å modellere narrative strukturer, årsak–virkning-relasjoner og handlingsforløp.
Det er også verdt å merke seg de ulike tilnærmingene til evaluering: fullstendig finjustering, oppmerksomhetsbasert probing, lineær probing og nullskuddsklassifisering. Disse eksperimentelle designene belyser ikke bare ytelse, men også hvor "lærbar" modellen er gitt ulike mengder trening og frihetsgrader. At InternVideo2 viser seg robust under alle disse innstillingene, indikerer at den har internalisert generaliserbare semantiske representasjoner.
For leseren er det viktig å forstå at fremtiden for videoforståelse ikke ligger i isolerte analyser av bilder eller lyd, men i sammensmeltingen av disse modalitetene. Det å kunne beskrive en hendelse slik et menneske ville ha gjort – med innsikt, kontekst og fortolkning – krever modeller som både ser, hører og forstår. InternVideo2 er ikke en enkel maskin for tekstgenerering, men et system som imiterer den multimodale persepsjonen som definerer menneskelig erfaring. Det er i dette skjæringspunktet mellom sansning og språk at neste generasjons kunstig intelligens formes.
Endtext.
Hvordan forbedre generalisering på tvers av datasett med Test-Time Prompt Tuning (TPT)
Test-Time Prompt Tuning (TPT) representerer et betydelig skritt fremover i arbeidet med å forbedre generaliseringsevnen til maskinlæringsmodeller, spesielt for modeller som opererer i visuelle og tekstbaserte domener. Denne metoden er både effektiv og fleksibel, ettersom den benytter en optimaliseringsteknikk som skjer utelukkende på testtid, uten behov for ny trening av modellen. Ved å bruke forhåndsdefinerte prompt-modeller som grunnlag, kan TPT justere ytelsen til en modell basert på de spesifikke testdataene som blir presentert.
I mange klassifikasjonsoppgaver, som de som involverer datasett som ImageNet, ImageNet-A, og ImageNet-V2, har TPT vist seg å ha en klar fordel i forhold til andre metoder. En grunnleggende egenskap ved TPT er at det tar i bruk en pre-konfigurert prompt, som for eksempel en CoOp eller CoCoOp, og justerer denne prompten under testtid for å maksimere nøyaktigheten på ukjente distribusjoner av data. Dette skiller seg fra tradisjonelle ensemble-metoder, der man kombinerer prediksjoner fra flere modeller eller seed-tilfeller uten å gjøre tilpasninger på selve prompten under testtid.
En særlig styrke ved TPT er dens evne til å forbedre modellens robusthet mot naturlige distribusjonsendringer. Dette er tydelig når vi ser på tabellene som sammenligner resultatene fra ulike metoder under forhold der dataene er forskjellige fra de som ble brukt til å trene modellen. TPT gir en jevnere og mer konsistent ytelse, sammenlignet med metoder som CoOp eller CoCoOp, selv når vi jobber med små datasett eller ukjente distribusjoner. Det er også verdt å merke seg at TPT kan kombineres med disse metodene for å ytterligere heve resultatene.
Et interessant aspekt ved TPT er dens evne til å håndtere usikkerhet og minimere entropi på testtid. Når man bruker metoder som MEMO (Marginal Entropy Minimization), kan man ved å anvende TPT på toppen oppnå ytterligere forbedringer. Dette skjer gjennom en mer effektiv seleksjon av de mest pålitelige prediksjonene, som igjen bidrar til økt nøyaktighet. Dette fenomenet er særlig relevant i scenarier der variasjon i prediksjonene fra forskjellige modeller kan være høy, som for eksempel i datasett med høy grad av heterogenitet.
Når vi ser på bruken av dataforsterkning (data augmentation), er det klart at selv om teknikker som gjennomsnittsprediksjon eller flertallsstemming kan bidra til å redusere feil, så gir ikke disse metodene den samme betydelige forbedringen som TPT gir. Dette understreker kompleksiteten i å designe algoritmer som effektivt kan bruke augmenterte bilder uten å bruke optimaliseringsteknikker som TPT.
Når man ser på hvordan TPT presterer sammenlignet med tradisjonelle modell-ensembler, er det viktig å merke seg at TPT ikke er ment å erstatte disse metodene, men heller å komplementere dem. For eksempel, ved å kombinere TPT med CoOp eller CoCoOp, kan man oppnå resultater som er bedre enn de som oppnås med bare tradisjonelle ensembler. TPT fungerer som en form for "finjustering" som gir den ekstra presisjonen som trengs for å håndtere nye eller ukjente data.
I tillegg til den tekniske tilnærmingen, er det også viktig å forstå hvordan TPT kan tilpasses forskjellige typer modeller og arkitekturer. Ved å bruke standardiserte modeller som ResNet-50 i kombinasjon med TPT, kan man oppnå robust forbedring på tvers av forskjellige datasett og oppgaver. Denne fleksibiliteten gjør TPT til en svært lovende tilnærming for fremtidig forskning og utvikling innen maskinlæring.
TPT er ikke bare en teknisk forbedring, men en ny måte å tenke på hvordan man kan bruke forhåndstrente modeller på testtid, og hvordan man kan finjustere disse for å oppnå best mulige resultater uten behov for ny trening eller tunge beregninger.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский