In het proces van ruisonderdrukking voorspelt MotionDiffuse de ruisterm εθ (xt, t, text) ∈ F×D R., waarbij F het aantal frames is en D de dimensionaliteit van elke pose vertegenwoordigt. Deze ruisterm stuurt de richting van de ruisonderdrukking voor het gehele lichaam. Geïnspireerd door de interpolatie van latente code introduceert MotionDiffuse een methode voor “ruisinterpolatie” waarmee verschillende lichaamsdelen onafhankelijk kunnen worden gecontroleerd. Tijdens elke ruisonderdrukkingstap berekent het de ruisterm εj = εθ (xt, t, Text∗,j ), j ∈ [1, NS] voor elk lichaamsdeel. Deze termen worden gecombineerd via de volgende formule:
Waarbij Mj een binaire vector is die het lichaamsdeel van interesse specificeert. Het symbool (·) vertegenwoordigt het Hadamard-product, en ∇ duidt op de gradiëntoperator. λ1 is een hyperparameter die de balans tussen de twee componenten regelt. Deze correctie zorgt ervoor dat er consistentie is in overlappende gebieden.
Tijdvarieerbare controle werkt op een vergelijkbare manier als de controle van lichaamsdelen. MotionDiffuse berekent eerst de εtime i = εθ (xt, t, Texti,∗) voor elk tijdsegment en interpoleert deze ruistermen met een correctie:
Hierbij is εtime,i de gepadde versie van de ruisterm en λ2 een andere hyperparameter.
Tijdens de testfase stelt de fijnmazige generatie van MotionDiffuse het mogelijk om vloeiende bewegingen te produceren in eenvoudige scenario’s, terwijl de semantische consistentie over verschillende lichaamsdelen wordt behouden met de gegeven prompts. Deze zero-shot benadering brengt echter extra uitdagingen met zich mee. Het corrigerende mechanisme past alleen ruisonderdrukking toe op de coördinaten, wat abrupte veranderingen in snelheid en versnelling kan veroorzaken, wat resulteert in suboptimale uitkomsten in praktische toepassingen. FineMoGen introduceert daarom een ruimtelijk-temporeel onafhankelijk model in de attention-module om deze problemen aan te pakken. Dit stelt het model in staat om met slechts één dataset van prompts effectief fijne generatie tijdens de testfase te realiseren, wat leidt tot aanzienlijk verbeterde resultaten.
De Baseline Mixed Efficient Attention module is een combinatie van efficiënte zelf-attentie en efficiënte kruis-attentie. De invoer van bewegings- en tekstkenmerken wordt projectiegewogen, waarbij de resultaten gecombineerd worden tot een matrix V. Deze matrix wordt vervolgens bewerkt met een softmax-operatie, waarbij de relevantie van de lichaamsdelen ten opzichte van de globale templates wordt geanalyseerd. Het resultaat wordt vervolgens verwerkt door de aandacht-module om de verfijnde kenmerken te verkrijgen.
In het model FineMoGen wordt de rol van globale templates en multi-head attention herzien. De SpAtio-Temporal Mixture Attention (SAMI) wordt geïntroduceerd, die bestaat uit twee takken: een temporele tak en een ruimtelijke tak. De resultaten van deze takken worden samengevoegd tot het uiteindelijke resultaat.
De temporele tak behandelt de interacties tussen verschillende tijdsintervallen door tijd expliciet in de processen te integreren. SAMI definieert een benadering voor het verfijnen van temporele kenmerken door de tijdsignalen van de globale templates te verwerken. Dit wordt gedaan door middel van een serie wiskundige formules die de snelheid en het belang van het template over tijd vastleggen.
De ruimtelijke tak in SAMI is specifiek ontworpen om de modellering van lichaamsdelen te verbeteren door de oorspronkelijke representatie op te splitsen in groepen, waarbij elke groep overeenkomt met een specifiek lichaamsdeel. De spatial feature refinement zorgt ervoor dat communicatie tussen de verschillende lichaamsdelen mogelijk is, wat essentieel is voor het behoud van semantische consistentie tijdens het genereren van bewegingen.
Dit geavanceerde systeem van tijd- en ruimte-afhankelijke modellen en technieken, zoals SAMI, biedt belangrijke voordelen bij het creëren van realistische, coherente en dynamische menselijke bewegingen op basis van tekstinvoer.
Naast de technische benadering is het voor de lezer belangrijk om te begrijpen hoe de afstemming van de hyperparameters, zoals λ1 en λ2, de uiteindelijke prestaties van het model kan beïnvloeden. Het correct instellen van deze parameters is cruciaal voor het bereiken van een balans tussen nauwkeurigheid en uitvoeringssnelheid, en kan variëren afhankelijk van het specifieke gebruiksscenario. Bovendien is de keuze van het trainingsdataset belangrijk, aangezien het model mogelijk niet goed generaliseert naar nieuwe, niet-geziene data zonder een zorgvuldig samengestelde training.
Hoe de vertaalpijplijn de meertalige capaciteiten van InternVL verbetert
De ontwikkeling van meertalige systemen vereist het vermogen om data effectief tussen verschillende talen te vertalen zonder dat de betekenis verloren gaat. Een van de grootste uitdagingen bij het vertalen van datasets is het waarborgen van consistentie en precisie, vooral wanneer de teksten culturele nuances bevatten die niet gemakkelijk direct vertaald kunnen worden. Het gebruik van vertaalpijplijnen is een effectieve oplossing voor dit probleem, omdat ze het proces van vertaling aanzienlijk versnellen en tegelijkertijd zorgen voor een hoge mate van nauwkeurigheid. In dit artikel wordt de vertaalpijplijn die is ontwikkeld voor het model InternVL beschreven, met de nadruk op hoe dit de prestaties op visuele en taalgerelateerde taken verbetert.
De vertaalpijplijn van InternVL maakt gebruik van geavanceerde open-source LLM's (Large Language Models), zoals GPT-3.5, die in staat zijn om Engelse datasets naar andere talen te vertalen, zoals het Chinees, terwijl de oorspronkelijke betekenis en context behouden blijven. Dit wordt bereikt door het gebruik van zogenaamde “taalpijplijnen,” die ervoor zorgen dat vertalingen in verschillende talen consistent en nauwkeurig blijven. Dit systeem kan bovendien eenvoudig worden uitgebreid naar andere talen door simpelweg de taalprompt aan te passen, zonder dat handmatige annotatie nodig is.
Een belangrijk aspect van deze vertaalpijplijn is de mogelijkheid om de vertaalde datasets niet alleen te gebruiken voor tekstverwerking, maar ook voor visuele perceptietaken. Het InternVL-model combineert de kracht van visuele encoder en taalmiddleware, wat resulteert in een robuust systeem dat zowel visuele als taalgerelateerde taken met hoge precisie kan uitvoeren. Bijvoorbeeld, het model wordt geëvalueerd voor visuele taken zoals beeldclassificatie en semantische segmentatie, maar ook voor taken waarbij beeld en tekst gecombineerd moeten worden, zoals beeld-tekst zoekopdrachten en videoclips classificatie.
Een ander voordeel van het gebruik van vertaalpijplijnen is dat ze het vertaalproces automatisch schalen zonder dat handmatige annotaties nodig zijn. Hierdoor kunnen enorme hoeveelheden meertalige data snel en efficiënt worden verwerkt. In het geval van de datasets die oorspronkelijk in het Engels waren, zoals COYO en GRIT, werd de vertaalpijplijn gebruikt om deze datasets naar het Chinees te vertalen. Door deze aanpak is de Chinese capaciteit van InternVL aanzienlijk verbeterd, wat het model in staat stelt om taken in deze taal beter uit te voeren.
Naast tekstvertalingen wordt de vertaalpijplijn ook gebruikt om visuele perceptie te verbeteren. Het InternViT-6B-model, dat een essentieel onderdeel van InternVL vormt, wordt geëvalueerd op zijn visuele classificatiecapaciteiten met behulp van de ImageNet-1K dataset en verschillende varianten ervan. De resultaten tonen aan dat de visuele prestaties van het model significant beter zijn in vergelijking met andere modellen, zoals OpenCLIP en DINOv2, met een aanzienlijke verbetering in de nauwkeurigheid van de classificaties.
In aanvullende tests met semantische segmentatie op de ADE20K dataset, waarin beelden worden opgesplitst in betekenisvolle segmenten, bleek InternViT-6B ook te presteren boven verwachting. Dit werd verder versterkt door fine-tuning van het model met beperkte trainingsdata, wat de mogelijkheden van het model verder optimaliseerde voor toepassingen in de echte wereld.
De vertaalpijplijn heeft verder bewezen effectief te zijn bij zero-shot prestaties, wat betekent dat het model in staat is om taken uit te voeren zonder voorafgaande training op specifieke taal- of beeldsets. Dit werd bijvoorbeeld aangetoond bij de evaluatie van het model op beeld-tekst contrastieve taken en meertalige beeldclassificatie, waarbij InternVL ook uitstekende prestaties leverde in talen zoals Chinees, Japans, Arabisch en Italiaans.
Naast het verbeteren van de vertalingen en visuele perceptie, heeft deze aanpak ook implicaties voor de toekomstige ontwikkeling van meertalige AI-systemen. Het maakt het mogelijk om snel en efficiënt nieuwe talen en datasets te integreren, zonder dat handmatige vertalingen nodig zijn. Dit heeft brede toepassingen in verschillende domeinen, zoals machinevertaling, automatische beeldannotatie en multimediale zoekopdrachten.
Het is belangrijk voor de lezer te begrijpen dat hoewel de vertaalpijplijn aanzienlijke voordelen biedt, de prestaties van het model sterk afhangen van de kwaliteit van de oorspronkelijke datasets en de mate van verfijning van de gebruikte LLM's. Naarmate de technologie zich verder ontwikkelt, zal de noodzaak om modellen zoals InternVL te blijven verbeteren en uit te breiden naar meer talen, nog crucialer worden. Het succes van dergelijke systemen hangt uiteindelijk af van de voortdurende innovatie op het gebied van zowel de taalmodellen als de visuele perceptiecapaciteiten.
Hoe CLIP zich aanpast voor 3D-begrip: Een diepgaande verkenning van PointCLIP en PointCLIP V2
In recente vooruitgangen in het domein van 3D-computer vision is er een aanzienlijke verschuiving geweest in de manier waarop modelarchitecturen die oorspronkelijk zijn ontwikkeld voor 2D-afbeeldingen, nu worden toegepast op 3D-puntwolkdata. Een opvallende technologie die dit mogelijk maakt, is CLIP (Contrastive Language-Image Pretraining), een model dat voorheen werd gebruikt om de relatie tussen beelden en bijbehorende tekst te begrijpen. PointCLIP, en zijn verbeterde versie PointCLIP V2, vertegenwoordigen belangrijke stappen in het overdragen van CLIP’s 2D-kennis naar de 3D-wereld, met indrukwekkende resultaten in verschillende taken zoals zero-shot classificatie, objectdetectie en part-segmentatie.
CLIP is oorspronkelijk getraind op afbeeldingen en tekst uit een breed scala van domeinen, waarbij het de mogelijkheid had om afbeeldingen te classificeren en te begrijpen in relatie tot tekst. Dit leverde zeer goede prestaties op in beeld-gerelateerde taken. PointCLIP breidt deze mogelijkheden uit door CLIP te combineren met 3D-puntwolkdata. Dit werd mogelijk gemaakt door een slimme toepassing van meerdere weergaven van de 3D-puntwolk en een lichtgewicht aanpassingsmodule, de zogenaamde "interview adapter", die de multi-view representaties samenvoegt om de ruimtelijke eigenschappen van 3D-objecten beter te begrijpen.
PointCLIP V2 gaat nog verder door een geavanceerde realistische projectiemodule toe te voegen. Deze module synthetiseert hoogwaardige dieptekaarten en gebruikt prompts van GPT-3 om tekstspecifieke beschrijvingen van 3D-objecten te genereren. Dit verhoogt de visuele-taaluitlijning aanzienlijk, wat de prestaties van het model in diverse 3D-taken verbetert. V2 kan nauwkeuriger 3D-objecten herkennen, zelfs in open wereldscènes, zonder de noodzaak voor extra 3D-specifieke training.
De prestaties van PointCLIP V2 werden verder onderzocht in verschillende experimenten, waaronder zero-shot part-segmentatie op het ShapeNetPart-dataset en objectdetectie op de ScanNet V2-dataset. In de zero-shot part-segmentatie toonde V2 consistente superieure resultaten ten opzichte van PointCLIP V1, wat wijst op de effectiviteit van de verbeterde geometrische analysecapaciteiten van het model. De resultaten voor objectdetectie op ScanNet V2 gaven ook een aanzienlijke verbetering, vooral bij het detecteren van objecten in real-world omgevingen met een hogere precisie en recall bij de hogere Intersection-over-Union (IoU) drempels.
Bij de evaluatie van het k-shot classificeren op datasets zoals ModelNet40 en ScanObjectNN, overtrof zowel PointCLIP V1 als V2 alle andere vergeleken methodes, zelfs bij één-shot classificatie. Dit bevestigt de kracht van de gecombineerde benadering van visuele en tekstuele informatie, zelfs bij beperkte trainingsvoorbeelden. PointCLIP V2 bereikte zelfs nauwkeurigheden boven de 87% voor 16-shot classificatie op ModelNet40, wat in de buurt komt van volledig geleide resultaten.
Een andere belangrijke bevinding is de impact van het verbeteren van de taal-afbeelding afstemming. Bij de zero-shot classificatie op ModelNet40, leverden 3D-specifieke tekstprompts van GPT-3 een verbetering van meer dan 25% in de prestaties van het model. Dit benadrukt de waarde van het verbeteren van de taal- en visuele representatie-uitlijning om de capaciteiten van modellen zoals CLIP in de context van 3D-gegevens verder uit te breiden.
Wat verder van belang is, is dat de vooruitgang in deze technologie niet alleen het potentieel heeft om de prestaties van 3D-modellen te verbeteren, maar ook de manier waarop 3D-objecten en scènes in de echte wereld worden begrepen. Toepassingen zoals autonome voertuigen, robotica en augmented reality zullen kunnen profiteren van de robuuste 3D-openwereldmodellen die PointCLIP V2 mogelijk maakt.
Voor de lezer die verder wil duiken in dit onderwerp, zijn er diverse literatuurbronnen die nader ingaan op de onderliggende theorieën en technieken. Er zijn bijvoorbeeld studies over 3D-voortraining in de context van een multi-modale embeddingruimte, evenals gedetailleerde onderzoeken naar de analyse van puntwolkdata met diepe leermethoden. Verder kunnen meer inzichten worden opgedaan door te kijken naar grootschalige 3D-representatie-leermethoden en de integratie van prompt-engineering via GPT-3 voor verdere verbetering van de visuele-taalafstemming.
Wat gebeurt er wanneer de vertrouwde werkelijkheid verandert? Een moment van zelfontdekking in tijden van onzekerheid
Hoe Oudgermaanse Runen het Verhaal van de Oorlog en Symbolen Vertellen
Wat zijn de voordelen van twee-dimensionale metaalchalcogeniden in energietoepassingen?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский