La crescente evoluzione dei modelli linguistici multimodali ha portato a progressi significativi nell'interpretazione di dati visivi e testuali. Tuttavia, con questi avanzamenti emergono sfide relative alla robustezza di questi modelli e alla loro capacità di gestire situazioni complesse, in cui la comprensione visiva deve essere combinata con un ragionamento testuale. Diversi studi recenti hanno messo in evidenza le difficoltà nell'addestrare modelli che siano non solo performanti, ma anche adattabili a una vasta gamma di scenari reali.
Un esempio notevole di questo approccio è il lavoro di Liu et al. (2023), che hanno esplorato l'importanza della "risoluzione immagine" e delle "etichette di testo" nei modelli multimodali. L'analisi ha dimostrato che l'integrazione di una risoluzione più alta per le immagini e un'etichettatura testuale più precisa migliora significativamente le capacità dei modelli di eseguire compiti complessi, come il ragionamento visivo e la comprensione di diagrammi e grafici. In effetti, questi modelli non solo analizzano i dati visivi, ma li "comprendono" in un contesto che implica anche l'interazione con testo, come nel caso dei modelli di domanda e risposta visiva (VQA).
Un altro esempio importante di questo progresso è l'uso del "mixture of experts" (MoE) nei modelli di visione-linguaggio. Modelli come Moe-llava (Lin et al., 2024) utilizzano una combinazione di esperti per trattare diverse componenti visive e linguistiche di un dato compito. Questo approccio consente ai modelli di adattarsi in modo più flessibile a una varietà di domande, comprese quelle che richiedono competenze specialistiche in diverse aree. Il vantaggio di questo approccio è che, invece di addestrare un modello con un unico set di pesi, si introducono "esperti" specializzati, che possono essere selezionati dinamicamente a seconda delle esigenze del compito.
In parallelo, un'altra sfida fondamentale per i modelli multimodali è la loro capacità di rispondere a domande visive complesse che vanno oltre il semplice riconoscimento di oggetti. Ad esempio, compiti come il ragionamento spaziale e la comprensione di relazioni matematiche tra gli oggetti visivi rappresentano aree di ricerca avanzata. Progetti come Clevr-math (Lindström & Abraham, 2022) si concentrano proprio su queste capacità, creando set di dati che combinano il linguaggio naturale con il ragionamento visivo e matematico. Modelli che affrontano questi compiti devono possedere una comprensione non solo visiva, ma anche simbolica e logica, che vada oltre l'analisi superficiale delle immagini.
Il recente sviluppo di modelli come Sphinx (Lin et al., 2023) e Textmonkey (Liu et al., 2024) ha portato a nuove soluzioni in cui la comprensione testuale si fonde con la rappresentazione visiva in modo sinergico. Sphinx, per esempio, esplora come la fusione di pesi, compiti e embedding visivi possa portare a modelli più robusti e precisi, capaci di trattare una varietà di compiti visivi e linguistici in modo più armonioso. Questo tipo di approccio punta a ridurre la dissonanza tra il riconoscimento visuale e le capacità di ragionamento, un aspetto cruciale per i modelli che devono operare in contesti complessi e variabili.
Oltre a questi sviluppi, uno degli aspetti più critici che gli sviluppatori e i ricercatori devono comprendere riguarda l'importanza di un'accurata calibrazione del modello rispetto alle specifiche caratteristiche dei dati di input. Per esempio, in scenari che implicano dati scientifici o tecnici, come quelli utilizzati in modelli come PlotQA (Methani et al., 2020), la capacità di un modello di analizzare e comprendere dati complessi come grafici e diagrammi è essenziale. In questi casi, una comprensione più fine delle relazioni tra gli elementi visivi e i testi accompagnatori è fondamentale per una risposta accurata. Pertanto, la scelta dei dati di addestramento e delle tecniche di ottimizzazione gioca un ruolo cruciale nel determinare l'efficacia del modello.
Importante è anche la questione del bilanciamento tra specializzazione e generalizzazione nei modelli multimodali. Sebbene la personalizzazione a un dominio specifico possa portare a prestazioni superiori in compiti particolari, un modello troppo specializzato potrebbe perdere la sua capacità di adattarsi a nuovi contesti o a dati non previsti durante l'addestramento. L'ottimizzazione dei modelli per una comprensione più generalista senza sacrificare la performance su compiti specifici rimane una sfida aperta.
In sintesi, la progettazione di modelli multimodali robusti e versatili richiede un delicato equilibrio tra diversi aspetti: l'accuratezza nell'interpretazione visiva, la flessibilità nell'adattarsi a vari tipi di dati, e la capacità di combinare efficacemente l'informazione visiva con quella testuale. Sebbene siano stati fatti progressi significativi, la ricerca continua a esplorare come migliorare la robustezza di questi modelli in contesti complessi e reali. La strada verso una piena comprensione multimodale sembra ancora lunga, ma i risultati finora raggiunti suggeriscono che siamo sulla buona strada per realizzare modelli sempre più sofisticati e capaci di affrontare sfide in continua evoluzione.
Come i Modelli Multimodali Possono Rivoluzionare la Comprensione dei Video
Negli ultimi anni, l'integrazione dei dati video nei modelli di intelligenza artificiale ha rappresentato una delle sfide più intriganti nel campo della visione artificiale. La crescente quantità di contenuti video disponibili ha spinto ricercatori e sviluppatori a cercare nuove modalità per migliorare la comprensione automatica dei video. Una delle principali direzioni di ricerca riguarda l'uso di modelli di linguaggio e visione di grande scala per affrontare compiti complessi che vanno dalla comprensione dei contenuti visivi fino all'interazione video-linguistica. Tra le innovazioni più significative, emerge il lavoro svolto su modelli come InternVideo2, che cercano di affrontare questa sfida utilizzando approcci di apprendimento progressivo su più stadi.
Il cuore del modello InternVideo2 risiede nel suo approccio a tre stadi, pensato per estendere i concetti già utilizzati in altri modelli, ma con l'aggiunta di nuove capacità. Il primo stadio consiste nell'apprendimento delle strutture spaziali e temporali fondamentali attraverso la ricostruzione video non mascherata. In altre parole, il modello deve essere in grado di comprendere e ricostruire il flusso del video, partendo dai suoi dati grezzi senza ricorrere a filtri o astrazioni. Questo passo è essenziale per stabilire una comprensione di base del movimento e del contenuto visivo. Durante questa fase, vengono utilizzati encoder di visione pre-addestrati, come InternViT e VideoMAE-g, che forniscono una guida fondamentale per l'apprendimento delle rappresentazioni visive.
Il secondo stadio integra informazioni semantiche provenienti da altri domini, come il linguaggio e l'audio. Attraverso il contrasto multimodale, il modello non solo apprende la relazione tra il video e il testo, ma anche tra il video e l'audio. Ciò è cruciale per i compiti che richiedono una comprensione profonda delle interazioni tra diversi tipi di media, come la comprensione dei video con tracce audio, o la generazione di descrizioni più ricche di un video. Questo approccio consente di affrontare compiti come il riconoscimento di azioni nei video o la generazione di sottotitoli testuali in modo più efficace.
Il terzo stadio, forse il più innovativo, si concentra sulla previsione del prossimo token, un'idea presa dai modelli di linguaggio ma adattata per il dominio video. In questo caso, il modello è allenato a prevedere quale sarà il prossimo fotogramma video o una descrizione testuale, il che migliora notevolmente le capacità di ragionamento del modello in contesti aperti, come il question answering sui video (VQA) e la generazione automatica di didascalie. Questo stadio implica l'integrazione con grandi modelli di linguaggio (LLM), che sono in grado di elaborare e generare risposte linguistiche complesse.
Uno degli aspetti chiave che distingue InternVideo2 è la qualità e la coerenza dei dati utilizzati per l'addestramento. Un enorme dataset multimodale, composto da oltre 402 milioni di dati, è stato costruito per allenare il modello. Questo dataset include una vasta gamma di combinazioni di video, coppie video-testo, video-audio-discorso-testo, e immagini-testo. Inoltre, il sottogruppo InternVid2 si concentra su clip video semanticamente segmentate, utilizzando un approccio di didascalia multimodale che aiuta a generare descrizioni più accurate e dettagliate.
I risultati ottenuti da InternVideo2 sono straordinari. Il modello ha dimostrato di essere in grado di affrontare una vasta gamma di compiti di comprensione video, che vanno dalla semplice percezione spaziale e temporale a compiti di ragionamento avanzato, come il riconoscimento delle azioni e la comprensione semantica dei contenuti video. I test su una serie di benchmark hanno evidenziato prestazioni all'avanguardia, con il modello che si è distinto in circa 70 compiti di comprensione video, dal riconoscimento delle azioni alla comprensione linguistica dei video.
Un altro aspetto fondamentale riguarda l'architettura visiva del modello, che si basa su una versione modificata del Vision Transformer (ViT). InternVideo2 è stato potenziato con strati di proiezione specializzati per il distillamento della conoscenza e meccanismi di pooling dell'attenzione, rendendo l'architettura più efficace nel trattare grandi quantità di dati visivi. In questo processo, i fotogrammi vengono campionati a intervalli regolari e successivamente sottoposti a un processo di riduzione dimensionale che consente una rappresentazione più compatta delle informazioni visive. Questo permette di migliorare l'efficienza computazionale e la qualità dei risultati ottenuti.
La combinazione di diverse tecniche, tra cui la ricostruzione video non mascherata, l'apprendimento contrastivo multimodale e la previsione del prossimo token, ha reso InternVideo2 un modello particolarmente potente e versatile. Non solo è in grado di comprendere i video a livello spaziotemporale, ma è anche capace di rispondere a domande complesse riguardanti i contenuti video o generare descrizioni precise.
L'importanza di questa ricerca non risiede solo nelle prestazioni superiori del modello, ma nel fatto che rappresenta un passo fondamentale verso una comprensione più sofisticata dei video. Questi modelli potrebbero essere utilizzati in una varietà di applicazioni, dalla sorveglianza video automatica alla creazione di contenuti interattivi, fino al miglioramento dei sistemi di accessibilità come i sottotitoli automatici o i sistemi di risposta alle domande sui video. La capacità di un modello come InternVideo2 di comprendere e generare informazioni video in modo così preciso apre la strada a nuove possibilità per l'interazione uomo-macchina.
L'evoluzione della comprensione dei video, con modelli che integrano audio, testo e immagini in un'unica architettura, è destinata a rivoluzionare molti settori, dalla ricerca al marketing, dalla salute all'intrattenimento. Tuttavia, la chiave per il successo risiede nell'uso di dataset ampi e diversificati, nella capacità di integrare informazioni provenienti da più modelli e nella continua ottimizzazione delle architetture.
Come funziona la calibrazione della fiducia nei modelli visivi-linguistici contrastivi?
Nei modelli di visione e linguaggio, la calibrazione della fiducia è un aspetto cruciale per migliorare la precisione e la robustezza dei sistemi di intelligenza artificiale, specialmente in contesti di classificazione e riconoscimento. In particolare, nei modelli visivi-linguistici, che combinano la comprensione visiva con la capacità di elaborare il linguaggio naturale, la calibrazione della fiducia permette al modello di esprimere quanto sia certo di una determinata predizione. Questo processo è fondamentale quando si devono fare previsioni in scenari non visti o in contesti aperti, dove il modello potrebbe trovarsi ad affrontare categorie o situazioni sconosciute.
In generale, la calibrazione della fiducia cerca di adattare le probabilità di uscita del modello in modo che corrispondano meglio alla probabilità reale che un evento si verifichi. Se un modello predice una probabilità del 90% per una determinata classe, l'obiettivo della calibrazione è assicurarsi che, in media, la classe predetta si verifichi effettivamente nel 90% dei casi. Questo tipo di calibrazione è particolarmente sfidante nei modelli contrastivi, che imparano a mappare immagini e testi in uno spazio comune, dove le relazioni tra oggetti visivi e descrizioni linguistiche devono essere esplorate e comprese senza errori interpretativi.
I modelli visivi-linguistici contrastivi come CLIP (Contrastive Language-Image Pretraining) sono progettati per eseguire una varietà di compiti, come il riconoscimento delle immagini basato su descrizioni testuali, o la ricerca di immagini simili a una query testuale. Tuttavia, uno dei problemi principali è che questi modelli non sono sempre ben calibrati. Sebbene possiedano una notevole capacità di generalizzazione, le loro previsioni potrebbero essere eccessivamente ottimistiche o pessime, soprattutto in contesti nuovi o non visti. La calibrazione della fiducia aiuta a ridurre questo problema, regolando le probabilità assegnate alle diverse classi e migliorando così la qualità complessiva delle predizioni.
Un approccio che si è rivelato utile in questo ambito è la calibrazione su vocabolari aperti. Quando un modello è esposto a nuovi oggetti o categorie non presenti nel suo vocabolario originale, la calibrazione aiuta a mantenere una stima realistica della probabilità di appartenenza a queste nuove categorie. In pratica, questo approccio prevede l'uso di tecniche che permettono al modello di assegnare in modo corretto una probabilità di previsione anche quando si trova a fronteggiare categorie sconosciute o non etichettate.
La calibrazione della fiducia non riguarda solo l’aspetto probabilistico della previsione, ma ha implicazioni dirette sulla fiducia che riponiamo nelle decisioni del modello. Un modello ben calibrato non solo produce previsioni corrette, ma è anche in grado di riconoscere quando non è in grado di fare una previsione affidabile. Questa caratteristica diventa fondamentale in applicazioni pratiche come la diagnosi medica, la guida autonoma o la robotica, dove errori nei modelli possono comportare gravi conseguenze.
Uno degli aspetti importanti che spesso viene trascurato nella calibrazione della fiducia è la sua relazione con la comprensione semantica. Nei modelli contrastivi, la calibrazione non deve solo considerare le probabilità di previsione, ma anche come le informazioni visive e linguistiche siano collegate tra loro. Un modello visivo-linguistico deve essere in grado di comprendere il contesto semantico di una descrizione testuale per calibrare correttamente la propria fiducia nella predizione, un compito che diventa ancora più complesso in scenari aperti o ambigui.
Un altro elemento chiave da considerare è l'uso di metodi di calibrazione non supervisionati, che non richiedono l’accesso a dati etichettati. Questo approccio è particolarmente utile in scenari in cui l'etichettatura di grandi quantità di dati è difficile o costosa. Tecniche come la calibrazione basata sulla distanza o l’uso di metodi di calibrazione induttiva possono essere applicate per migliorare la qualità delle predizioni anche in assenza di etichette specifiche.
Infine, l'importanza della calibrazione della fiducia nei modelli visivi-linguistici non è limitata alla sola accuratezza predittiva. Una calibrazione efficace è anche fondamentale per la trasparenza del modello. Gli utenti e i ricercatori devono essere in grado di comprendere non solo cosa un modello ha predetto, ma anche quanto si può fare affidamento sulla sua previsione. Questo porta alla costruzione di modelli che, oltre ad essere più accurati, diventano anche più affidabili e comprensibili, favorendo così l’adozione di tali tecnologie in contesti critici.
Come si può garantire l’affidabilità dei modelli visione-linguaggio in scenari open-vocabulary?
I modelli contrastivi visione-linguaggio (VLM), come CLIP, rappresentano un’evoluzione significativa nel panorama dell’intelligenza artificiale multimodale. Questi modelli hanno dimostrato prestazioni notevoli in contesti open-vocabulary, cioè in ambienti in cui il sistema deve riconoscere o ragionare su categorie che non ha mai incontrato esplicitamente durante l’addestramento. Tuttavia, questa flessibilità porta con sé un problema sistematicamente trascurato: la calibrazione della confidenza nelle predizioni.
La calibrazione della confidenza si riferisce alla capacità del modello di associare ai propri output probabilità che riflettano realisticamente la probabilità che tali predizioni siano corrette. In pratica, un modello ben calibrato dovrebbe, ad esempio, avere una precisione del 70% su tutte le predizioni effettuate con una confidenza del 70%. Nei VLM pre-addestrati come CLIP, questa proprietà è parzialmente mantenuta nelle inferenze zero-shot. Ma appena si interviene con tecniche di fine-tuning, anche se efficienti dal punto di vista parametrico come il prompt learning, questa calibrazione tende a deteriorarsi.
Un'osservazione centrale è che, dopo il fine-tuning, i VLM diventano sistematicamente troppo sicuri (overconfident) riguardo alle classi nuove – cioè quelle non presenti durante l’addestramento – e al tempo stesso esitanti (underconfident) verso le classi base. Questo squilibrio introduce un serio rischio in applicazioni critiche, ad esempio nei sistemi diagnostici o nei veicoli autonomi, dove l’affidabilità delle predizioni è fondamentale.
Le metodologie di calibrazione post-hoc esistenti – che mirano ad aggiustare le probabilità di output dopo il training – hanno mostrato efficacia nel correggere la miscalibrazione sulle classi base, ma si rivelano inadeguate quando si tratta di gestire l’incertezza associata alle classi nuove. In risposta a questa lacuna, è stato proposto un approccio semplice ma mirato: la calibrazione consapevole della distanza (DAC, Distance-Aware Calibration).
DAC si fonda su un’intuizione chiara: maggiore è la distanza semantica tra una nuova classe e le classi base, minore dovrebbe essere la confidenza della predizione. Per implementare questa logica, DAC calcola una misura di deviazione testuale – ovvero, una distanza tra l’embedding testuale della nuova classe e quelli delle classi base. Sulla base di questo scarto, viene adattata dinamicamente la temperatura di softmax, ovvero il parametro che modula la distribuzione di probabilità prodotta dal modello. Classi lontane ricevono una temperatura più alta, appiattendo la distribuzione e riducendo artificialmente la confidenza in maniera controllata.
L’efficacia di DAC è stata dimostrata empiricamente integrandolo in sette metodi diversi di prompt learning e testandolo su undici dataset a valle. I risultati sono coerenti: DAC migliora sistematicamente la calibrazione delle predizioni in scenari open-vocabulary. In media, per il metodo CoOp, si registra una riduzione dell’Expected Calibration Error (ECE) del 6.84%, con picchi fino al 16% su alcuni dataset. Miglioramenti simili sono stati osservati anche per metodi come MaPLe e PromptSRC.
Una delle forze principali di DAC è la sua natura modulare e agnostica rispetto al metodo di fine-tuning. Non solo migliora i modelli di prompt learning, ma potenzia anche metodi di calibrazione già esistenti, come il Density-Ratio Calibration, confermandone la versatilità e l’applicabilità generale.
Ciò che emerge con chiarezza da questa analisi è che l’accuratezza, pur essendo un indicatore importante, non è sufficiente per valutare l’affidabilità di un modello. La confidenza è un asse critico per la valutazione dei VLM, specialmente quando

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский