Condivisione della tecnologia

Modello del linguaggio visivo: il futuro dell'integrazione di visione e linguaggio

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1. Panoramica

I modelli Vision-Language (VLM) sono modelli di intelligenza artificiale in grado di elaborare e comprendere simultaneamente informazioni modali visive (immagine) e linguistiche (testo). Tali modelli combinano tecniche di visione artificiale ed elaborazione del linguaggio naturale, consentendo loro di svolgere bene compiti complessi come la risposta visiva a domande, la generazione di descrizioni di immagini e la ricerca da testo a immagine. È un caso di successo di applicazione dell'architettura del trasformatore al campo della visione artificiale. Nello specifico, sostituisce l'estrazione delle caratteristiche dell'immagine globale nella CNN tradizionale con il meccanismo dell'attenzione. I modelli del linguaggio visivo hanno mostrato un grande potenziale in molteplici campi, tra cui il recupero di immagini, l’intelligenza artificiale generativa, la segmentazione delle immagini, la diagnosi medica e la robotica. L’emergere di questi modelli non solo migliora le prestazioni dei sistemi di intelligenza artificiale, ma offre anche nuove possibilità per sviluppare applicazioni più intelligenti ed efficienti.

2. Trasformatore visivo

Il Visual Transformer (ViT) ottiene una rappresentazione globale dell'immagine segmentando l'immagine in patch e quindi incorporando queste patch nel codificatore Transformer. Ogni patch di immagine viene trattata come una "parola" indipendente ed elaborata attraverso un meccanismo di auto-attenzione. Rispetto alle tradizionali reti neurali convoluzionali (CNN), Vision Transformer funziona bene durante l'elaborazione di grandi set di dati e immagini ad alta risoluzione. Superano molte architetture CNN all'avanguardia nelle attività di classificazione delle immagini.
Di seguito è riportata la struttura di un semplice trasformatore visivo.
Inserisci qui la descrizione dell'immagine

4. Architettura del modello del linguaggio visivo
4.1 Apprendimento contrastivo

L'apprendimento contrastivo è una tecnica per apprendere i punti dati comprendendone le differenze. Questo metodo calcola i punteggi di somiglianza tra le istanze di dati e mira a ridurre al minimo le perdite di contrasto. È molto utile nell'apprendimento semi-supervisionato, dove solo pochi campioni etichettati guidano il processo di ottimizzazione per etichettare punti dati invisibili.
Inserisci qui la descrizione dell'immagine Ad esempio, un modo per capire che aspetto ha un gatto è confrontarlo con immagini di gatti e immagini di cani simili. I modelli di apprendimento contrastivo imparano a distinguere tra cani e gatti identificando caratteristiche come la struttura del viso, le dimensioni del corpo e il pelo. Questi modelli possono determinare quale immagine è più vicina all'immagine originale (chiamata "ancora") e prevederne la classe. Tra questi, il modello CLIP è un tipico modello addestrato secondo l'apprendimento contrastivo. Il modello CLIP ottiene una previsione zero-shot calcolando la somiglianza tra gli incorporamenti di testo e immagini. Innanzitutto addestra i codificatori di testo e immagini, quindi converte le categorie del set di dati di addestramento in didascalie e stima la didascalia migliore per l'immagine di input specificata. Quella che segue è l'architettura del modello CLIP:
Architettura CLIP

4.2 Modello linguistico dei prefissi (PrefixLM)

I modelli linguistici dei prefissi vengono preaddestrati prendendo una porzione di testo (il prefisso) e prevedendo la parola successiva nella sequenza. Nei modelli di linguaggio visivo, PrefixLM consente al modello di prevedere la successiva sequenza di parole basata su un'immagine e il rispettivo testo con prefisso. Utilizza un trasformatore visivo (ViT) per dividere l'immagine in una sequenza di patch unidimensionali, ciascuna sequenza rappresenta una regione locale dell'immagine. Il modello applica quindi la convoluzione o la proiezione lineare alle patch elaborate per generare incorporamenti visivi contestualizzati. Per la modalità testo, il modello converte i prefissi di testo relativi alle patch in incorporamenti di token. Il blocco codificatore-decodificatore del convertitore riceve incorporamenti visivi e incorporamenti di token. SimVLM è un'architettura popolare che utilizza il metodo di apprendimento PrefixLM. Ecco la sua architettura:
Inserisci qui la descrizione dell'immagine

4.3 Modello linguistico dei prefissi congelati (Frozen PrefixLM)

Il modello linguistico del prefisso congelato consente di utilizzare una rete preaddestrata e aggiornare solo i parametri del codificatore di immagini. Esempi tipici includono l'architettura Frozen e l'architettura Flamingo. L'architettura Frozen utilizza modelli linguistici pre-addestrati e codificatori visivi. Ottimizzando il codificatore di immagini, la sua rappresentazione dell'immagine è allineata con l'incorporamento del testo. L'architettura Flamingo combina un codificatore visivo simile a CLIP con un modello linguistico di grandi dimensioni (LLM). Fai deduzioni rapide inserendo immagini tra il testo. Quella che segue è una tipica architettura di rete di Frozen PrefixLM.

Inserisci qui la descrizione dell'immagine

4.4 Fusione dell'attenzione incrociata

La Cross-Attention è un metodo che fonde informazioni provenienti da diverse modalità (come testo, immagini, audio, ecc.) attraverso un meccanismo di attenzione cross-modale. I metodi di fusione dell'attenzione incrociata apprendono le rappresentazioni visive aggiungendo livelli di attenzione incrociata. Nello specifico, consente alle funzionalità di un tipo di dati (come il testo) di concentrarsi sulle funzionalità di un altro tipo di dati (come le immagini), in modo che possa funzionare meglio durante la comprensione e l'elaborazione di più tipi di informazioni. Questo meccanismo può migliorare significativamente le prestazioni in molte attività che richiedono l'elaborazione simultanea di più tipi di dati. Quello che segue è il diagramma schematico dell'architettura Cross-Attention:
Inserisci qui la descrizione dell'immagine

5. Dataset per il modello del linguaggio visivo
5.1 LAION-5B

Il set di dati LAION-5B contiene oltre 5 miliardi di coppie immagine-testo generate da CLIP e viene utilizzato per costruire grandi modelli pre-addestrati.
Italiano: https://laion.ai/blog/laion-5b/

5.2 DM

Il set di dati PMD è composto da più set di dati di grandi dimensioni e contiene 7 miliardi di coppie di immagini-testo.
https://huggingface.co/datasets/facebook/pmd

5.3 Controllo qualità virtuale

Il set di dati VQA viene utilizzato per le risposte visive alle domande e per le attività di ragionamento visivo e contiene più di 200.000 immagini, ciascuna con cinque domande e risposte corrispondenti.
Italiano: https://visualqa.org/

5.4 ImmagineNet

Il set di dati ImageNet contiene più di 14 milioni di immagini annotate ed è adatto per attività di classificazione delle immagini e riconoscimento di oggetti.
Italiano: https://www.image-net.org/

6. Applicazione del modello del linguaggio visivo
6.1 Recupero delle immagini

Con un modello di linguaggio visivo, gli utenti possono trovare immagini pertinenti utilizzando query linguistiche.
Inserisci qui la descrizione dell'immagine

6.2 IA generativa

L’intelligenza artificiale generativa consente agli utenti di generare immagini da descrizioni di testo e viene utilizzata in aree come la progettazione e la creazione di contenuti. Come SD e altri prodotti.
Inserisci qui la descrizione dell'immagine

6.3 Segmentazione delle immagini

I VLM possono essere utilizzati, ad esempio, per attività di segmentazione panoramica e semantica e annotazione di immagini comprendendo le istruzioni dell'utente.
Inserisci qui la descrizione dell'immagine