Modèle de langage visuel : l'avenir de l'intégration de la vision et du langage

2024-07-11

1. Vue d'ensemble

Les modèles vision-langage (VLM) sont des modèles d'intelligence artificielle qui peuvent simultanément traiter et comprendre des informations modales visuelles (image) et linguistiques (texte). De tels modèles combinent des techniques de vision par ordinateur et de traitement du langage naturel, ce qui leur permet de bien fonctionner dans des tâches complexes telles que la réponse visuelle à des questions, la génération de descriptions d'images et la recherche texte-image. Il s’agit d’un cas réussi d’application de l’architecture du transformateur au domaine de la vision par ordinateur. Plus précisément, il remplace l'extraction globale des caractéristiques de l'image dans CNN traditionnel par le mécanisme d'attention. Les modèles de langage visuel ont montré un grand potentiel dans plusieurs domaines, notamment la récupération d'images, l'IA générative, la segmentation d'images, le diagnostic médical et la robotique. L’émergence de ces modèles améliore non seulement les performances des systèmes d’IA, mais offre également de nouvelles possibilités pour développer des applications plus intelligentes et plus efficaces.

2. Transformateur visuel

Le Visual Transformer (ViT) obtient une représentation globale de l'image en segmentant l'image en patchs, puis en intégrant ces patchs dans l'encodeur Transformer. Chaque patch d'image est traité comme un « mot » indépendant et traité via un mécanisme d'auto-attention. Comparé aux réseaux neuronaux convolutifs (CNN) traditionnels, le Vision Transformer fonctionne bien lors du traitement de grands ensembles de données et d'images haute résolution. Ils surpassent de nombreuses architectures CNN de pointe dans les tâches de classification d'images.
Vous trouverez ci-dessous la structure d’un simple transformateur visuel.
Insérer la description de l'image ici

4. Architecture du modèle de langage visuel

4.1 Apprentissage contrasté

L'apprentissage contrastif est une technique permettant d'apprendre des points de données en comprenant leurs différences. Cette méthode calcule les scores de similarité entre les instances de données et vise à minimiser les pertes contrastives. Il est particulièrement utile dans l'apprentissage semi-supervisé, où seuls quelques échantillons étiquetés guident le processus d'optimisation pour étiqueter des points de données invisibles.
Insérer la description de l'image ici Par exemple, une façon de comprendre à quoi ressemble un chat est de le comparer à des images de chats et de chiens similaires. Les modèles d'apprentissage contrastés apprennent à différencier les chats et les chiens en identifiant des caractéristiques telles que la structure du visage, la taille du corps et la fourrure. Ces modèles peuvent déterminer quelle image est la plus proche de l'image d'origine (appelée « ancre ») et prédire sa classe. Parmi eux, le modèle CLIP est un modèle typique formé selon l'apprentissage contrastif. Le modèle CLIP réalise une prédiction zéro-shot en calculant la similarité entre les intégrations de texte et d'images. Il entraîne d'abord les encodeurs de texte et d'image, puis convertit les catégories de l'ensemble de données d'entraînement en légendes et estime la meilleure légende pour l'image d'entrée donnée. Voici l'architecture du modèle CLIP :
Architecture CLIP

4.2 Modèle de langage préfixe (PrefixLM)

Les modèles linguistiques à préfixe sont pré-entraînés en prenant en compte une partie du texte (le préfixe) et en prédisant le mot suivant dans la séquence. Dans les modèles de langage visuel, PrefixLM permet au modèle de prédire la prochaine séquence de mots en fonction d'une image et de son texte préfixé respectif. Il utilise un transformateur visuel (ViT) pour diviser l'image en une séquence de patchs unidimensionnels, chaque séquence représentant une région d'image locale. Le modèle applique ensuite une convolution ou une projection linéaire aux correctifs traités pour générer des intégrations visuelles contextualisées. Pour la modalité texte, le modèle convertit les préfixes de texte relatifs aux correctifs en intégrations de jetons. Le bloc codeur-décodeur du convertisseur reçoit des intégrations visuelles et des intégrations de jetons. SimVLM est une architecture populaire qui utilise la méthode d'apprentissage PrefixLM. Voici son architecture :
Insérer la description de l'image ici

4.3 Modèle de langage à préfixe gelé (Frozen PrefixLM)

Le modèle de langage de préfixe gelé permet d'utiliser un réseau pré-entraîné et de mettre à jour uniquement les paramètres de l'encodeur d'image. Des exemples typiques incluent l'architecture Frozen et l'architecture Flamingo. L'architecture Frozen utilise des modèles de langage pré-entraînés et des encodeurs visuels. En ajustant l'encodeur d'image, sa représentation d'image est alignée sur l'intégration du texte. L'architecture Flamingo combine un encodeur visuel de type CLIP avec un grand modèle de langage (LLM). Faites des déductions rapides en insérant des images entre le texte. Ce qui suit est une architecture réseau typique de Frozen PrefixLM.

Insérer la description de l'image ici

4.4 Fusion d'attention croisée

L'attention croisée est une méthode qui fusionne des informations provenant de différentes modalités (telles que du texte, des images, de l'audio, etc.) via un mécanisme d'attention multimodale. Les méthodes de fusion d’attention croisée apprennent les représentations visuelles en ajoutant des couches d’attention croisée. Plus précisément, il permet aux fonctionnalités d'un type de données (comme le texte) de se concentrer sur les fonctionnalités d'un autre type de données (comme les images), afin de mieux fonctionner lors de la compréhension et du traitement de plusieurs types d'informations. Ce mécanisme peut améliorer considérablement les performances de nombreuses tâches nécessitant le traitement simultané de plusieurs types de données. Voici le diagramme schématique de l'architecture Cross-Attention :
Insérer la description de l'image ici

5. Ensemble de données pour le modèle de langage visuel

5.1 LAION-5B

L'ensemble de données LAION-5B contient plus de 5 milliards de paires image-texte générées par CLIP et est utilisé pour créer de grands modèles pré-entraînés.
https://laion.ai/blog/laion-5b/

5.2 PMD

L'ensemble de données PMD est composé de plusieurs grands ensembles de données et contient 7 milliards de paires image-texte.
https://huggingface.co/datasets/facebook/pmd

5.3 VQA

L'ensemble de données VQA est utilisé pour les tâches de réponse visuelle aux questions et de raisonnement visuel et contient plus de 200 000 images, chacune avec cinq questions et réponses correspondantes.
https://visualqa.org/

5.4 ImageNet

L'ensemble de données ImageNet contient plus de 14 millions d'images annotées et convient aux tâches de classification d'images et de reconnaissance d'objets.
https://www.image-net.org/

6. Application du modèle de langage visuel

6.1 Récupération d'images

Avec un modèle de langage visuel, les utilisateurs peuvent trouver des images pertinentes à l'aide de requêtes linguistiques.
Insérer la description de l'image ici

6.2 IA générative

L'IA générative permet aux utilisateurs de générer des images à partir de descriptions textuelles et est utilisée dans des domaines tels que la conception et la création de contenu. Tels que SD et autres produits.
Insérer la description de l'image ici

6.3 Segmentation d'images

Les VLM peuvent être utilisés par exemple pour des tâches de segmentation panoramique et sémantique et pour l'annotation d'images en comprenant les invites de l'utilisateur.
Insérer la description de l'image ici

Partage de technologie