Modelo de linguagem visual: o futuro da integração de visão e linguagem

2024-07-11

1. Visão Geral

Modelos de visão-linguagem (VLMs) são modelos de inteligência artificial que podem processar e compreender simultaneamente informações modais visuais (imagem) e de linguagem (texto). Esses modelos combinam técnicas de visão computacional e processamento de linguagem natural, permitindo-lhes um bom desempenho em tarefas complexas, como resposta visual a perguntas, geração de descrição de imagens e pesquisa de texto para imagem. É um caso de sucesso de aplicação da arquitetura de transformadores ao campo da visão computacional. Especificamente, ele substitui a extração de recursos de imagem global na CNN tradicional pelo mecanismo de atenção. Os modelos de linguagem visual têm demonstrado grande potencial em vários campos, incluindo recuperação de imagens, IA generativa, segmentação de imagens, diagnóstico médico e robótica. O surgimento destes modelos não só melhora o desempenho dos sistemas de IA, mas também oferece novas possibilidades para o desenvolvimento de aplicações mais inteligentes e eficientes.

2. Transformador Visual

O Visual Transformer (ViT) obtém uma representação global da imagem segmentando a imagem em patches e, em seguida, incorporando esses patches no codificador do Transformer. Cada patch de imagem é tratado como uma “palavra” independente e processado através de um mecanismo de autoatenção. Comparado com as redes neurais convolucionais (CNN) tradicionais, o Vision Transformer tem um bom desempenho ao processar grandes conjuntos de dados e imagens de alta resolução. Eles superam muitas arquiteturas CNN de última geração em tarefas de classificação de imagens.
Abaixo está a estrutura de um Transformer visual simples.
Insira a descrição da imagem aqui

4. Arquitetura do modelo de linguagem visual

4.1 Aprendizagem Contrastiva

A aprendizagem contrastiva é uma técnica para aprender pontos de dados, compreendendo suas diferenças. Este método calcula pontuações de similaridade entre instâncias de dados e visa minimizar perdas contrastivas. É mais útil no aprendizado semissupervisionado, onde apenas algumas amostras rotuladas orientam o processo de otimização para rotular pontos de dados não vistos.
Insira a descrição da imagem aqui Por exemplo, uma maneira de entender a aparência de um gato é compará-lo com imagens semelhantes de gatos e cães. Modelos de aprendizagem contrastivos aprendem a diferenciar cães e gatos identificando características como estrutura facial, tamanho corporal e pêlo. Esses modelos podem determinar qual imagem está mais próxima da imagem original (chamada de “âncora”) e prever sua classe. Entre eles, o modelo CLIP é um modelo típico treinado de acordo com a aprendizagem contrastiva. O modelo CLIP atinge a previsão zero calculando a similaridade entre a incorporação de texto e imagem. Primeiro, ele treina codificadores de texto e imagem, depois converte as categorias do conjunto de dados de treinamento em legendas e estima a melhor legenda para a imagem de entrada fornecida. A seguir está a arquitetura do modelo CLIP:
Arquitetura CLIP

4.2 Modelo de linguagem de prefixo (PrefixLM)

Os modelos de linguagem de prefixo são pré-treinados pegando uma parte do texto (o prefixo) e prevendo a próxima palavra na sequência. Em modelos de linguagem visual, o PrefixLM permite que o modelo preveja a próxima sequência de palavras com base em uma imagem e seu respectivo texto prefixado. Ele utiliza um transformador visual (ViT) para dividir a imagem em uma sequência de fragmentos unidimensionais, cada sequência representando uma região local da imagem. O modelo então aplica convolução ou projeção linear aos patches processados para gerar incorporações visuais contextualizadas. Para a modalidade de texto, o modelo converte prefixos de texto relativos a patches em incorporações de token. O bloco codificador-decodificador do conversor recebe embeddings visuais e embeddings de token. SimVLM é uma arquitetura popular que utiliza o método de aprendizagem PrefixLM. Aqui está sua arquitetura:
Insira a descrição da imagem aqui

4.3 Modelo de linguagem de prefixo congelado (Frozen PrefixLM)

O modelo de linguagem de prefixo congelado permite utilizar uma rede pré-treinada e atualizar apenas os parâmetros do codificador de imagem. Exemplos típicos incluem arquitetura Frozen e arquitetura Flamingo. A arquitetura Frozen usa modelos de linguagem pré-treinados e codificadores visuais. Ao ajustar o codificador de imagem, sua representação de imagem fica alinhada com a incorporação do texto. A arquitetura Flamingo combina um codificador visual semelhante ao CLIP com um modelo de linguagem grande (LLM). Faça inferências rápidas inserindo imagens entre o texto. A seguir está uma arquitetura de rede típica do Frozen PrefixLM.

Insira a descrição da imagem aqui

4.4 Fusão de atenção cruzada

Atenção Cruzada é um método que funde informações de diferentes modalidades (como texto, imagens, áudio, etc.) por meio de um mecanismo de atenção intermodal. Os métodos de fusão de atenção cruzada aprendem representações visuais adicionando camadas de atenção cruzada. Especificamente, permite que os recursos de um tipo de dados (como texto) se concentrem nos recursos de outro tipo de dados (como imagens), para que possa ter um melhor desempenho ao compreender e processar vários tipos de informações. Esse mecanismo pode melhorar significativamente o desempenho em muitas tarefas que exigem o processamento simultâneo de vários tipos de dados. A seguir está o diagrama esquemático da arquitetura Cross-Attention:
Insira a descrição da imagem aqui

5. Conjunto de dados para modelo de linguagem visual

5.1 LAION-5B

O conjunto de dados LAION-5B contém mais de 5 bilhões de pares imagem-texto gerados pelo CLIP e é usado para construir grandes modelos pré-treinados.
https://laion.ai/blog/laion-5b/

5.2 PMD

O conjunto de dados PMD é composto por vários grandes conjuntos de dados e contém 7 bilhões de pares imagem-texto.
https://huggingface.co/datasets/facebook/pmd

5.3 Garantia de Qualidade de Vida

O conjunto de dados VQA é usado para respostas visuais a perguntas e tarefas de raciocínio visual e contém mais de 200.000 imagens, cada uma com cinco perguntas e respostas correspondentes.
https://visualqa.org/

5.4 ImagemNet

O conjunto de dados ImageNet contém mais de 14 milhões de imagens anotadas e é adequado para tarefas de classificação de imagens e reconhecimento de objetos.
https://www.image-net.org/

6. Aplicação do modelo de linguagem visual

6.1 Recuperação de imagens

Com um modelo de linguagem visual, os usuários podem encontrar imagens relevantes usando consultas linguísticas.
Insira a descrição da imagem aqui

6.2 IA generativa

A IA generativa permite aos usuários gerar imagens a partir de descrições de texto e é usada em áreas como design e criação de conteúdo. Como SD e outros produtos.
Insira a descrição da imagem aqui

6.3 Segmentação de imagens

VLMs podem ser usados, por exemplo, em tarefas de segmentação panorâmica e semântica e anotação de imagens, entendendo os prompts do usuário.
Insira a descrição da imagem aqui

Compartilhamento de tecnologia