Mi informacion de contacto
Correo[email protected]
2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Los modelos de visión-lenguaje (VLM) son modelos de inteligencia artificial que pueden procesar y comprender simultáneamente información modal visual (imagen) y lingüística (texto). Dichos modelos combinan técnicas de visión por computadora y procesamiento del lenguaje natural, lo que les permite desempeñarse bien en tareas complejas como la respuesta visual a preguntas, la generación de descripciones de imágenes y la búsqueda de texto a imagen. Es un caso exitoso de aplicación de la arquitectura transformadora al campo de la visión por computadora. Específicamente, reemplaza la extracción de características de imágenes globales en la CNN tradicional con el mecanismo de atención. Los modelos de lenguaje visual han mostrado un gran potencial en múltiples campos, incluida la recuperación de imágenes, la IA generativa, la segmentación de imágenes, el diagnóstico médico y la robótica. La aparición de estos modelos no sólo mejora el rendimiento de los sistemas de IA, sino que también ofrece nuevas posibilidades para desarrollar aplicaciones más inteligentes y eficientes.
Visual Transformer (ViT) obtiene una representación de imagen global segmentando la imagen en parches y luego incrustando estos parches en el codificador Transformer. Cada parche de imagen se trata como una "palabra" independiente y se procesa mediante un mecanismo de autoatención. En comparación con las redes neuronales convolucionales (CNN) tradicionales, Vision Transformer funciona bien al procesar grandes conjuntos de datos e imágenes de alta resolución. Superan a muchas arquitecturas CNN de última generación en tareas de clasificación de imágenes.
A continuación se muestra la estructura de un transformador visual simple.
El aprendizaje contrastivo es una técnica para aprender puntos de datos comprendiendo sus diferencias. Este método calcula puntuaciones de similitud entre instancias de datos y tiene como objetivo minimizar las pérdidas de contraste. Es más útil en el aprendizaje semisupervisado, donde sólo unas pocas muestras etiquetadas guían el proceso de optimización para etiquetar puntos de datos invisibles.
Por ejemplo, una forma de entender cómo es un gato es compararlo con imágenes similares de gatos y perros. Los modelos de aprendizaje contrastivo aprenden a diferenciar entre perros y gatos identificando características como la estructura facial, el tamaño del cuerpo y el pelaje. Estos modelos pueden determinar qué imagen está más cerca de la imagen original (llamada "ancla") y predecir su clase. Entre ellos, el modelo CLIP es un modelo típico entrenado según el aprendizaje contrastivo. El modelo CLIP logra una predicción cero calculando la similitud entre las incrustaciones de texto e imágenes. Primero entrena codificadores de texto e imágenes, luego convierte las categorías del conjunto de datos de entrenamiento en títulos y estima el mejor título para la imagen de entrada dada. La siguiente es la arquitectura del modelo CLIP:
Los modelos de lenguaje de prefijos se entrenan previamente tomando una parte del texto (el prefijo) y prediciendo la siguiente palabra en la secuencia. En los modelos de lenguaje visual, PrefixLM permite que el modelo prediga la siguiente secuencia de palabras en función de una imagen y su respectivo texto con prefijo. Utiliza un transformador visual (ViT) para dividir la imagen en una secuencia de parches unidimensionales, cada secuencia representa una región de la imagen local. Luego, el modelo aplica convolución o proyección lineal a los parches procesados para generar incrustaciones visuales contextualizadas. Para la modalidad de texto, el modelo convierte los prefijos de texto relativos a parches en incrustaciones de tokens. El bloque codificador-decodificador del convertidor recibe incrustaciones visuales e incrustaciones de tokens. SimVLM es una arquitectura popular que utiliza el método de aprendizaje PrefixLM. Aquí está su arquitectura:
El modelo de lenguaje de prefijo congelado permite utilizar una red previamente entrenada y solo actualizar los parámetros del codificador de imágenes. Los ejemplos típicos incluyen la arquitectura Frozen y la arquitectura Flamingo. La arquitectura Frozen utiliza modelos de lenguaje previamente entrenados y codificadores visuales. Al ajustar el codificador de imágenes, su representación de la imagen se alinea con el texto incrustado. La arquitectura Flamingo combina un codificador visual tipo CLIP con un modelo de lenguaje grande (LLM). Haga inferencias rápidas insertando imágenes entre el texto. La siguiente es una arquitectura de red típica de Frozen PrefixLM.
La atención cruzada es un método que fusiona información de diferentes modalidades (como texto, imágenes, audio, etc.) a través de un mecanismo de atención multimodal. Los métodos de fusión de atención cruzada aprenden representaciones visuales agregando capas de atención cruzada. Específicamente, permite que las características de un tipo de datos (como el texto) se centren en las características de otro tipo de datos (como las imágenes), para que pueda funcionar mejor al comprender y procesar múltiples tipos de información. Este mecanismo puede mejorar significativamente el rendimiento en muchas tareas que requieren procesar múltiples tipos de datos simultáneamente. El siguiente es el diagrama esquemático de la arquitectura de atención cruzada:
El conjunto de datos LAION-5B contiene más de 5 mil millones de pares de imagen y texto generados por CLIP y se utiliza para construir grandes modelos previamente entrenados.
https://laion.ai/blog/laion-5b/
El conjunto de datos PMD se compone de múltiples conjuntos de datos grandes y contiene 7 mil millones de pares de imagen-texto.
https://huggingface.co/datasets/facebook/pmd
El conjunto de datos VQA se utiliza para tareas de respuesta visual a preguntas y razonamiento visual y contiene más de 200.000 imágenes, cada una con cinco preguntas y sus respuestas correspondientes.
https://visualqa.org/
El conjunto de datos ImageNet contiene más de 14 millones de imágenes anotadas y es adecuado para tareas de clasificación de imágenes y reconocimiento de objetos.
https://www.image-net.org/
Con un modelo de lenguaje visual, los usuarios pueden encontrar imágenes relevantes mediante consultas lingüísticas.
La IA generativa permite a los usuarios generar imágenes a partir de descripciones de texto y se utiliza en áreas como el diseño y la creación de contenido. Como SD y otros productos.
Los VLM se pueden utilizar, por ejemplo, para tareas de segmentación panorámica y semántica, y para anotaciones de imágenes mediante la comprensión de las indicaciones del usuario.