Visuelles Sprachmodell: Die Zukunft der Integration von Vision und Sprache

Visuelles Sprachmodell: die Zukunft der Integration von Vision und Sprache

2024-07-11

1. Übersicht

Vision-Language-Modelle (VLMs) sind Modelle der künstlichen Intelligenz, die visuelle (Bild) und sprachliche (Text) modale Informationen gleichzeitig verarbeiten und verstehen können. Solche Modelle kombinieren Techniken aus Computer Vision und natürlicher Sprachverarbeitung, sodass sie bei komplexen Aufgaben wie der visuellen Beantwortung von Fragen, der Generierung von Bildbeschreibungen und der Text-zu-Bild-Suche gute Ergebnisse erzielen. Es handelt sich um einen gelungenen Fall der Anwendung der Transformer-Architektur auf den Bereich Computer Vision. Konkret ersetzt es die globale Bildmerkmalsextraktion im herkömmlichen CNN durch den Aufmerksamkeitsmechanismus. Visuelle Sprachmodelle haben in mehreren Bereichen großes Potenzial gezeigt, darunter Bildabruf, generative KI, Bildsegmentierung, medizinische Diagnose und Robotik. Das Aufkommen dieser Modelle verbessert nicht nur die Leistung von KI-Systemen, sondern bietet auch neue Möglichkeiten für die Entwicklung intelligenterer und effizienterer Anwendungen.

2. Visueller Transformator

Der Visual Transformer (ViT) erhält eine globale Bilddarstellung, indem er das Bild in Patches segmentiert und diese Patches dann in den Transformer-Encoder einbettet. Jeder Bildfleck wird als unabhängiges „Wort“ behandelt und durch einen Selbstaufmerksamkeitsmechanismus verarbeitet. Im Vergleich zu herkömmlichen Faltungs-Neuronalen Netzen (CNN) schneidet der Vision Transformer bei der Verarbeitung großer Datensätze und hochauflösender Bilder gut ab. Sie übertreffen viele hochmoderne CNN-Architekturen bei Bildklassifizierungsaufgaben.
Nachfolgend finden Sie die Struktur eines einfachen visuellen Transformers.
Fügen Sie hier eine Bildbeschreibung ein

4. Architektur des visuellen Sprachmodells

4.1 Kontrastives Lernen

Kontrastives Lernen ist eine Technik zum Lernen von Datenpunkten durch das Verstehen ihrer Unterschiede. Diese Methode berechnet Ähnlichkeitswerte zwischen Dateninstanzen und zielt darauf ab, Kontrastverluste zu minimieren. Dies ist am nützlichsten beim halbüberwachten Lernen, bei dem nur wenige gekennzeichnete Stichproben den Optimierungsprozess leiten, um unsichtbare Datenpunkte zu kennzeichnen.
Fügen Sie hier eine Bildbeschreibung ein Eine Möglichkeit zu verstehen, wie eine Katze aussieht, besteht beispielsweise darin, sie mit ähnlichen Katzenbildern und Hundebildern zu vergleichen. Kontrastive Lernmodelle lernen, zwischen Katzen und Hunden zu unterscheiden, indem sie Merkmale wie Gesichtsstruktur, Körpergröße und Fell identifizieren. Diese Modelle können bestimmen, welches Bild näher am Originalbild liegt (als „Anker“ bezeichnet) und seine Klasse vorhersagen. Unter diesen ist das CLIP-Modell ein typisches Modell, das nach kontrastivem Lernen trainiert wird. Das CLIP-Modell erreicht eine Zero-Shot-Vorhersage, indem es die Ähnlichkeit zwischen Text- und Bildeinbettungen berechnet. Es trainiert zunächst Text- und Bildencoder, wandelt dann die Kategorien des Trainingsdatensatzes in Bildunterschriften um und schätzt die beste Bildunterschrift für das gegebene Eingabebild. Das Folgende ist die Architektur des CLIP-Modells:
CLIP-Architektur

4.2 Präfix-Sprachmodell (PrefixLM)

Präfix-Sprachmodelle werden vorab trainiert, indem ein Teil des Textes (das Präfix) aufgenommen und das nächste Wort in der Sequenz vorhergesagt wird. In visuellen Sprachmodellen ermöglicht PrefixLM dem Modell, die nächste Wortfolge basierend auf einem Bild und dem entsprechenden vorangestellten Text vorherzusagen. Es verwendet einen visuellen Transformator (ViT), um das Bild in eine Folge eindimensionaler Patches zu unterteilen, wobei jede Folge einen lokalen Bildbereich darstellt. Anschließend wendet das Modell eine Faltung oder lineare Projektion auf die verarbeiteten Patches an, um kontextualisierte visuelle Einbettungen zu generieren. Für die Textmodalität wandelt das Modell Textpräfixe relativ zu Patches in Token-Einbettungen um. Der Encoder-Decoder-Block des Konverters empfängt visuelle Einbettungen und Token-Einbettungen. SimVLM ist eine beliebte Architektur, die die PrefixLM-Lernmethode nutzt. Hier ist seine Architektur:
Fügen Sie hier eine Bildbeschreibung ein

4.3 Frozen Prefix-Sprachmodell (Frozen PrefixLM)

Das eingefrorene Präfix-Sprachmodell ermöglicht die Verwendung eines vorab trainierten Netzwerks und nur die Aktualisierung der Parameter des Bildencoders. Typische Beispiele sind Frozen-Architektur und Flamingo-Architektur. Die Frozen-Architektur verwendet vorab trainierte Sprachmodelle und visuelle Encoder. Durch die Feinabstimmung des Bildencoders wird dessen Bilddarstellung an die Texteinbettung angepasst. Die Flamingo-Architektur kombiniert einen CLIP-ähnlichen visuellen Encoder mit einem großen Sprachmodell (LLM). Ziehen Sie schnelle Schlussfolgerungen, indem Sie Bilder zwischen Text einfügen. Das Folgende ist eine typische Netzwerkarchitektur von Frozen PrefixLM.

Fügen Sie hier eine Bildbeschreibung ein

4.4 Cross-Attention-Fusion

Cross-Attention ist eine Methode, die Informationen aus verschiedenen Modalitäten (wie Text, Bildern, Audio usw.) durch einen modalübergreifenden Aufmerksamkeitsmechanismus zusammenführt. Cross-Attention-Fusion-Methoden lernen visuelle Darstellungen durch Hinzufügen von Cross-Attention-Ebenen. Insbesondere ermöglicht es, dass sich die Funktionen eines Datentyps (z. B. Text) auf die Funktionen eines anderen Datentyps (z. B. Bilder) konzentrieren, sodass beim Verstehen und Verarbeiten mehrerer Informationstypen eine bessere Leistung erzielt werden kann. Dieser Mechanismus kann die Leistung bei vielen Aufgaben, die die gleichzeitige Verarbeitung mehrerer Datentypen erfordern, erheblich verbessern. Das Folgende ist das schematische Diagramm der Cross-Attention-Architektur:
Fügen Sie hier eine Bildbeschreibung ein

5. Datensatz für visuelles Sprachmodell

5.1 LAION-5B

Der LAION-5B-Datensatz enthält über 5 Milliarden von CLIP generierte Bild-Text-Paare und wird zum Erstellen großer vorab trainierter Modelle verwendet.
https://laion.ai/blog/laion-5b/

5.2 PMD

Der PMD-Datensatz besteht aus mehreren großen Datensätzen und enthält 7 Milliarden Bild-Text-Paare.
https://huggingface.co/datasets/facebook/pmd

5.3 VQA

Der VQA-Datensatz wird für visuelle Fragenbeantwortung und visuelle Argumentationsaufgaben verwendet und enthält mehr als 200.000 Bilder mit jeweils fünf Fragen und entsprechenden Antworten.
https://visualqa.org/

5.4 ImageNet

Der ImageNet-Datensatz enthält mehr als 14 Millionen kommentierte Bilder und eignet sich für Bildklassifizierungs- und Objekterkennungsaufgaben.
https://www.image-net.org/

6. Anwendung des visuellen Sprachmodells

6.1 Bildabruf

Mit einem visuellen Sprachmodell können Benutzer mithilfe sprachlicher Abfragen relevante Bilder finden.
Fügen Sie hier eine Bildbeschreibung ein

6.2 Generative KI

Generative KI ermöglicht es Benutzern, Bilder aus Textbeschreibungen zu generieren und wird in Bereichen wie Design und Inhaltserstellung eingesetzt. Wie SD und andere Produkte.
Fügen Sie hier eine Bildbeschreibung ein

6.3 Bildsegmentierung

VLMs können beispielsweise für Panorama- und semantische Segmentierungsaufgaben sowie Bildanmerkungen verwendet werden, indem Benutzereingaben verstanden werden.
Fügen Sie hier eine Bildbeschreibung ein

Technologieaustausch