Berbagi teknologi

Model bahasa visual: masa depan pengintegrasian visi dan bahasa

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1 Ikhtisar

Vision-Language Models (VLMs) adalah model kecerdasan buatan yang secara bersamaan dapat memproses dan memahami informasi modal visual (gambar) dan bahasa (teks). Model tersebut menggabungkan teknik dari visi komputer dan pemrosesan bahasa alami, memungkinkan mereka bekerja dengan baik dalam tugas-tugas kompleks seperti menjawab pertanyaan visual, pembuatan deskripsi gambar, dan pencarian teks-ke-gambar. Ini adalah kasus keberhasilan penerapan arsitektur transformator pada bidang visi komputer. Secara khusus, ini menggantikan ekstraksi fitur gambar global di CNN tradisional dengan mekanisme perhatian. Model bahasa visual telah menunjukkan potensi besar di berbagai bidang, termasuk pengambilan gambar, AI generatif, segmentasi gambar, diagnosis medis, dan robotika. Kemunculan model-model ini tidak hanya meningkatkan kinerja sistem AI, namun juga memberikan kemungkinan baru untuk mengembangkan aplikasi yang lebih cerdas dan efisien.

2. Transformator Visual

Visual Transformer (ViT) memperoleh representasi gambar global dengan mengelompokkan gambar ke dalam patch dan kemudian menyematkan patch tersebut ke encoder Transformer. Setiap patch gambar diperlakukan sebagai "kata" independen dan diproses melalui mekanisme perhatian mandiri. Dibandingkan dengan jaringan saraf konvolusional (CNN) tradisional, Vision Transformer berkinerja baik saat memproses kumpulan data besar dan gambar beresolusi tinggi. Mereka mengungguli banyak arsitektur CNN yang canggih dalam tugas klasifikasi gambar.
Di bawah ini adalah struktur visual Transformer sederhana.
Masukkan deskripsi gambar di sini

4. Arsitektur model bahasa visual
4.1 Pembelajaran Kontrastif

Pembelajaran kontrastif adalah teknik mempelajari poin-poin data dengan memahami perbedaannya. Metode ini menghitung skor kemiripan antar instance data dan bertujuan untuk meminimalkan kerugian kontrastif. Hal ini paling berguna dalam pembelajaran semi-supervisi, di mana hanya beberapa sampel berlabel yang memandu proses pengoptimalan untuk memberi label pada titik data yang tidak terlihat.
Masukkan deskripsi gambar di sini Misalnya, salah satu cara untuk memahami seperti apa rupa kucing adalah dengan membandingkannya dengan gambar kucing dan gambar anjing yang serupa. Model pembelajaran kontrastif belajar membedakan kucing dan anjing dengan mengidentifikasi ciri-ciri seperti struktur wajah, ukuran tubuh, dan bulu. Model ini dapat menentukan gambar mana yang lebih dekat dengan gambar aslinya (disebut “jangkar”) dan memprediksi kelasnya. Diantaranya, model CLIP merupakan model khas yang dilatih berdasarkan pembelajaran kontrastif. Model CLIP mencapai prediksi zero-shot dengan menghitung kesamaan antara penyematan teks dan gambar. Ini pertama-tama melatih pembuat enkode teks dan gambar, kemudian mengubah kategori kumpulan data pelatihan menjadi keterangan dan memperkirakan keterangan terbaik untuk gambar masukan tertentu. Berikut ini adalah arsitektur model CLIP:
Arsitektur KLIP

4.2 Model Bahasa Awalan (AwalanLM)

Model bahasa awalan dilatih sebelumnya dengan mengambil sebagian teks (awalan) dan memprediksi kata berikutnya dalam urutannya. Dalam model bahasa visual, PrefixLM memungkinkan model memprediksi rangkaian kata berikutnya berdasarkan gambar dan teks awalannya masing-masing. Ini menggunakan transformator visual (ViT) untuk membagi gambar menjadi rangkaian patch satu dimensi, masing-masing rangkaian mewakili wilayah gambar lokal. Model tersebut kemudian menerapkan konvolusi atau proyeksi linier ke patch yang diproses untuk menghasilkan penyematan visual yang dikontekstualisasikan. Untuk modalitas teks, model mengonversi awalan teks yang terkait dengan patch menjadi penyematan token. Blok encoder-decoder konverter menerima penyematan visual dan penyematan token. SimVLM adalah arsitektur populer yang memanfaatkan metode pembelajaran PrefixLM. Berikut arsitekturnya:
Masukkan deskripsi gambar di sini

4.3 Model Bahasa Awalan Beku (Awalan BekuLM)

Model bahasa awalan beku memungkinkan penggunaan jaringan terlatih dan hanya memperbarui parameter pembuat enkode gambar. Contoh umum termasuk arsitektur Frozen dan arsitektur Flamingo. Arsitektur Frozen menggunakan model bahasa dan encoder visual yang telah dilatih sebelumnya. Dengan menyempurnakan encoder gambar, representasi gambarnya selaras dengan penyematan teks. Arsitektur Flamingo menggabungkan encoder visual mirip CLIP dengan model bahasa besar (LLM). Buat kesimpulan cepat dengan menyisipkan gambar di antara teks. Berikut ini adalah arsitektur jaringan khas Frozen PrefixLM.

Masukkan deskripsi gambar di sini

4.4 Penggabungan Lintas Perhatian

Cross-Attention adalah metode yang menggabungkan informasi dari berbagai modalitas (seperti teks, gambar, audio, dll) melalui mekanisme perhatian lintas modal. Metode fusi lintas perhatian mempelajari representasi visual dengan menambahkan lapisan lintas perhatian. Secara khusus, ini memungkinkan fitur dari satu tipe data (seperti teks) untuk fokus pada fitur tipe data lain (seperti gambar), sehingga dapat bekerja lebih baik saat memahami dan memproses berbagai tipe informasi. Mekanisme ini dapat meningkatkan kinerja secara signifikan dalam banyak tugas yang memerlukan pemrosesan beberapa tipe data secara bersamaan. Berikut ini adalah diagram skema arsitektur Cross-Attention:
Masukkan deskripsi gambar di sini

5. Kumpulan data untuk model bahasa visual
5.1 LAION-5B

Kumpulan data LAION-5B berisi lebih dari 5 miliar pasangan gambar-teks yang dihasilkan oleh CLIP dan digunakan untuk membangun model besar yang telah dilatih sebelumnya.
https://laion.ai/blog/laion-5b/

5.2 PMD

Kumpulan data PMD terdiri dari beberapa kumpulan data besar dan berisi 7 miliar pasangan gambar-teks.
https://huggingface.co/datasets/facebook/pmd

5.3 Kualitas Udara Bersih

Dataset VQA digunakan untuk menjawab pertanyaan visual dan tugas penalaran visual dan berisi lebih dari 200.000 gambar, masing-masing dengan lima pertanyaan dan jawaban yang sesuai.
https://visualqa.org/

5.4 Jaringan Gambar

Kumpulan data ImageNet berisi lebih dari 14 juta gambar beranotasi dan cocok untuk tugas klasifikasi gambar dan pengenalan objek.
https://www.image-net.org/

6. Penerapan model bahasa visual
6.1 Pengambilan gambar

Dengan model bahasa visual, pengguna dapat menemukan gambar yang relevan menggunakan kueri linguistik.
Masukkan deskripsi gambar di sini

6.2 AI Generatif

AI generatif memungkinkan pengguna menghasilkan gambar dari deskripsi teks dan digunakan di berbagai bidang seperti desain dan pembuatan konten. Seperti SD dan produk lainnya.
Masukkan deskripsi gambar di sini

6.3 Segmentasi gambar

VLM dapat digunakan misalnya, tugas segmentasi panorama dan semantik, dan anotasi gambar dengan memahami perintah pengguna.
Masukkan deskripsi gambar di sini