Evolusi model bahasa: perjalanan dari NLP ke LLM

2024-07-12

Di dunia kecerdasan buatan yang luas, pemrosesan bahasa alami (NLP) selalu menjadi bidang yang penuh tantangan dan peluang. Seiring berkembangnya teknologi, kita telah menyaksikan evolusi dari aturan tradisional, pembelajaran mesin statistik, hingga pembelajaran mendalam dan model terlatih. Saat ini, kita berada di ambang model bahasa besar (LLM), yang mendefinisikan ulang cara kita berkomunikasi dengan mesin. Artikel ini akan mempelajari sejarah perkembangan, peta jalan teknis, dan dampak LLM pada bidang AI masa depan.

perkenalan

Tujuan dari pemrosesan bahasa alami (NLP) adalah untuk memungkinkan mesin memahami, menafsirkan, dan menghasilkan bahasa manusia. Perkembangan bidang ini telah melalui beberapa tahapan penting yang masing-masing menandai suatu lompatan kedalaman pemahaman bahasa. Dari sistem berbasis aturan awal, hingga metode pembelajaran statistik, hingga model pembelajaran mendalam, hingga model bahasa besar (LLM) saat ini, setiap langkah merupakan transendensi dari tahap sebelumnya.
Masukkan deskripsi gambar di sini

Dari aturan hingga statistik: eksplorasi awal di NLP

Tahapan peraturan (1956-1992)

Pada masa awal NLP, peneliti mengandalkan aturan tulisan tangan untuk memproses bahasa. Tumpukan teknologi pada tahap ini mencakup mesin negara terbatas dan sistem berbasis aturan. Misalnya, Apertium adalah sistem terjemahan mesin berbasis aturan, yang menunjukkan bagaimana peneliti awal dapat mencapai terjemahan bahasa secara otomatis dengan mengatur kamus dan aturan penulisan secara manual.
Masukkan deskripsi gambar di sini

Tahap pembelajaran mesin statistik (1993-2012)

Seiring berjalannya waktu, para peneliti mulai beralih ke metode pembelajaran statistik, menggunakan alat seperti support vector machine (SVM), model Markov tersembunyi (HMM), model entropi maksimum (MaxEnt), dan bidang acak bersyarat (CRF). Tahap ini ditandai dengan kombinasi sejumlah kecil data domain yang diberi label secara manual dan rekayasa fitur manual, yang menandai transisi dari aturan tulisan tangan ke mesin yang secara otomatis mempelajari pengetahuan dari data.
Masukkan deskripsi gambar di sini

Terobosan dalam Pembelajaran Mendalam: Membuka Era Baru

Tahap pembelajaran mendalam (2013-2018)

Munculnya pembelajaran mendalam telah membawa perubahan revolusioner pada NLP. Teknologi yang diwakili oleh Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention dan Embedding memungkinkan model menangani kumpulan data yang lebih besar dengan hampir tanpa usaha. Sistem terjemahan mesin saraf Google (2016) merupakan karya representatif dari tahap ini.
Masukkan deskripsi gambar di sini

Munculnya model terlatih: penemuan pengetahuan mandiri

Fase pra-pelatihan (2018-2022)

Munculnya model terlatih menandai lompatan lain dalam bidang NLP. Tumpukan teknologi dengan Transformer dan mekanisme perhatian sebagai intinya menggabungkan data besar tanpa label untuk pembelajaran mandiri, menghasilkan pengetahuan umum, dan kemudian beradaptasi dengan tugas-tugas spesifik melalui penyesuaian. Variabilitas tahap ini sangat tinggi karena memperluas jangkauan data yang tersedia dari data berlabel ke data tidak berlabel.
Masukkan deskripsi gambar di sini

Era baru LLM: perpaduan kecerdasan dan keserbagunaan

Tahap LLM (2023-?)

LLM mewakili perkembangan model bahasa terkini, yang biasanya mengadopsi arsitektur berbasis decoder yang dipadukan dengan Transformer dan Reinforcement Learning Human Feedback (RLHF). Fase ini ditandai dengan proses dua tahap: pra-pelatihan dan penyelarasan dengan manusia. Fase pra-pelatihan menggunakan data besar yang tidak berlabel dan data domain untuk menghasilkan pengetahuan melalui pembelajaran yang diawasi sendiri; fase penyelarasan manusia memungkinkan model beradaptasi dengan berbagai tugas dengan menyelaraskan kebiasaan dan nilai penggunaan.
Masukkan deskripsi gambar di sini
Melihat kembali berbagai tahapan perkembangan, kita dapat melihat tren berikut:

Data: Dari data hingga pengetahuan, semakin banyak data yang digunakan/masa depan:Lebih banyak data teks, lebih banyak data bentuk lain→data apa pun
Algoritma: Kemampuan berekspresi semakin kuat skalanya semakin besar; kemampuan belajar mandiri semakin kuat dari profesional ke umum;masa depan:Transformator saat ini cukup, model baru (efisiensi pembelajaran harus ditekankan)?→AGI?
Hubungan manusia-mesin: berpindah kembali, dari instruktur ke supervisor/masa depan:Kolaborasi manusia-mesin, pembelajaran mesin dari manusia→Pembelajaran manusia dari mesin?→Mesin memperluas batasan pengetahuan manusia

Masukkan deskripsi gambar di sini

Rute pengembangan teknologi LLM: jalur yang beragam

Dalam beberapa tahun terakhir, perkembangan teknologi LLM telah menunjukkan jalur yang beragam, termasuk mode BERT, mode GPT dan mode T5, dll. Setiap mode memiliki karakteristiknya sendiri dan skenario yang dapat diterapkan.
Masukkan deskripsi gambar di sini

Mode BERT (Khusus Encoder)

Model BERT cocok untuk tugas-tugas pemahaman bahasa alami melalui proses dua tahap yaitu pra-pelatihan model bahasa dua arah dan penyesuaian tugas (pra-pelatihan model bahasa dua arah + penyesuaian tugas). Pra-pelatihan BERT mengekstrak pengetahuan umum dari data umum, sementara penyesuaian mengekstrak pengetahuan domain dari data domain.
Masukkan deskripsi gambar di sini
Skenario tugas yang sesuai: lebih cocok untuk pemahaman bahasa alami, tugas spesifik dalam skenario tertentu, terspesialisasi dan ringan;

Mode GPT (Khusus Dekoder)

Mode GPT dikembangkan dari proses pra-pelatihan model bahasa satu arah dan perintah atau instruksi zero shot/beberapa tembakan (pra-pelatihan model bahasa satu arah + zero shot/beberapa tembakan prompt/Instruksikan), dan cocok untuk proses natural generasi bahasa. Model mode GPT biasanya merupakan LLM terbesar yang tersedia, dan dapat menangani lebih banyak tugas.
Masukkan deskripsi gambar di sini
Skenario yang berlaku: lebih cocok untuk tugas pembuatan bahasa alami. Saat ini, LLM terbesar semuanya dalam mode ini: seri GPT, PaLM, LaMDA..., mode ulangi dan teruskan;

Mode T5 (Enkoder-Dekoder)

Mode T5 menggabungkan karakteristik BERT dan GPT dan cocok untuk tugas pembuatan dan pemahaman. Tugas mengisi bagian yang kosong mode T5 (Span Corruption) adalah metode pra-pelatihan efektif yang bekerja dengan baik dalam tugas pemahaman bahasa alami. Dua tahap (pra-pelatihan model bahasa satu arah + Penyempurnaan terutama)
Masukkan deskripsi gambar di sini
Fitur: Sepertinya GPT, sepertinya Bert
Skenario yang berlaku: Baik pembangkitan maupun pemahaman dapat diterima. Dari sudut pandang efek, ini lebih cocok untuk tugas pemahaman bahasa alami. Banyak LLM skala besar di Tiongkok mengadopsi mode ini jika itu adalah tugas pemahaman bahasa alami dalam satu bidang , disarankan untuk menggunakan mode T5;
Masukkan deskripsi gambar di sini

Mengapa LLM yang sangat besar ada dalam mode GPT?

Super LLM: Mengejar efek zero shot/beberapa shot/instruct
Kesimpulan penelitian saat ini

(Jika ukuran modelnya kecil):

Kategori pemahaman bahasa alami: Mode T5 berfungsi paling baik.
Kelas pembuatan bahasa alami: Mode GPT berfungsi paling baik.
Zero shot: Mode GPT berfungsi paling baik.
Jika penyempurnaan multi-tugas diperkenalkan setelah Pra-latihan, mode T5 akan bekerja lebih baik (kesimpulannya dipertanyakan: Encoder-Decoder eksperimental saat ini memiliki dua kali jumlah parameter Decoder saja. Apakah kesimpulannya dapat diandalkan?)

Kesimpulan penelitian saat ini (skala sangat besar):
Fakta: Hampir semua model LLM yang melebihi 100B mengadopsi mode GPT

kemungkinan alasan:
1. Perhatian dua arah di Encoder-Decoder merusak kemampuan zero shot (Periksa)
2. Struktur Encoder-Decoder hanya dapat memberikan perhatian pada Encoder tingkat tinggi saat membuat Token. Struktur khusus Decoder dapat memberikan perhatian lapis demi lapis saat membuat Token, dan informasinya lebih terperinci.
3. Encoder-Decoder melatih "mengisi bagian yang kosong" dan menghasilkan kata terakhir Token Berikutnya. Ada ketidakkonsistenan. Pelatihan struktur dan metode pembuatan hanya Decoder konsisten.

Tantangan dan peluang LLM sangat besar

Seiring bertambahnya ukuran model, peneliti dihadapkan pada tantangan bagaimana memanfaatkan ruang parameter secara efektif. Penelitian pada model Chinchilla menunjukkan bahwa ketika data mencukupi, skala LLM saat ini mungkin lebih besar dari skala ideal, dan terdapat pemborosan ruang parameter. Namun, Hukum Penskalaan juga menunjukkan bahwa semakin besar skala model, semakin banyak data , dan semakin memadai pelatihannya, semakin baik pula pengaruh model LLM. Ide yang lebih layak adalah: buatlah menjadi kecil terlebih dahulu (GPT 3 tidak boleh terlalu besar), lalu menjadikannya besar (manfaatkan sepenuhnya parameter model, lalu lanjutkan untuk membuatnya lebih besar).
Masukkan deskripsi gambar di sini

Tentu saja, mengingat LLM multi-modal memerlukan kemampuan persepsi lingkungan dunia nyata yang lebih kaya, hal ini juga mengajukan persyaratan yang lebih tinggi untuk parameter LLM.
LLM multimodal: masukan visual (gambar, video), masukan pendengaran (audio), masukan sentuhan (tekanan)
Masukkan deskripsi gambar di sini
menghadapi masalah: LLM multimodal terlihat cukup bagus, dan sangat bergantung pada kumpulan data besar yang diatur secara manual.

Misalnya, ALIGN: 1.8B grafik dan teks/LAION: 5.8B grafik dan data teks (difilter berdasarkan CLIP, saat ini merupakan data grafik dan teks terbesar) saat ini berupa teks dengan gambar terbang?

Pengolahan citra: Jalur teknis pengawasan mandiri sedang dicoba, namun belum berhasil (pembelajaran komparatif/MAE)/jika berhasil dicapai maka akan menjadi terobosan teknologi besar lainnya di bidang AI;

Jika dapat diselesaikan, beberapa tugas pemahaman gambar saat ini (segmentasi/pengenalan semantik, dll.) diharapkan dapat diintegrasikan ke dalam LLM dan menghilang.

Masukkan deskripsi gambar di sini

Meningkatkan kemampuan penalaran LLM yang kompleks

Meskipun LLM saat ini memiliki kemampuan penalaran sederhana tertentu, namun masih memiliki kekurangan dalam penalaran kompleks. Misalnya, tugas seperti penjumlahan multi-digit tetap menjadi tantangan bagi LLM. Para peneliti sedang mengeksplorasi cara menyaring kemampuan penalaran yang kompleks menjadi model yang lebih kecil melalui cara teknis seperti dekomposisi semantik.
Masukkan deskripsi gambar di sini
Tentu saja, masalah ini juga dapat diatasi melalui outsourcing kapasitas, seperti menggabungkannya dengan alat: daya komputasi (kalkulator eksternal), permintaan informasi baru (mesin pencari), dan kemampuan lainnya yang diselesaikan dengan bantuan alat eksternal.
Masukkan deskripsi gambar di sini

Interaksi antara LLM dan dunia fisik

Konsep kecerdasan yang diwujudkan menggabungkan LLM dengan robotika dan menggunakan pembelajaran penguatan untuk memperoleh kecerdasan yang diwujudkan melalui interaksi dengan dunia fisik. . Misalnya, model PaLM-E Google menggabungkan 540 miliar PaLM dan 22 miliar ViT, yang menunjukkan potensi LLM dalam lingkungan multimodal.
Masukkan deskripsi gambar di sini

Arah penelitian lainnya

Perolehan pengetahuan baru: Ada kesulitan tertentu saat ini, tetapi ada juga beberapa metode (LLM+Retrieval)
Koreksi pengetahuan lama: Saat ini terdapat beberapa hasil penelitian yang masih perlu dioptimalkan
Integrasi pengetahuan domain pribadi: Sempurnakan?
Pemahaman perintah yang lebih baik: masih perlu optimasi (omong kosong)
Pengurangan biaya inferensi pelatihan: perkembangan pesat dalam satu hingga dua tahun ke depan
Konstruksi kumpulan data evaluasi Tiongkok: Tes kemampuan lakmus. Saat ini terdapat beberapa kumpulan data evaluasi dalam bahasa Inggris, seperti HELM/BigBench, dll., namun terdapat kekurangan kumpulan data evaluasi / multitugas, tingkat kesulitan tinggi, dan multi-sudut dalam bahasa Mandarin.

Kesimpulan

Artikel ini mengeksplorasi secara mendalam sejarah pengembangan, peta jalan teknis, dan dampaknya terhadap bidang AI LLM di masa depan. Perkembangan LLM tidak hanya merupakan kemajuan teknologi, tetapi juga cerminan mendalam atas kemampuan pemahaman mesin kita. Mulai dari aturan hingga statistik hingga pembelajaran mendalam dan pra-pelatihan, setiap langkah memberi kita perspektif dan alat baru. Saat ini, kita berada di ambang era baru model bahasa berskala besar, menghadapi peluang dan tantangan yang belum pernah terjadi sebelumnya.

Berbagi teknologi