informasi kontak saya
Surat[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Di dunia kecerdasan buatan yang luas, pemrosesan bahasa alami (NLP) selalu menjadi bidang yang penuh tantangan dan peluang. Seiring berkembangnya teknologi, kita telah menyaksikan evolusi dari aturan tradisional, pembelajaran mesin statistik, hingga pembelajaran mendalam dan model terlatih. Saat ini, kita berada di ambang model bahasa besar (LLM), yang mendefinisikan ulang cara kita berkomunikasi dengan mesin. Artikel ini akan mempelajari sejarah perkembangan, peta jalan teknis, dan dampak LLM pada bidang AI masa depan.
Tujuan dari pemrosesan bahasa alami (NLP) adalah untuk memungkinkan mesin memahami, menafsirkan, dan menghasilkan bahasa manusia. Perkembangan bidang ini telah melalui beberapa tahapan penting yang masing-masing menandai suatu lompatan kedalaman pemahaman bahasa. Dari sistem berbasis aturan awal, hingga metode pembelajaran statistik, hingga model pembelajaran mendalam, hingga model bahasa besar (LLM) saat ini, setiap langkah merupakan transendensi dari tahap sebelumnya.
Pada masa awal NLP, peneliti mengandalkan aturan tulisan tangan untuk memproses bahasa. Tumpukan teknologi pada tahap ini mencakup mesin negara terbatas dan sistem berbasis aturan. Misalnya, Apertium adalah sistem terjemahan mesin berbasis aturan, yang menunjukkan bagaimana peneliti awal dapat mencapai terjemahan bahasa secara otomatis dengan mengatur kamus dan aturan penulisan secara manual.
Seiring berjalannya waktu, para peneliti mulai beralih ke metode pembelajaran statistik, menggunakan alat seperti support vector machine (SVM), model Markov tersembunyi (HMM), model entropi maksimum (MaxEnt), dan bidang acak bersyarat (CRF). Tahap ini ditandai dengan kombinasi sejumlah kecil data domain yang diberi label secara manual dan rekayasa fitur manual, yang menandai transisi dari aturan tulisan tangan ke mesin yang secara otomatis mempelajari pengetahuan dari data.
Munculnya pembelajaran mendalam telah membawa perubahan revolusioner pada NLP. Teknologi yang diwakili oleh Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention dan Embedding memungkinkan model menangani kumpulan data yang lebih besar dengan hampir tanpa usaha. Sistem terjemahan mesin saraf Google (2016) merupakan karya representatif dari tahap ini.
Munculnya model terlatih menandai lompatan lain dalam bidang NLP. Tumpukan teknologi dengan Transformer dan mekanisme perhatian sebagai intinya menggabungkan data besar tanpa label untuk pembelajaran mandiri, menghasilkan pengetahuan umum, dan kemudian beradaptasi dengan tugas-tugas spesifik melalui penyesuaian. Variabilitas tahap ini sangat tinggi karena memperluas jangkauan data yang tersedia dari data berlabel ke data tidak berlabel.
LLM mewakili perkembangan model bahasa terkini, yang biasanya mengadopsi arsitektur berbasis decoder yang dipadukan dengan Transformer dan Reinforcement Learning Human Feedback (RLHF). Fase ini ditandai dengan proses dua tahap: pra-pelatihan dan penyelarasan dengan manusia. Fase pra-pelatihan menggunakan data besar yang tidak berlabel dan data domain untuk menghasilkan pengetahuan melalui pembelajaran yang diawasi sendiri; fase penyelarasan manusia memungkinkan model beradaptasi dengan berbagai tugas dengan menyelaraskan kebiasaan dan nilai penggunaan.
Melihat kembali berbagai tahapan perkembangan, kita dapat melihat tren berikut:
Data: Dari data hingga pengetahuan, semakin banyak data yang digunakan/masa depan:Lebih banyak data teks, lebih banyak data bentuk lain→data apa pun
Algoritma: Kemampuan berekspresi semakin kuat skalanya semakin besar; kemampuan belajar mandiri semakin kuat dari profesional ke umum;masa depan:Transformator saat ini cukup, model baru (efisiensi pembelajaran harus ditekankan)?→AGI?
Hubungan manusia-mesin: berpindah kembali, dari instruktur ke supervisor/masa depan:Kolaborasi manusia-mesin, pembelajaran mesin dari manusia→Pembelajaran manusia dari mesin?→Mesin memperluas batasan pengetahuan manusia
Dalam beberapa tahun terakhir, perkembangan teknologi LLM telah menunjukkan jalur yang beragam, termasuk mode BERT, mode GPT dan mode T5, dll. Setiap mode memiliki karakteristiknya sendiri dan skenario yang dapat diterapkan.
Model BERT cocok untuk tugas-tugas pemahaman bahasa alami melalui proses dua tahap yaitu pra-pelatihan model bahasa dua arah dan penyesuaian tugas (pra-pelatihan model bahasa dua arah + penyesuaian tugas). Pra-pelatihan BERT mengekstrak pengetahuan umum dari data umum, sementara penyesuaian mengekstrak pengetahuan domain dari data domain.
Skenario tugas yang sesuai: lebih cocok untuk pemahaman bahasa alami, tugas spesifik dalam skenario tertentu, terspesialisasi dan ringan;
Mode GPT dikembangkan dari proses pra-pelatihan model bahasa satu arah dan perintah atau instruksi zero shot/beberapa tembakan (pra-pelatihan model bahasa satu arah + zero shot/beberapa tembakan prompt/Instruksikan), dan cocok untuk proses natural generasi bahasa. Model mode GPT biasanya merupakan LLM terbesar yang tersedia, dan dapat menangani lebih banyak tugas.
Skenario yang berlaku: lebih cocok untuk tugas pembuatan bahasa alami. Saat ini, LLM terbesar semuanya dalam mode ini: seri GPT, PaLM, LaMDA..., mode ulangi dan teruskan;
Mode T5 menggabungkan karakteristik BERT dan GPT dan cocok untuk tugas pembuatan dan pemahaman. Tugas mengisi bagian yang kosong mode T5 (Span Corruption) adalah metode pra-pelatihan efektif yang bekerja dengan baik dalam tugas pemahaman bahasa alami. Dua tahap (pra-pelatihan model bahasa satu arah + Penyempurnaan terutama)
Fitur: Sepertinya GPT, sepertinya Bert
Skenario yang berlaku: Baik pembangkitan maupun pemahaman dapat diterima. Dari sudut pandang efek, ini lebih cocok untuk tugas pemahaman bahasa alami. Banyak LLM skala besar di Tiongkok mengadopsi mode ini jika itu adalah tugas pemahaman bahasa alami dalam satu bidang , disarankan untuk menggunakan mode T5;
Super LLM: Mengejar efek zero shot/beberapa shot/instruct
Kesimpulan penelitian saat ini
(Jika ukuran modelnya kecil):
Kesimpulan penelitian saat ini (skala sangat besar):
Fakta: Hampir semua model LLM yang melebihi 100B mengadopsi mode GPT
kemungkinan alasan:
1. Perhatian dua arah di Encoder-Decoder merusak kemampuan zero shot (Periksa)
2. Struktur Encoder-Decoder hanya dapat memberikan perhatian pada Encoder tingkat tinggi saat membuat Token. Struktur khusus Decoder dapat memberikan perhatian lapis demi lapis saat membuat Token, dan informasinya lebih terperinci.
3. Encoder-Decoder melatih "mengisi bagian yang kosong" dan menghasilkan kata terakhir Token Berikutnya. Ada ketidakkonsistenan. Pelatihan struktur dan metode pembuatan hanya Decoder konsisten.
Seiring bertambahnya ukuran model, peneliti dihadapkan pada tantangan bagaimana memanfaatkan ruang parameter secara efektif. Penelitian pada model Chinchilla menunjukkan bahwa ketika data mencukupi, skala LLM saat ini mungkin lebih besar dari skala ideal, dan terdapat pemborosan ruang parameter. Namun, Hukum Penskalaan juga menunjukkan bahwa semakin besar skala model, semakin banyak data , dan semakin memadai pelatihannya, semakin baik pula pengaruh model LLM. Ide yang lebih layak adalah: buatlah menjadi kecil terlebih dahulu (GPT 3 tidak boleh terlalu besar), lalu menjadikannya besar (manfaatkan sepenuhnya parameter model, lalu lanjutkan untuk membuatnya lebih besar).
Tentu saja, mengingat LLM multi-modal memerlukan kemampuan persepsi lingkungan dunia nyata yang lebih kaya, hal ini juga mengajukan persyaratan yang lebih tinggi untuk parameter LLM.
LLM multimodal: masukan visual (gambar, video), masukan pendengaran (audio), masukan sentuhan (tekanan)
menghadapi masalah: LLM multimodal terlihat cukup bagus, dan sangat bergantung pada kumpulan data besar yang diatur secara manual.
Misalnya, ALIGN: 1.8B grafik dan teks/LAION: 5.8B grafik dan data teks (difilter berdasarkan CLIP, saat ini merupakan data grafik dan teks terbesar) saat ini berupa teks dengan gambar terbang?
Pengolahan citra: Jalur teknis pengawasan mandiri sedang dicoba, namun belum berhasil (pembelajaran komparatif/MAE)/jika berhasil dicapai maka akan menjadi terobosan teknologi besar lainnya di bidang AI;
Jika dapat diselesaikan, beberapa tugas pemahaman gambar saat ini (segmentasi/pengenalan semantik, dll.) diharapkan dapat diintegrasikan ke dalam LLM dan menghilang.
Meskipun LLM saat ini memiliki kemampuan penalaran sederhana tertentu, namun masih memiliki kekurangan dalam penalaran kompleks. Misalnya, tugas seperti penjumlahan multi-digit tetap menjadi tantangan bagi LLM. Para peneliti sedang mengeksplorasi cara menyaring kemampuan penalaran yang kompleks menjadi model yang lebih kecil melalui cara teknis seperti dekomposisi semantik.
Tentu saja, masalah ini juga dapat diatasi melalui outsourcing kapasitas, seperti menggabungkannya dengan alat: daya komputasi (kalkulator eksternal), permintaan informasi baru (mesin pencari), dan kemampuan lainnya yang diselesaikan dengan bantuan alat eksternal.
Konsep kecerdasan yang diwujudkan menggabungkan LLM dengan robotika dan menggunakan pembelajaran penguatan untuk memperoleh kecerdasan yang diwujudkan melalui interaksi dengan dunia fisik. . Misalnya, model PaLM-E Google menggabungkan 540 miliar PaLM dan 22 miliar ViT, yang menunjukkan potensi LLM dalam lingkungan multimodal.
Artikel ini mengeksplorasi secara mendalam sejarah pengembangan, peta jalan teknis, dan dampaknya terhadap bidang AI LLM di masa depan. Perkembangan LLM tidak hanya merupakan kemajuan teknologi, tetapi juga cerminan mendalam atas kemampuan pemahaman mesin kita. Mulai dari aturan hingga statistik hingga pembelajaran mendalam dan pra-pelatihan, setiap langkah memberi kita perspektif dan alat baru. Saat ini, kita berada di ambang era baru model bahasa berskala besar, menghadapi peluang dan tantangan yang belum pernah terjadi sebelumnya.