Berbagi teknologi

Beyond Transformer membuka babak baru dalam model bahasa terbuka yang efisien

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Saat ini, dengan pesatnya perkembangan kecerdasan buatan, pencarian model bahasa yang efisien dan unggul telah mendorong tim Google DeepMind untuk mengembangkan model terobosan RecurrentGemma. Model baru ini, yang dirinci dalam makalah "RecurrentGemma: Efficient Open Language Models Beyond Transformers," berjanji untuk mendefinisikan kembali standar pemrosesan bahasa dengan menggabungkan rekursi linier dan mekanisme perhatian lokal.

Arsitektur model

Arsitektur model RecurrentGemma adalah inti dari kinerja efisiennya. Hal ini didasarkan pada arsitektur Griffin yang diusulkan oleh Google DeepMind. Arsitektur ini memberikan kemungkinan baru untuk memproses tugas bahasa dengan menggabungkan rekursi linier dan mekanisme perhatian lokal. Saat mempelajari arsitektur model RecurrentGemma, pertama-tama kita perlu memahami dasar arsitektur Griffin dan bagaimana RecurrentGemma berinovasi dan mengoptimalkan basisnya.

RecurrentGemma membuat modifikasi penting pada arsitektur Griffin, yang melibatkan pemrosesan penyematan masukan. Penyematan masukan model dikalikan dengan konstanta yang sama dengan akar kuadrat lebar model. Perlakuan ini menyesuaikan sisi masukan model tetapi tidak mengubah sisi keluaran karena penyematan keluaran tidak menerapkan faktor perkalian ini. Penyesuaian ini memungkinkan model memproses informasi dengan lebih efisien sekaligus menjaga konsistensi di seluruh lebar model. Modifikasi ini memainkan peran penting dalam ekspresi matematika dan aliran informasi model. Hal ini tidak hanya mengoptimalkan pemrosesan awal data masukan model, namun juga membantu model menangkap dan mewakili karakteristik bahasa dengan lebih baik dengan menyesuaikan skala penyematan.

Performa dan efisiensi model RecurrentGemma sangat ditentukan oleh hyperparameternya. Hyperparameter ini adalah bagian penting dari definisi model, dan mencakup namun tidak terbatas pada aspek berikut:

  • parameter total: 270 juta parameter, yang menunjukkan kompleksitas dan kapasitas model.
  • Parameter yang tidak tertanam: 200 juta parameter, yaitu jumlah parameter dalam model tidak termasuk lapisan penyematan.
  • Menyematkan parameter: 070 juta parameter, yang berhubungan langsung dengan penyematan kosakata model.
  • Kosakata: 256.000 kata, yang merupakan jumlah total kata yang dapat dipahami dan dihasilkan oleh model.
  • Lebar model:2560, yang mewakili dimensi representasi internal model.
  • lebar RNN:2560, yang merupakan lebar bagian jaringan saraf berulang.
  • Faktor ekspansi MLP:3, yang mempengaruhi derajat perluasan perceptron multi-layer dalam model.
  • kedalaman: 26 lapisan, yang merupakan jumlah lapisan model, yang mencerminkan kedalaman pemrosesan data oleh model.
  • Jumlah kepala perhatian:10, yang mewakili jumlah kepala mekanisme perhatian yang digunakan oleh model saat memproses urutan.
  • Ukuran jendela perhatian lokal:2048, yang mendefinisikan cakupan mekanisme perhatian lokal pada urutan tersebut.
Hyperparameter utama model RecurrentGemma mencakup jumlah total parameter, jumlah parameter tidak tertanam, jumlah parameter tertanam, ukuran kosakata, lebar model, lebar RNN, faktor ekspansi MLP, kedalaman, jumlah kepala perhatian, dan perhatian lokal ukuran jendela.

Tabel 1 memberikan ringkasan hyperparameter utama ini, dan definisi model yang lebih rinci dapat ditemukan di makalah Griffin oleh De et al. Bersama-sama, hyperparameter ini membentuk dasar model RecurrentGemma, memungkinkannya mencapai pemrosesan urutan panjang yang efisien sambil mempertahankan jejak memori yang kecil.

Melalui modifikasi yang cermat pada arsitektur Griffin dan penyesuaian hyperparameter yang cermat, model RecurrentGemma tidak hanya menunjukkan kemajuannya dalam teori, namun juga membuktikan efisiensi dan kemampuan pemrosesan bahasa yang kuat dalam aplikasi praktis.

rincian pelatihan

Pra-pelatihan RecurrentGemma-2B menggunakan 2 triliun token. Meskipun jumlah data ini lebih kecil dari 3 triliun token yang digunakan oleh Gemma-2B, ini masih merupakan kumpulan data yang sangat besar dan menyediakan informasi bahasa yang kaya untuk model tersebut.

Sumber data untuk pra-pelatihan sebagian besar adalah dokumen online berbahasa Inggris, matematika, dan kode. Data ini tidak hanya mencakup berbagai topik dan bidang, tetapi juga disaring dan dibersihkan secara cermat untuk mengurangi konten yang tidak diinginkan atau tidak aman serta mengecualikan data pribadi atau sensitif. Selain itu, untuk memastikan keadilan evaluasi, semua rangkaian evaluasi dikeluarkan dari kumpulan data pra-pelatihan.

RecurrentGemma-2B pertama-tama menggunakan campuran data umum yang besar dalam pra-pelatihan, dan kemudian berpindah ke kumpulan data yang lebih kecil namun berkualitas lebih tinggi untuk pelatihan lebih lanjut. Pendekatan pelatihan bertahap ini membantu model mempelajari representasi bahasa umum pada berbagai data, lalu menyempurnakan dan mengoptimalkannya dengan data yang lebih khusus.

Setelah pra-pelatihan, RecurrentGemma-2B disempurnakan melalui penyetelan instruksi dan algoritma RLHF. Proses ini bertujuan untuk mengoptimalkan model agar dapat mengikuti instruksi dengan lebih baik dan menghasilkan respons dengan imbalan yang tinggi.

Penyetelan Instruksi adalah metode pelatihan yang memungkinkan model memahami dan merespons format instruksi tertentu. RecurrentGemma-2B dilatih untuk mematuhi format percakapan tertentu, yang ditentukan oleh tag kontrol tertentu, seperti masukan pengguna dan keluaran model masing-masing diidentifikasi dengan tag yang berbeda.

Algoritme RLHF adalah teknik penyesuaian tingkat lanjut yang mengoptimalkan keluaran model melalui kerangka pembelajaran penguatan. Dalam RLHF, keluaran model dievaluasi berdasarkan umpan balik manusia dan disesuaikan berdasarkan hasil evaluasi untuk meningkatkan kualitas keluaran dan imbalan. Algoritme ini memungkinkan model mempelajari cara menghasilkan respons yang lebih tepat dalam konteks berbeda.

Melalui penyesuaian instruksi dan penyempurnaan RLHF, RecurrentGemma-2B tidak hanya mampu menghasilkan keluaran bahasa berkualitas tinggi, namun juga bekerja dengan baik dalam percakapan dan mengikuti instruksi. Metode pelatihan ini memberikan fleksibilitas dan kemampuan beradaptasi pada model, memungkinkannya berfungsi dalam berbagai skenario aplikasi.

Penyetelan instruksi dan tag kontrol pemformatan terkait Reinforcement Learning Human Feedback (RLHF) untuk model Gemma, yang digunakan untuk menentukan format percakapan antara pengguna dan model

Contoh dialog menunjukkan cara menggunakan tag kontrol untuk memformat dialog antara pengguna dan model

Dengan cara ini, RecurrentGemma-2B menjadi model bahasa canggih yang mampu menyediakan pemrosesan bahasa yang efisien dan akurat dalam berbagai tugas dan lingkungan.

Evaluasi

Pembandingan otomatis adalah langkah pertama dalam mengevaluasi kinerja RecurrentGemma-2B. Tes ini mencakup berbagai tugas hilir yang populer, termasuk namun tidak terbatas pada menjawab pertanyaan, meringkas teks, penalaran linguistik, dan banyak lagi. Performa RecurrentGemma-2B pada tugas-tugas ini dibandingkan dengan Gemma-2B, dan hasilnya menunjukkan bahwa meskipun RecurrentGemma-2B dilatih pada jumlah token yang lebih sedikit, performanya sebanding dengan Gemma-2B.

Kinerja RecurrentGemma-2B dalam berbagai tolok ukur akademik seperti MMLU 5-shot, HellaSwag 0-shot, PIQA 0-shot, dll. mirip dengan Gemma-2B, yang membuktikan keserbagunaan dan efektivitasnya pada berbagai tugas. Hasil pengujian ini tidak hanya menunjukkan pemahaman mendalam model terhadap bahasa, namun juga mencerminkan potensinya dalam penerapan praktis.

Perbandingan kinerja RecurrentGemma-2B dan Gemma-2B pada berbagai tolok ukur akademik, termasuk metrik evaluasi dan skor yang berbeda dari kedua model

Selain tolok ukur otomatis, RecurrentGemma-2B telah diuji berdasarkan evaluasi manusia. Evaluasi manusia merupakan langkah penting dalam menilai apakah suatu model bahasa dapat menghasilkan tanggapan yang memenuhi harapan manusia. Dalam proses ini, varian RecurrentGemma-2B (RecurrentGemma-2B-IT) yang disetel instruksi dibandingkan dengan model Instruct Mistral 7B v0.2.

Penilaian manusia menggunakan kumpulan sekitar 1.000 instruksi yang harus diikuti untuk tugas penulisan kreatif dan pengkodean. RecurrentGemma-2B-IT tampil mengesankan di set ini, mencapai tingkat kemenangan 43,7%, hanya sedikit lebih rendah dari 45,0% Gemma-1.1-2B-IT. Hasil ini menunjukkan bahwa kemampuan RecurrentGemma-2B untuk memahami dan melaksanakan instruksi kompleks sebanding dengan model canggih yang ada.

RecurrentGemma-2B-IT juga dievaluasi pada kumpulan sekitar 400 perintah yang menguji protokol keamanan dasar, mencapai tingkat kemenangan sebesar 59,8%, menunjukkan keunggulan model dalam mengikuti pedoman keamanan.

Perbandingan tingkat kemenangan model RecurrentGemma-2B-IT dan Mistral 7B v0.2 Instruct model dalam evaluasi manusia, termasuk keamanan model dan kemampuan mengikuti instruksi

Kinerja RecurrentGemma-2B diuji secara komprehensif melalui kombinasi tolok ukur otomatis dan evaluasi manusia. Pengujian otomatis memberikan penilaian kuantitatif terhadap kinerja model pada berbagai tugas bahasa, sementara evaluasi manusia memberikan pemahaman kualitatif tentang kualitas keluaran model. Pendekatan evaluasi yang komprehensif ini memastikan bahwa RecurrentGemma-2B tidak hanya bekerja dengan baik secara teori namun juga memberikan generasi bahasa berkualitas tinggi dan pemahaman dalam aplikasi praktis.

Tolok ukur kecepatan inferensi

Kecepatan inferensi adalah salah satu metrik utama untuk mengukur kegunaan model bahasa, terutama ketika menangani data urutan panjang. Optimalisasi kecepatan inferensi RecurrentGemma-2B merupakan keunggulan yang membedakannya dari model Transformer tradisional. Dalam model Transformer tradisional, untuk pemrosesan urutan yang efisien, model perlu mengambil dan memuat cache nilai kunci (KV) ke dalam memori perangkat. Seiring bertambahnya panjang urutan, ukuran cache KV juga akan bertambah secara linier, yang tidak hanya meningkatkan penggunaan memori, namun juga membatasi kemampuan model untuk menangani urutan yang panjang. Meskipun ukuran cache dapat dikurangi melalui mekanisme perhatian lokal, hal ini biasanya mengorbankan beberapa kinerja.

RecurrentGemma-2B memecahkan masalah di atas melalui desain arsitektur inovatifnya. Ini memampatkan urutan masukan ke dalam keadaan ukuran tetap daripada mengandalkan cache KV yang bertambah seiring panjang urutan. Desain ini secara signifikan mengurangi penggunaan memori dan memungkinkan model mempertahankan kecepatan inferensi yang efisien saat memproses urutan yang panjang.

Dalam pengujian benchmark, RecurrentGemma-2B menunjukkan keunggulan throughput yang signifikan. Seperti yang ditunjukkan pada Gambar 1a, pada satu perangkat TPUv5e, RecurrentGemma-2B mampu mencapai throughput hingga 6 ribu token per detik ketika pengambilan sampel urutan dengan panjang berbeda dari sedikit 2 ribu token, sementara model Gemma tumbuh seiring dengan bertambahnya cache . Throughput menurun.

Ukuran status tetap RecurrentGemma-2B adalah kunci untuk inferensi yang efisien. Dibandingkan dengan model Gemma, status RecurrentGemma-2B tidak bertambah seiring dengan panjang rangkaian, yang berarti dapat menghasilkan rangkaian dengan panjang berapa pun tanpa dibatasi oleh ukuran memori host. Hal ini sangat penting dalam pemrosesan urutan panjang, karena memungkinkan model memproses data teks yang lebih panjang dengan tetap mempertahankan performa tinggi.

Peningkatan kecepatan penalaran tidak hanya sangat penting dalam teori, tetapi juga menunjukkan manfaatnya dalam penerapan praktis. Dalam lingkungan dengan sumber daya terbatas, seperti perangkat seluler atau perangkat komputasi edge, throughput RecurrentGemma-2B yang tinggi dan jejak memori yang rendah menjadikannya pilihan ideal. Selain itu, kecepatan inferensi yang efisien juga memungkinkan model merespons permintaan pengguna dengan lebih cepat dan memberikan pengalaman interaktif yang lebih lancar.

(a) menunjukkan jumlah maksimum token yang dihasilkan per detik pada satu perangkat TPUv5e ketika mengambil sampel rangkaian dengan panjang berbeda dari petunjuk 2 ribu token. RecurrentGemma mencapai throughput yang lebih tinggi pada semua panjang urutan yang dipertimbangkan.
(b) menunjukkan throughput saat memproses isyarat dengan panjang berbeda. Tidak seperti pengambilan sampel autoregresif, isyarat diproses secara paralel. Gemma dan RecurrentGemma memiliki kecepatan yang serupa saat memproses perintah.

penyebaran yang bertanggung jawab

Di bidang kecerdasan buatan, penerapan model tidak hanya merupakan realisasi teknologi, tetapi juga asumsi tanggung jawab keselamatan dan etika. Strategi penerapan RecurrentGemma-2B sepenuhnya mencerminkan penekanan pada faktor-faktor utama ini.

Sebelum penerapan model, RecurrentGemma-2B diuji melalui serangkaian tolok ukur keamanan akademis standar yang dirancang untuk menilai kemungkinan kesalahan atau bias dari model tersebut. Melalui pengujian ini, tim pengembangan dapat mengidentifikasi dan memitigasi potensi risiko, sehingga memastikan model tersebut aman untuk digunakan publik.

Hasil model RecurrentGemma-2B pada tolok ukur akademik keamanan, termasuk hasil untuk pos pemeriksaan pra-pelatihan dan varian yang disesuaikan dengan instruksi

Selain tolok ukur keamanan otomatis, RecurrentGemma-2B menjalani penilaian etika dan keamanan oleh tim independen. Proses ini melibatkan peninjauan menyeluruh atas model tersebut, termasuk namun tidak terbatas pada keadilannya bagi kelompok tertentu, kemampuannya untuk menghindari keluaran yang merugikan, dan perlindungan privasi pengguna.

Meskipun pengujian dan evaluasi yang ketat, tim pengembangan menekankan bahwa tidak mungkin untuk mencakup semua kemungkinan kasus penggunaan, mengingat RecurrentGemma-2B dapat diterapkan dalam banyak skenario berbeda. Oleh karena itu, mereka merekomendasikan agar semua pengguna melakukan pengujian keamanan tambahan berdasarkan kasus penggunaan spesifik mereka sebelum menerapkan model. Rekomendasi ini mencerminkan penekanan pada tanggung jawab pengguna untuk memastikan bahwa setiap penerapan dipikirkan dengan matang dan disesuaikan.

Penerapan yang bertanggung jawab juga mencakup transparansi tentang performa dan batasan model. Tim pengembangan memberikan arsitektur model terperinci dan detail pelatihan untuk memungkinkan pengguna dan peneliti memahami cara kerja model dan potensi keterbatasannya. Selain itu, tim berkomitmen untuk terus memantau dan menyempurnakan model untuk mengatasi risiko dan tantangan yang muncul.

Penerapan yang bertanggung jawab juga melibatkan kolaborasi dengan komunitas AI yang lebih luas dan berbagai pemangku kepentingan. Dengan berbagi hasil penelitian, terlibat dalam diskusi terbuka dan menerima umpan balik eksternal, tim pengembangan RecurrentGemma menunjukkan komitmennya terhadap ilmu pengetahuan terbuka dan kolaborasi.

Ketika bidang kecerdasan buatan terus berkembang, RecurrentGemma berfungsi sebagai model yang menggabungkan konsep desain arsitektur inovatif, proses pelatihan dan evaluasi yang ketat, menunjukkan potensi untuk mendorong batas-batas dari apa yang mungkin dilakukan dalam pemahaman dan generasi bahasa.

Tautan makalah: https://arxiv.org/abs/2404.07839