Model LLaMA2 adalah sumber terbuka untuk penggunaan komersial: kekuatannya sebanding dengan ChatGPT, mengeksplorasi tingkatan baru AI

Model LLaMA2 bersifat open source dan tersedia secara komersial: kekuatannya sebanding dengan ChatGPT, mengeksplorasi tingkatan baru AI

2024-07-08

[Model besar] LLaMA2 yang tersedia secara komersial dan lebih kuat telah hadir

Pengantar LLaMA2

19 Juli 2023: Meta merilis model komersial sumber terbuka Llama 2.

Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disempurnakan dengan ukuran mulai dari 7 miliar hingga 70 miliar parameter.

LLM yang disempurnakan, disebut Llama-2-Chat, dioptimalkan untuk kasus penggunaan percakapan. Model Llama-2-Chat mengungguli model obrolan sumber terbuka pada sebagian besar tolok ukur yang kami uji, dan setara dengan beberapa model sumber tertutup populer seperti ChatGPT dan PaLM dalam evaluasi kegunaan dan keamanan manusia.

LLaMA-2-chat hampir merupakan satu-satunya model sumber terbuka yang menjalankan RLHF. Setelah 5 putaran RLHF, LLaMA-2 menunjukkan kinerja yang lebih baik daripada ChatGPT berdasarkan evaluasi model hadiah Meta sendiri dan GPT-4.

Daftar model

Obrolan Llama2:

Llama2-obrolan-7B

Llama2-obrolan-13B

Llama2-obrolan-70B

Untuk model lain silakan lihat:
https://huggingface.co/meta-llama

data pelatihan

Dilatih pada kumpulan data lebih dari 2 triliun token.
Data yang disempurnakan mencakup kumpulan data instruksi yang tersedia untuk umum, serta lebih dari 1 juta contoh baru yang dianotasi oleh manusia.
Batas waktu pengambilan data prapelatihan adalah September 2022

informasi pelatihan

Semua model dilatih menggunakan ukuran batch global sebesar 4 juta token.
Model parameter 70 miliar yang lebih besar menggunakan Grouped-Query Attention (GQA) untuk meningkatkan skalabilitas inferensi.
Periode pelatihan mulai Januari 2023 hingga Juli 2023.
adalah model teks biasa.
Selama proses pra-pelatihan, 330.000 jam GPU dihabiskan pada A100-80GB.