LLaMA2 モデルはオープンソースで商用利用可能です。その強度は ChatGPT に匹敵し、AI

LLaMA2 モデルは商用利用向けのオープンソースです。その強度は ChatGPT に匹敵し、AI の新たな高みを探ります

2024-07-08

【大型モデル】市販のさらに強力なLLaMA2はこちら

LLaMA2 の概要

2023 年 7 月 19 日: Meta がオープンソース商用モデル Llama 2 をリリースしました。

Llama 2 は、事前トレーニングされ、微調整された生成テキストモデルのコレクションであり、そのサイズは 70 億から 700 億のパラメーターに及びます。

Llama-2-Chat と呼ばれる微調整された LLM は、会話のユースケース向けに最適化されています。 Llama-2-Chat モデルは、テストしたほとんどのベンチマークでオープンソースチャットモデルを上回り、有用性とセキュリティに関する人による評価では、ChatGPT や PaLM などの人気のあるクローズドソースモデルと同等です。

LLaMA-2-chat は、RLHF を実行するほぼ唯一のオープンソースモデルです。 5 ラウンドの RLHF の後、Meta 独自の報酬モデルと GPT-4 の評価では、LLaMA-2 が ChatGPT よりも優れたパフォーマンスを示しました。

機種一覧

Llama2チャット：

ラマ2-チャット-7B

ラマ2チャット13B

ラマ2-チャット-70B

他のモデルについては、以下をご確認ください。
https://huggingface.co/meta-llama

トレーニングデータ

2 兆を超えるトークンのデータセットでトレーニングされました。
微調整データには、公開されている指示データセットに加え、人間が注釈を付けた 100 万を超える新しいサンプルが含まれています。
事前トレーニングデータの期限は 2022 年 9 月です

トレーニング情報

すべてのモデルは、400 万トークンのグローバルバッチサイズを使用してトレーニングされます。
より大きな 700 億のパラメーターモデルでは、Grouped-Query Attendance (GQA) を使用して推論のスケーラビリティを向上させています。
研修期間は2023年1月から2023年7月まで。
プレーンテキストモデルです。
事前トレーニングプロセス中に、A100-80GB に 330,000 GPU 時間が費やされました。