言語モデルの進化: NLP から LLM

言語モデルの進化: NLP から LLM への旅

2024-07-12

人工知能の広大な世界において、自然言語処理 (NLP) は常に課題と機会に満ちた分野です。テクノロジーが進化するにつれて、私たちは従来のルールから統計的機械学習、ディープラーニングや事前トレーニングされたモデルへの進化を目の当たりにしてきました。現在、私たちは大規模言語モデル (LLM) の入口に立っており、LLM はマシンとの通信方法を再定義しています。この記事では、LLM の開発の歴史、技術ロードマップ、将来の AI 分野への影響について詳しく説明します。

導入

自然言語処理 (NLP) の目標は、機械が人間の言語を理解し、解釈し、生成できるようにすることです。この分野の発展はいくつかの重要な段階を経ており、それぞれの段階で言語理解の深さは飛躍的に進歩しました。初期のルールベースのシステムから、統計学習手法、深層学習モデル、そして今日の大規模言語モデル (LLM) に至るまで、各ステップは前の段階を超越しています。
ここに画像の説明を挿入します

ルールから統計まで: NLP の初期の探索

ルール段階 (1956-1992)

NLP の初期の頃、研究者は言語を処理するために手書きのルールに依存していました。この段階のテクノロジースタックには、有限状態マシンとルールベースのシステムが含まれます。たとえば、Apertium はルールベースの機械翻訳システムであり、初期の研究者が手動で辞書を整理し、ルールを記述することで言語の自動翻訳をどのように実現できるかを示しています。
ここに画像の説明を挿入します

統計的機械学習段階 (1993 ～ 2012)

時間が経つにつれ、研究者はサポートベクターマシン (SVM)、隠れマルコフモデル (HMM)、最大エントロピーモデル (MaxEnt)、条件付きランダムフィールド (CRF) などのツールを使用した統計学習手法に目を向け始めました。この段階は、手動でラベル付けされた少量のドメインデータと手動の特徴エンジニアリングの組み合わせによって特徴付けられ、手書きのルールからデータから知識を自動的に学習する機械への移行を示します。
ここに画像の説明を挿入します

ディープラーニングのブレークスルー: 新しい時代の幕開け

深層学習段階 (2013-2018)

ディープラーニングの出現は、NLP に革命的な変化をもたらしました。エンコーダーデコーダー、Long Short-Term Memory Network (LSTM)、アテンション、エンベディングなどのテクノロジーにより、モデルは手動の特徴量エンジニアリングをほとんど必要とせずに、より大きなデータセットを処理できます。 Google のニューラル機械翻訳システム (2016) は、この段階の代表的な作品です。
ここに画像の説明を挿入します

事前トレーニング済みモデルの台頭: 知識の自己発見

事前トレーニング段階 (2018 ～ 2022 年)

事前トレーニング済みモデルの登場は、NLP 分野のさらなる飛躍を示しています。 Transformer とアテンションメカニズムをコアとするテクノロジースタックは、大量のラベルなしデータを結合して自己教師あり学習を行い、一般知識を生成し、微調整を通じて特定のタスクに適応します。利用可能なデータの範囲がラベル付きデータからラベルなしデータまで拡大されるため、この段階の変動性は非常に高くなります。
ここに画像の説明を挿入します

LLM の新時代: インテリジェンスと多用途性の融合

LLMステージ (2023-?)

LLM は言語モデルの最新の開発を表しており、通常、Transformer および強化学習ヒューマンフィードバック (RLHF) と組み合わせたデコーダベースのアーキテクチャを採用しています。このフェーズは、事前トレーニングと人間との調整という 2 段階のプロセスによって特徴付けられます。事前トレーニングフェーズでは、大量のラベルなしデータとドメインデータを使用して、自己教師あり学習を通じて知識を生成します。人間による調整フェーズでは、使用習慣と価値観を調整することで、モデルをさまざまなタスクに適応させることができます。
ここに画像の説明を挿入します
開発のさまざまな段階を振り返ると、次の傾向がわかります。

データ: データから知識へ、ますます多くのデータが使用されています/未来：テキストデータ、その他フォームデータ→任意のデータ
アルゴリズム: 表現力はますます強くなり、スケールはますます大きくなり、専門的なものから一般的なものまで、ますます強力になっています。未来:現状はトランスで十分、新型(学習効率重視)?→AGI?
人間と機械の関係: インストラクターからスーパーバイザーへ戻る/未来:人間と機械のコラボレーション、人間からの機械学習→人間は機械から学習?→機械は人間の知識の限界を拡張する

ここに画像の説明を挿入します

LLM技術開発ルート：多様な道筋

過去数年間、LLM テクノロジーの開発は、BERT モード、GPT モード、T5 モードなどを含む多様な道筋を示してきました。各モードには独自の特性と適用可能なシナリオがあります。
ここに画像の説明を挿入します

BERT モード (エンコーダーのみ)

BERT モデルは、双方向言語モデルの事前トレーニングとタスクの微調整の 2 段階のプロセス (双方向言語モデルの事前トレーニング + タスクの微調整) を介した自然言語理解タスクに適しています。 BERT の事前トレーニングでは一般データから一般知識が抽出され、微調整ではドメインデータからドメイン知識が抽出されます。
ここに画像の説明を挿入します
適切なタスクシナリオ: 自然言語の理解、特定のシナリオでの特定のタスク、専門的で軽量なタスクに適しています。

GPT モード (デコーダのみ)

GPT モードは、一方向言語モデルの事前トレーニングとゼロショット/少数ショットプロンプトまたは指示 (一方向言語モデルの事前トレーニング + ゼロショット/少数ショットプロンプト/指示) プロセスから開発され、自然な言語モデルに適しています。言語の生成タスク。 GPT モードモデルは通常、利用可能な LLM の中で最大のものであり、より広範囲のタスクを処理できます。
ここに画像の説明を挿入します
適用可能なシナリオ: 現在、最大の LLM はすべてこのモードです: GPT シリーズ、PaLM、LaMDA...、生成タスク/一般モデルには GPT モードが推奨されます。

T5 モード (エンコーダー-デコーダー)

T5 モードは BERT と GPT の特性を組み合わせており、タスクの生成と理解に適しています。 T5 モードの穴埋めタスク (Span Corruption) は、自然言語理解タスクで優れたパフォーマンスを発揮する効果的な事前トレーニング方法です。 2 段階 (主に一方向の言語モデルの事前トレーニング + 微調整)
ここに画像の説明を挿入します
特徴: GPT に似ている、Bert に似ている
適用可能なシナリオ: 効果の観点からは、単一分野の自然言語理解タスクの場合、このモードがより適しています。、T5 モードを使用することをお勧めします。
ここに画像の説明を挿入します

非常に大きな LLM が GPT モードになるのはなぜですか?

スーパーLLM：ゼロショット/少数ショット/指示効果を追求
現在の研究結果

(モデルサイズが小さい場合):

自然言語理解カテゴリ: T5 モードが最適に機能します。
自然言語生成クラス: GPT モードが最適に機能します。
ゼロショット: GPT モードが最適に機能します。
Pretrain の後にマルチタスク微調整が導入された場合、T5 モードがより適切に機能します (結論には疑問があります。現在の実験的な Encoder-Decoder には Decoder のみのパラメータの数が 2 倍あります。その結論は信頼できますか?)

現在の研究の結論 (非常に大規模):
事実: 100B を超えるほとんどすべての LLM モデルは GPT モードを採用しています

考えられる理由:
1. エンコーダーとデコーダーの双方向の注意がゼロショット能力にダメージを与える (チェック)
2. Encoder-Decoder 構造は、トークンの生成時に高レベルの Encoder にのみ注意を提供できます。Decoder のみの構造は、トークンの生成時に層ごとに注意を提供でき、情報はよりきめ細かくなります。
3. Encoder-Decoder は「空白を埋めて」トレーニングし、最後の単語 Next Token を生成します。 Decoder のみの構造のトレーニングと生成方法は一貫しています。

非常に大規模な LLM の課題と機会

モデルのサイズが大きくなるにつれて、研究者はパラメータ空間を効果的に利用する方法という課題に直面しています。チンチラモデルに関する研究では、データが十分な場合、現在の LLM スケールが理想的なスケールより大きくなる可能性があり、パラメーター空間の無駄が発生することが示されています。ただし、スケーリングの法則は、モデルのスケールが大きくなるほど、より多くのデータが必要になることも指摘しています。、トレーニングが適切であればあるほど、LLM モデルの効果は高くなります。より実現可能なアイデアは、最初に小さくし (GPT 3 はそれほど大きくないはずです)、次に大きくします (モデルパラメーターを最大限に活用した後、引き続き大きくします)。
ここに画像の説明を挿入します

もちろん、マルチモーダル LLM にはより豊富な現実世界の環境認識機能が必要であることを考慮すると、LLM パラメーターに対してもより高い要件が提示されます。
マルチモーダル LLM: 視覚入力 (写真、ビデオ)、聴覚入力 (オーディオ)、触覚入力 (圧力)
ここに画像の説明を挿入します
問題に直面している: マルチモーダル LLM は非常に優れているように見えますが、手動で整理された大規模なデータセットに大きく依存しています。

例えば、ALIGN: 1.8B グラフィックスとテキスト/LAION: 5.8B グラフィックスとテキストデータ (CLIP でフィルタリング、現在最大のグラフィックスとテキストデータ) は、現在テキストと画像が飛んでいますか?

画像処理: 自己監視の技術的ルートが試みられていますが、まだ成功していません (比較学習/MAE) / 成功すれば、AI 分野におけるもう 1 つの大きな技術的ブレークスルーとなるでしょう。

それが解決できれば、現在の画像理解タスクの一部 (意味セグメンテーション/認識など) は LLM に統合され、消滅すると予想されます。

ここに画像の説明を挿入します

LLM の複雑な推論機能を向上させる

現在の LLM には特定の単純な推論機能がありますが、複雑な推論には依然として欠点があります。たとえば、複数桁の加算などのタスクは、LLM にとって依然として課題です。研究者たちは、意味分解などの技術的手段を通じて、複雑な推論機能をより小さなモデルに抽出する方法を模索しています。
ここに画像の説明を挿入します
もちろん、この問題は、ツールと組み合わせるなどのキャパシティアウトソーシングによって回避することもできます。コンピューティング能力 (外部計算機)、新しい情報クエリ (検索エンジン) およびその他の機能は、外部ツールの助けを借りて完成します。
ここに画像の説明を挿入します

LLM と物理世界の間の相互作用

身体化された知能の概念は、LLM とロボット工学を組み合わせ、強化学習を使用して、物理世界との相互作用を通じて身体化された知能を取得します。。たとえば、Google の PaLM-E モデルは 540B の PaLM と 22B の ViT を組み合わせており、マルチモーダル環境における LLM の可能性を実証しています。
ここに画像の説明を挿入します

その他の研究の方向性

新しい知識の獲得：現状では難しい面もあるが、いくつかの方法（LLM+Retrieval）もある
古い知識の修正: 現在、まだ最適化する必要がある研究結果がいくつかあります。
プライベートドメインの知識の統合: 微調整しますか?
コマンドの理解が深まる: まだ最適化が必要 (重大なナンセンス)
トレーニング推論コストの削減: 今後 1 ～ 2 年で急速に開発
中国語評価データセットの構築: 能力のリトマス試験紙。現在、HELM/BigBench など英語版の評価セットはいくつかありますが、中国語版のマルチタスク、高難易度、マルチアングルの評価データセットが不足しています。

結論

この記事では、LLM の開発の歴史、技術ロードマップ、およびそれらが将来の AI 分野に与える影響について詳しく説明します。 LLM の開発は技術の進歩であるだけでなく、私たちの機械理解能力にも深く反映されています。ルールから統計、ディープラーニング、事前トレーニングに至るまで、各ステップは新しい視点とツールを提供します。現在、私たちは大規模言語モデルの新時代の入り口に立ち、前例のない機会と課題に直面しています。

技術共有