「深層分析」ChatGPT2: 教師なしマルチタスク学習のための言語モデル (2019)

2024-07-12

論文概要

以下は、ChatGPT-2 記事の主な内容を含む論文全体を読んだ後の私の個人的な要約です。読むことができるのは [論文の概要] の章だけです。

データセット

自家製の Web クローラーを作成しました。クロールされる Web ページの一部は、ソーシャルプラットフォームからのものです。これらの Web ページは手動でフィルタリングされます。最終的に生成された
WebText データセット
、4,500 万のリンクが含まれています。もう 1 つはニュース Web サイトからのデータであり、2017 年 12 月の時点で、総データ量は 800 万記事、テキストコンテンツの合計は 40GB に達します。この記事では、ウィキペディアやその他のテキストを含むテキストもトレーニングデータセットに含まれていることにも言及しました。
世界中の何百万人もの人々が参加しています
GPT-2 トレーニングに使用されるデータセットを作成してクリーンアップします。

入力表現

を設計した
ワードレベル表現とバイトレベル表現を組み合わせたハイブリッド入力表現
。過去の単語レベルのライブラリでは、多数の繰り返し単語が削除され、汎化機能を向上させるためにバイトレベルの表現が導入されました。

ワードレベルの表現には先験的な利点があり、バイトレベルの表現には一般化の利点があります。

モデル

GPT1 に対していくつかの変更が加えられました。

1. レイヤーの正規化を各サブブロックの入力に移動します。

2. セルフアテンションブロックの後に追加のレイヤー正規化を追加します。

3. 初期化方法を改善しました（初期化中、残留層の重みは 1/√N の倍数で拡張されます。N は残留層の数です）。

4. 辞書拡張、単語分割拡張、命令セット拡張、バッチ処理サイズ拡張。

5.GPTには117000000個のパラメータが含まれており、
GPT-2 には 1542000000 個のパラメータが含まれています
。

実験

トレーニングは 1 回だけですが、さまざまな細分化でモデルのパフォーマンスを観察したいため、すべての実験は次のように分類できます。
ゼロショット学習
。

試験項目	モデルのどの側面がテストされますか?	試験結果
子どもの本	さまざまな種類の語彙を識別する	ACCは85.7から93.3に改善
ランバダテスト	テキスト内の長い依存関係を識別する機能	PPL99.8 が 8.63 に減少
ウィノグラードスキーマチャレンジ	常識的な推論	63.7%が70.7%に増加
読解	モデルには特定のメモリ機能が必要です	4 つのテストと 3 つの更新された履歴レコード
まとめ	ニュース記事の要約を抽出する機能	過去の実績に沿って
翻訳する	大規模モデル自動学習の翻訳機能	英語の翻訳は貧弱ですが、フランス語の翻訳はベンチマークレベルに達しています。
Q&A	もっともらしい質問に正しく答えるモデルの能力	精度が5.3倍に向上

要約する

GPT-2 論文の中心的な内容は、一文に要約できます。
GPT モデルに基づいて、著者はモデルサイズとトレーニングデータセットのサイズを増やし、GPT-2 が NLP のさまざまな分野のタスク目標に自動的に適応して学習を完了できることを発見しました。
。

たとえば、日常会話テキストとニュースレポートテキストのデータセットを固定言語モデルに同時に入力しますが、このデータセットは十分に大きく、モデルも十分に大きく、トレーニング時間も十分に長くなります。最終的なモデルには、日常会話やニュースレポートのさまざまなシナリオを区別する機能が追加されるだけでなく、ニュースの概要を作成する機能など、いくつかの新しい機能も自動的に追加されます。

これは、大規模な言語モデルには強力な一般化機能があることを意味しますが、同時に次のことも意味します。
大規模な言語モデルは潜在的に自律的になる
。次に、この記事では、著者がリストしたいくつかの独立した領域についての実験結果を紹介します。

大規模データセットについてのみ言及した GPT 論文に比べ、GPT-2 論文では LLM (Large Language Model) の記述が登場し始めました。

論文原文の解釈

元の論文のアドレス: https://cdn.openai.com/better- language-models/ language_models_are_uns

技術共有