技術共有

大規模モデル/NLP/アルゴリズムの面接での質問のまとめ 9 - 通常の注意から複数頭の注意に切り替えるとパラメータが急上昇しますか?

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

通常、通常の注意からマルチヘッド アテンション (マルチヘッド アテンション) に切り替えます。パラメータの総数が急増することはありません。 。逆に、特定の実装および構成では、パラメータ数の増加は比較的制御可能であり、場合によっては、最適化によってパラメータ数の効果的な制御を達成できることもあります。

パラメトリック分析

  1. 基本構成
    • 普通の注意力: 通常、クエリ (Q)、キー (K)、および値 (V) を計算するための一連の線形変換行列と、出力変換のための行列で構成されます。
    • 強気の注意:そうなります入力フィーチャは次のように分割されます。複数の「ヘッド」。各ヘッドは独自のクエリ、キー、値を独立して計算し、独自のアテンション メカニズムを通じて出力を取得します。最後に、すべてのヘッドの出力が連結され、追加の線形変換が行われて、最終出力が得られます。
  2. パラメータ量の変更
    • マルチヘッド アテンションでは、各ヘッドが独自のクエリ、キー、および値の変換行列 (W_q、W_k、W_v)、および最終出力用の線形変換行列 (W_o) を持ちます。ただし、次のことに注意してください。ヘッドの数は増加しますが、各ヘッドで使用されるパラメータの数 (つまり、各線形変換行列の次元) は通常、それに応じて調整されます。全体的なパラメーターを制御可能に保つため。
    • たとえば、次の場合元の単一ヘッド アテンションのクエリ、キー、および値の変換行列の次元は d_model です。マルチヘッド アテンションでは、ヘッドの数が h の場合、各ヘッドのクエリ、キー、および値の変換行列の次元は次のようになります。d_model/hに調整 (または、全体的な寸法の一貫性を維持する必要があるかどうかに応じて、それに近い数値になります)。同時に、最終出力線形変換行列 W_o の次元も必要に応じて調整されます。
  3. 並列コンピューティングの利点
    • マルチヘッド アテンション メカニズムの主な利点は、複数のヘッドを並行して処理できることで、計算プロセスの高速化に役立ちます。表面的には、ヘッドの数を増やすと計算の複雑さが増加するように見えますが、実際には、並列処理の増加により全体の計算効率が向上します。

結論は

したがって、通常のアテンションからマルチヘッド アテンションに切り替えると、実際により多くのパラメータ (主に各ヘッド独自のクエリ、キー、および値の変換行列) が導入されますが、パラメータの数の増加は必ずしも劇的に増加するわけではありません。各ヘッドのパラメータの次元と最終出力線形変換行列の次元を合理的に調整することにより、パラメータ全体の量を制御可能に保つことができます。同時に、マルチヘッド アテンション メカニズムによってもたらされる並列コンピューティングの利点も、コ​​ンピューティング効率の向上に役立ちます。