Résumé des questions d'entretien sur grand modèle/PNL/algorithme 9 - Le passage de l'attention ordinaire à l'attention multi-têtes fera-t-il monter en flèche les paramètres ?

2024-07-11

Passer de l’attention ordinaire à l’attention multi-têtes (Multi-Head Attention), généralementCela ne fera pas monter en flèche le nombre total de paramètres. . Au contraire, dans certaines mises en œuvre et configurations, l'augmentation du nombre de paramètres peut être relativement contrôlable, et même dans certains cas, un contrôle efficace du nombre de paramètres peut être obtenu grâce à une optimisation.

Analyse paramétrique

Composition de base：
- attention ordinaire: Se compose généralement d'un ensemble de matrices de transformation linéaire pour le calcul des requêtes (Q), des clés (K) et des valeurs (V), ainsi que d'une matrice pour la transformation de sortie.
- attention haussière: Alors ce sera le casLes entités en entrée sont divisées en Plusieurs « têtes », chaque tête calcule indépendamment sa propre requête, sa clé et sa valeur, et obtient le résultat via son propre mécanisme d'attention. Enfin, les sorties de toutes les têtes sont concaténées et soumises à une transformation linéaire supplémentaire pour obtenir la sortie finale.
Modifications de la quantité de paramètres：
- Dans l'attention multi-têtes, chaque tête possède ses propres matrices de requête, de transformation de clé et de valeur (W_q, W_k, W_v) et une matrice de transformation linéaire (W_o) pour le résultat final. Cependant, il est important de noter queBien que le nombre de têtes augmente, le nombre de paramètres utilisés par chaque tête (c'est-à-dire les dimensions de chaque matrice de transformation linéaire) est généralement ajusté en conséquence,pour garder les paramètres globaux contrôlables.
- Par exemple, siLa dimension de la matrice de transformation de requête, de clé et de valeur dans l'attention originale à tête unique est d_model, alors dans une attention multi-têtes, si le nombre de têtes est h, les dimensions de la matrice de transformation de requête, de clé et de valeur de chaque tête peuvent êtreAjuster à d_model/h (Ou un nombre proche, selon que la cohérence dimensionnelle globale doit être maintenue ou non). Dans le même temps, les dimensions de la matrice de transformation linéaire de sortie finale W_o seront également ajustées si nécessaire.
Avantages du calcul parallèle：
- Un avantage majeur du mécanisme d’attention multi-têtes est sa capacité à traiter plusieurs têtes en parallèle, ce qui contribue à accélérer le processus de calcul. Bien qu’en apparence, l’augmentation du nombre de têtes semble augmenter la complexité du calcul, en fait, l’efficacité globale du calcul peut être améliorée grâce à l’augmentation du parallélisme.

en conclusion

Par conséquent, lors du passage de l'attention ordinaire à l'attention multi-têtes, bien que davantage de paramètres soient effectivement introduits (principalement la matrice de transformation de requête, de clé et de valeur de chaque tête), l'augmentation du nombre de paramètres n'augmente pas nécessairement de façon spectaculaire. En ajustant raisonnablement les dimensions des paramètres de chaque tête et les dimensions de la matrice de transformation linéaire de sortie finale, la quantité globale de paramètres peut rester contrôlable. Dans le même temps, les avantages du calcul parallèle apportés par le mécanisme d'attention multi-têtes contribuent également à améliorer l'efficacité du calcul.

Partage de technologie