Riepilogo delle domande dell'intervista con modello ampio/PNL/algoritmo 9 - Il passaggio dall'attenzione ordinaria all'attenzione multi-testa farà salire alle stelle i parametri?

2024-07-11

Passa dall'attenzione ordinaria all'attenzione multi-testa (attenzione multi-testa), di solitoNon farà salire alle stelle il numero totale di parametri. . Al contrario, in determinate implementazioni e configurazioni, l'aumento del numero di parametri può essere relativamente controllabile e, anche in alcuni casi, è possibile ottenere un controllo efficace del numero di parametri tramite l'ottimizzazione.

Analisi parametrica

Composizione di base：
- attenzione ordinaria: In genere è costituito da un insieme di matrici di trasformazione lineare per il calcolo di query (Q), chiavi (K) e valori (V), nonché da una matrice per la trasformazione di output.
- attenzione rialzista: Allora lo faràLe funzionalità di input sono suddivise in Più "teste", ciascuna testa calcola in modo indipendente la propria query, chiave e valore e ottiene l'output attraverso il proprio meccanismo di attenzione. Infine, gli output di tutte le teste vengono concatenati e sottoposti ad un'ulteriore trasformazione lineare per ottenere l'output finale.
La quantità dei parametri cambia：
- Nell'attenzione multi-testa, ciascuna testa ha le proprie matrici di trasformazione di query, chiave e valore (W_q, W_k, W_v) e una matrice di trasformazione lineare (W_o) per l'output finale. Tuttavia, è importante notarloSebbene il numero di teste aumenti, il numero di parametri utilizzati da ciascuna testa (cioè le dimensioni di ciascuna matrice di trasformazione lineare) viene solitamente regolato di conseguenza,per mantenere i parametri generali controllabili.
- Ad esempio, seLa dimensione della matrice di trasformazione di query, chiave e valore nell'attenzione originale a testa singola è d_model, quindi nell'attenzione multi-testa, se il numero di teste è h, le dimensioni della matrice di trasformazione della query, della chiave e del valore di ciascuna testa possono essereRegolare su d_model/h (O un numero vicino, a seconda che sia necessario mantenere la coerenza dimensionale complessiva). Allo stesso tempo, anche le dimensioni della matrice di trasformazione lineare di output finale W_o verranno adeguate secondo necessità.
Vantaggi del calcolo parallelo：
- Uno dei principali vantaggi del meccanismo di attenzione multi-testa è la sua capacità di elaborare più teste in parallelo, il che aiuta ad accelerare il processo computazionale. Sebbene in superficie l'aumento del numero di teste sembri aumentare la complessità computazionale, in realtà l'efficienza computazionale complessiva può essere migliorata grazie all'aumento del parallelismo.

Insomma

Pertanto, quando si passa dall'attenzione ordinaria all'attenzione multi-testa, anche se verranno effettivamente introdotti più parametri (principalmente la query di ciascuna testa, la matrice di trasformazione della chiave e del valore), l'aumento del numero di parametri non aumenta necessariamente in modo drammatico. Regolando ragionevolmente le dimensioni dei parametri di ciascuna testa e le dimensioni della matrice di trasformazione lineare dell'output finale, la quantità complessiva dei parametri può essere mantenuta controllabile. Allo stesso tempo, i vantaggi del calcolo parallelo apportati dal meccanismo di attenzione multi-testa aiutano anche a migliorare l’efficienza del calcolo.

Condivisione della tecnologia