Resumo das grandes perguntas da entrevista sobre modelo/PNL/algoritmo 9 - A mudança da atenção comum para a atenção multicabeças fará com que os parâmetros disparem?

2024-07-11

Mude da atenção comum para a atenção com múltiplas cabeças (atenção com múltiplas cabeças), geralmenteIsso não fará com que o número total de parâmetros dispare. . Pelo contrário, sob certas implementações e configurações, o aumento no número de parâmetros pode ser relativamente controlável e mesmo em alguns casos, o controlo eficaz do número de parâmetros pode ser alcançado através da otimização.

Análise paramétrica

Composição básica：
- atenção comum: normalmente consiste em um conjunto de matrizes de transformação linear para calcular consultas (Q), chaves (K) e valores (V), bem como uma matriz para a transformação de saída.
- atenção otimista: Então vaiOs recursos de entrada são divididos em Múltiplas "cabeças", cada cabeça calcula independentemente sua própria consulta, chave e valor e obtém resultados por meio de seu próprio mecanismo de atenção. Finalmente, as saídas de todos os cabeçotes são concatenadas e submetidas a uma transformação linear adicional para obter a saída final.
Alterações na quantidade de parâmetros：
- Na atenção multi-head, cada head tem suas próprias matrizes de consulta, chave e transformação de valor (W_q, W_k, W_v) e uma matriz de transformação linear (W_o) para a saída final. Contudo, é importante notar queEmbora o número de cabeças aumente, o número de parâmetros usados por cada cabeça (ou seja, as dimensões de cada matriz de transformação linear) é geralmente ajustado em conformidade,para manter os parâmetros gerais controláveis.
- Por exemplo, seA dimensão da matriz de transformação de consulta, chave e valor na atenção original de cabeça única é d_model, então na atenção multi-cabeças, se o número de cabeças for h, as dimensões da consulta, matriz de transformação de chave e valor de cada cabeça podem serAjustar para d_model/h (Ou um número próximo, dependendo se a consistência dimensional geral precisa ser mantida). Ao mesmo tempo, as dimensões da matriz de transformação linear de saída final W_o também serão ajustadas conforme necessário.
Vantagens da computação paralela：
- Uma grande vantagem do mecanismo de atenção multicabeças é a sua capacidade de processar múltiplas cabeças em paralelo, o que ajuda a acelerar o processo computacional. Embora superficialmente, aumentar o número de cabeças pareça aumentar a complexidade computacional, na verdade, a eficiência computacional geral pode ser melhorada devido ao aumento do paralelismo.

para concluir

Portanto, ao mudar da atenção comum para a atenção multi-head, embora mais parâmetros sejam de fato introduzidos (principalmente a própria consulta de cada head, matriz de transformação de chave e valor), o aumento no número de parâmetros não aumenta necessariamente dramaticamente. Ajustando razoavelmente as dimensões dos parâmetros de cada cabeçote e as dimensões da matriz de transformação linear de saída final, a quantidade geral dos parâmetros pode ser mantida controlável. Ao mesmo tempo, as vantagens da computação paralela trazidas pelo mecanismo de atenção multicabeças também ajudam a melhorar a eficiência da computação.

Compartilhamento de tecnologia