Compartilhamento de tecnologia

Resumo das grandes perguntas da entrevista sobre modelo/PNL/algoritmo 9 - A mudança da atenção comum para a atenção multicabeças fará com que os parâmetros disparem?

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mude da atenção comum para a atenção com múltiplas cabeças (atenção com múltiplas cabeças), geralmenteIsso não fará com que o número total de parâmetros dispare. . Pelo contrário, sob certas implementações e configurações, o aumento no número de parâmetros pode ser relativamente controlável e mesmo em alguns casos, o controlo eficaz do número de parâmetros pode ser alcançado através da otimização.

Análise paramétrica

  1. Composição básica
    • atenção comum: normalmente consiste em um conjunto de matrizes de transformação linear para calcular consultas (Q), chaves (K) e valores (V), bem como uma matriz para a transformação de saída.
    • atenção otimista: Então vaiOs recursos de entrada são divididos em Múltiplas "cabeças", cada cabeça calcula independentemente sua própria consulta, chave e valor e obtém resultados por meio de seu próprio mecanismo de atenção. Finalmente, as saídas de todos os cabeçotes são concatenadas e submetidas a uma transformação linear adicional para obter a saída final.
  2. Alterações na quantidade de parâmetros
    • Na atenção multi-head, cada head tem suas próprias matrizes de consulta, chave e transformação de valor (W_q, W_k, W_v) e uma matriz de transformação linear (W_o) para a saída final. Contudo, é importante notar queEmbora o número de cabeças aumente, o número de parâmetros usados ​​por cada cabeça (ou seja, as dimensões de cada matriz de transformação linear) é geralmente ajustado em conformidade,para manter os parâmetros gerais controláveis.
    • Por exemplo, seA dimensão da matriz de transformação de consulta, chave e valor na atenção original de cabeça única é d_model, então na atenção multi-cabeças, se o número de cabeças for h, as dimensões da consulta, matriz de transformação de chave e valor de cada cabeça podem serAjustar para d_model/h (Ou um número próximo, dependendo se a consistência dimensional geral precisa ser mantida). Ao mesmo tempo, as dimensões da matriz de transformação linear de saída final W_o também serão ajustadas conforme necessário.
  3. Vantagens da computação paralela
    • Uma grande vantagem do mecanismo de atenção multicabeças é a sua capacidade de processar múltiplas cabeças em paralelo, o que ajuda a acelerar o processo computacional. Embora superficialmente, aumentar o número de cabeças pareça aumentar a complexidade computacional, na verdade, a eficiência computacional geral pode ser melhorada devido ao aumento do paralelismo.

para concluir

Portanto, ao mudar da atenção comum para a atenção multi-head, embora mais parâmetros sejam de fato introduzidos (principalmente a própria consulta de cada head, matriz de transformação de chave e valor), o aumento no número de parâmetros não aumenta necessariamente dramaticamente. Ajustando razoavelmente as dimensões dos parâmetros de cada cabeçote e as dimensões da matriz de transformação linear de saída final, a quantidade geral dos parâmetros pode ser mantida controlável. Ao mesmo tempo, as vantagens da computação paralela trazidas pelo mecanismo de atenção multicabeças também ajudam a melhorar a eficiência da computação.