Compartilhamento de tecnologia

"Análise profunda" ChatGPT2: modelo de linguagem para aprendizagem multitarefa não supervisionada (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Resumo do artigo

A seguir está meu resumo pessoal depois de ler todo o artigo, que contém o conteúdo principal do artigo ChatGPT-2. Você só pode ler o capítulo [Resumo do artigo].

conjunto de dados

Fiz um rastreador caseiro. Algumas das páginas rastreadas vêm de plataformas sociais. Essas páginas são filtradas manualmente.final gerado
Conjunto de dados WebText
, contendo 45 milhões de links. A outra parte vem de sites de notícias. Em dezembro de 2017, o volume total de dados chega a 8 milhões de artigos, com um total de 40 GB de conteúdo de texto.O artigo também mencionou que textos incluindo a Wikipédia e outros textos também estão incluídos no conjunto de dados de treinamento, por
Milhões de pessoas em todo o mundo participam
para criar e limpar o conjunto de dados usado para treinamento GPT-2.

Representação de entrada

projetou um
Representação de entrada híbrida que combina representação em nível de palavra e representação em nível de byte
. Para as bibliotecas anteriores em nível de palavra, um grande número de palavras repetidas foi removido e a representação em nível de byte foi introduzida para melhorar as capacidades de generalização.

A representação em nível de palavra tem vantagens a priori, e a representação em nível de byte tem vantagens de generalização.

Modelo

Algumas modificações foram feitas para GPT1:

1. Mova a normalização da camada para a entrada de cada subbloco.

2. Adicione normalização de camada adicional após o bloco de autoatenção.

3. Melhorou o método de inicialização (durante a inicialização, o peso da camada residual é expandido por um múltiplo de 1/√N, N é o número de camadas residuais).

4. Expansão de dicionário, expansão de segmentação de palavras, expansão de conjunto de instruções e expansão de tamanho de processamento em lote.

5.GPT contém 117000000 parâmetros,
GPT-2 contém 1542000000 parâmetros

experimentar

Como treinamos apenas uma vez, mas queremos observar o desempenho do modelo em várias subdivisões, todos os experimentos podem ser classificados como
Aprendizagem zero

Itens de testeQual aspecto do modelo é testado?Resultado dos testes
livros infantisIdentifique diferentes tipos de vocabulárioACC melhorou de 85,7 para 93,3
Teste LAMBADAA capacidade de identificar longas dependências no textoPPL99.8 reduzido para 8,63
Desafio do Esquema Winogradraciocínio de bom senso63,7% aumentaram para 70,7%
compreensão de leituraO modelo precisa ter certos recursos de memória4 testes e 3 registros históricos atualizados
ResumoA capacidade de extrair resumos de artigos de notíciasEm linha com resultados históricos
traduzirCapacidades de tradução de aprendizagem automática de modelos grandesA tradução em inglês é pobre, enquanto a tradução em francês atinge o nível de referência.
Perguntas e respostasA capacidade de um modelo de responder corretamente a perguntas plausíveisPrecisão aumentada em 5,3 vezes
Resumir

O conteúdo central do artigo GPT-2 pode ser resumido em uma frase: isto é
Com base no modelo GPT, o autor aumentou o tamanho do modelo e o tamanho do conjunto de dados de treinamento e descobriu que o GPT-2 pode se adaptar e completar automaticamente o aprendizado dos objetivos da tarefa em diferentes campos da PNL.

Por exemplo, inserimos conjuntos de dados de texto de conversação diária e texto de reportagem em um modelo de idioma fixo ao mesmo tempo, e esse conjunto de dados é grande o suficiente, o modelo é grande o suficiente e o tempo de treinamento é longo o suficiente. O modelo final terá a capacidade de distinguir diferentes cenários de conversas diárias e reportagens noticiosas. Além disso, o modelo também terá automaticamente algumas novas capacidades, como a capacidade de escrever resumos de notícias.

Isto significa que grandes modelos de linguagem têm fortes capacidades de generalização, mas também significa que
Grandes modelos de linguagem serão potencialmente autônomos
. Este artigo apresenta então resultados experimentais para diversas áreas independentes listadas pelo autor.

Comparado com o artigo do GPT que mencionava apenas o Large Dataset, a descrição do LLM (Large Language Model) começou a aparecer no artigo do GPT-2.


Interpretação do texto original do artigo

Endereço do artigo original: https://cdn.openai.com/better-language-models/language_models_are_uns