minhas informações de contato
Correspondência[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A seguir está meu resumo pessoal depois de ler todo o artigo, que contém o conteúdo principal do artigo ChatGPT-2. Você só pode ler o capítulo [Resumo do artigo].
Fiz um rastreador caseiro. Algumas das páginas rastreadas vêm de plataformas sociais. Essas páginas são filtradas manualmente.final gerado
Conjunto de dados WebText
, contendo 45 milhões de links. A outra parte vem de sites de notícias. Em dezembro de 2017, o volume total de dados chega a 8 milhões de artigos, com um total de 40 GB de conteúdo de texto.O artigo também mencionou que textos incluindo a Wikipédia e outros textos também estão incluídos no conjunto de dados de treinamento, por
Milhões de pessoas em todo o mundo participam
para criar e limpar o conjunto de dados usado para treinamento GPT-2.
projetou um
Representação de entrada híbrida que combina representação em nível de palavra e representação em nível de byte
. Para as bibliotecas anteriores em nível de palavra, um grande número de palavras repetidas foi removido e a representação em nível de byte foi introduzida para melhorar as capacidades de generalização.
A representação em nível de palavra tem vantagens a priori, e a representação em nível de byte tem vantagens de generalização.
Algumas modificações foram feitas para GPT1:
1. Mova a normalização da camada para a entrada de cada subbloco.
2. Adicione normalização de camada adicional após o bloco de autoatenção.
3. Melhorou o método de inicialização (durante a inicialização, o peso da camada residual é expandido por um múltiplo de 1/√N, N é o número de camadas residuais).
4. Expansão de dicionário, expansão de segmentação de palavras, expansão de conjunto de instruções e expansão de tamanho de processamento em lote.
5.GPT contém 117000000 parâmetros,
GPT-2 contém 1542000000 parâmetros
。
Como treinamos apenas uma vez, mas queremos observar o desempenho do modelo em várias subdivisões, todos os experimentos podem ser classificados como
Aprendizagem zero
。
Itens de teste | Qual aspecto do modelo é testado? | Resultado dos testes |
---|---|---|
livros infantis | Identifique diferentes tipos de vocabulário | ACC melhorou de 85,7 para 93,3 |
Teste LAMBADA | A capacidade de identificar longas dependências no texto | PPL99.8 reduzido para 8,63 |
Desafio do Esquema Winograd | raciocínio de bom senso | 63,7% aumentaram para 70,7% |
compreensão de leitura | O modelo precisa ter certos recursos de memória | 4 testes e 3 registros históricos atualizados |
Resumo | A capacidade de extrair resumos de artigos de notícias | Em linha com resultados históricos |
traduzir | Capacidades de tradução de aprendizagem automática de modelos grandes | A tradução em inglês é pobre, enquanto a tradução em francês atinge o nível de referência. |
Perguntas e respostas | A capacidade de um modelo de responder corretamente a perguntas plausíveis | Precisão aumentada em 5,3 vezes |
O conteúdo central do artigo GPT-2 pode ser resumido em uma frase: isto é
Com base no modelo GPT, o autor aumentou o tamanho do modelo e o tamanho do conjunto de dados de treinamento e descobriu que o GPT-2 pode se adaptar e completar automaticamente o aprendizado dos objetivos da tarefa em diferentes campos da PNL.
。
Por exemplo, inserimos conjuntos de dados de texto de conversação diária e texto de reportagem em um modelo de idioma fixo ao mesmo tempo, e esse conjunto de dados é grande o suficiente, o modelo é grande o suficiente e o tempo de treinamento é longo o suficiente. O modelo final terá a capacidade de distinguir diferentes cenários de conversas diárias e reportagens noticiosas. Além disso, o modelo também terá automaticamente algumas novas capacidades, como a capacidade de escrever resumos de notícias.
Isto significa que grandes modelos de linguagem têm fortes capacidades de generalização, mas também significa que
Grandes modelos de linguagem serão potencialmente autônomos
. Este artigo apresenta então resultados experimentais para diversas áreas independentes listadas pelo autor.
Comparado com o artigo do GPT que mencionava apenas o Large Dataset, a descrição do LLM (Large Language Model) começou a aparecer no artigo do GPT-2.
Endereço do artigo original: https://cdn.openai.com/better-language-models/language_models_are_uns