"Analyse approfondie" ChatGPT2 : modèle linguistique pour l'apprentissage multitâche non supervisé (2019)

2024-07-12

Résumé papier

Ce qui suit est mon résumé personnel après avoir lu l'intégralité du document, qui contient le contenu principal de l'article ChatGPT-2. Vous ne pouvez lire que le chapitre [Résumé du papier].

base de données

J'ai créé un robot d'exploration Web fait maison. Certaines des pages Web explorées proviennent de plateformes sociales. Ces pages Web sont filtrées manuellement.final généré
Ensemble de données WebText
, contenant 45 millions de liens. L'autre partie provient des sites Web d'information. En décembre 2017, le volume total de données atteignait 8 000 000 d'articles, avec un total de 40 Go de contenu textuel.L'article mentionne également que des textes comprenant Wikipédia et d'autres textes sont également inclus dans l'ensemble de données de formation, par
Des millions de personnes dans le monde participent
pour créer et nettoyer l'ensemble de données utilisé pour la formation GPT-2.

Représentation d'entrée

conçu un
Représentation d'entrée hybride qui combine une représentation au niveau des mots et une représentation au niveau des octets
. Pour les anciennes bibliothèques au niveau mot, un grand nombre de mots répétés ont été supprimés et une représentation au niveau octet a été introduite pour améliorer les capacités de généralisation.

La représentation au niveau mot présente des avantages a priori, et la représentation au niveau octet présente des avantages en matière de généralisation.

Modèle

Certaines modifications ont été apportées pour GPT1 :

1. Déplacez la normalisation des couches vers l’entrée de chaque sous-bloc.

2. Ajoutez une normalisation de couche supplémentaire après le bloc d'auto-attention.

3. Amélioration de la méthode d'initialisation (lors de l'initialisation, le poids de la couche résiduelle est augmenté d'un multiple de 1/√N, N est le nombre de couches résiduelles).

4. Extension du dictionnaire, extension de la segmentation des mots, extension du jeu d'instructions et extension de la taille du traitement par lots.

5.GPT contient 117000000 paramètres,
GPT-2 contient 1542000000 paramètres
。

expérience

Étant donné que nous ne nous entraînons qu'une seule fois, mais que nous souhaitons observer les performances du modèle dans différentes subdivisions, toutes les expériences peuvent être classées comme suit :
Apprentissage sans tir
。

Articles de test	Quel aspect du modèle est testé ?	Résultats de test
Les livres pour enfants	Identifier différents types de vocabulaire	ACC amélioré de 85,7 à 93,3
Essai LAMBADA	La capacité d'identifier les longues dépendances dans le texte	PPL99,8 réduit à 8,63
Défi du schéma Winograd	raisonnement de bon sens	63,7% augmenté à 70,7%
compréhension écrite	Le modèle doit avoir certaines capacités de mémoire	4 tests et 3 enregistrements historiques actualisés
Résumé	La possibilité d'extraire des résumés d'articles de presse	Conformément aux résultats historiques
traduire	Capacités de traduction de l’apprentissage automatique de grands modèles	La traduction anglaise est médiocre, tandis que la traduction française atteint le niveau de référence.
Questions et réponses	La capacité d’un modèle à répondre correctement à des questions plausibles	Précision augmentée de 5,3 fois

Résumer

Le contenu principal du document GPT-2 peut être résumé en une phrase :
Sur la base du modèle GPT, l'auteur a augmenté la taille du modèle et la taille de l'ensemble de données de formation, et a découvert que GPT-2 peut automatiquement s'adapter et compléter l'apprentissage des objectifs de tâche dans différents domaines de la PNL.
。

Par exemple, nous saisissons simultanément des ensembles de données de texte de conversation quotidienne et de texte de reportage dans un modèle de langage fixe, et cet ensemble de données est suffisamment grand, le modèle est suffisamment grand et le temps de formation est suffisamment long. Le modèle final aura la capacité de distinguer différents scénarios de conversations quotidiennes et de reportages d'actualité. De plus, le modèle disposera également automatiquement de nouvelles fonctionnalités, telles que la possibilité de rédiger des résumés d'actualités.

Cela signifie que les grands modèles de langage ont de fortes capacités de généralisation, mais cela signifie également que
Les grands modèles de langage seront potentiellement autonomes
. Cet article présente ensuite des résultats expérimentaux pour plusieurs domaines indépendants répertoriés par l'auteur.

Par rapport à l'article GPT qui ne mentionnait que les grands ensembles de données, la description du LLM (Large Language Model) a commencé à apparaître dans l'article GPT-2.

Interprétation du texte original de l'article

Adresse originale du papier : https://cdn.openai.com/better-langage-models/langage_models_are_uns

Partage de technologie