2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Ce qui suit est mon résumé personnel après avoir lu l'intégralité du document, qui contient le contenu principal de l'article ChatGPT-2. Vous ne pouvez lire que le chapitre [Résumé du papier].
J'ai créé un robot d'exploration Web fait maison. Certaines des pages Web explorées proviennent de plateformes sociales. Ces pages Web sont filtrées manuellement.final généré
Ensemble de données WebText
, contenant 45 millions de liens. L'autre partie provient des sites Web d'information. En décembre 2017, le volume total de données atteignait 8 000 000 d'articles, avec un total de 40 Go de contenu textuel.L'article mentionne également que des textes comprenant Wikipédia et d'autres textes sont également inclus dans l'ensemble de données de formation, par
Des millions de personnes dans le monde participent
pour créer et nettoyer l'ensemble de données utilisé pour la formation GPT-2.
conçu un
Représentation d'entrée hybride qui combine une représentation au niveau des mots et une représentation au niveau des octets
. Pour les anciennes bibliothèques au niveau mot, un grand nombre de mots répétés ont été supprimés et une représentation au niveau octet a été introduite pour améliorer les capacités de généralisation.
La représentation au niveau mot présente des avantages a priori, et la représentation au niveau octet présente des avantages en matière de généralisation.
Certaines modifications ont été apportées pour GPT1 :
1. Déplacez la normalisation des couches vers l’entrée de chaque sous-bloc.
2. Ajoutez une normalisation de couche supplémentaire après le bloc d'auto-attention.
3. Amélioration de la méthode d'initialisation (lors de l'initialisation, le poids de la couche résiduelle est augmenté d'un multiple de 1/√N, N est le nombre de couches résiduelles).
4. Extension du dictionnaire, extension de la segmentation des mots, extension du jeu d'instructions et extension de la taille du traitement par lots.
5.GPT contient 117000000 paramètres,
GPT-2 contient 1542000000 paramètres
。
Étant donné que nous ne nous entraînons qu'une seule fois, mais que nous souhaitons observer les performances du modèle dans différentes subdivisions, toutes les expériences peuvent être classées comme suit :
Apprentissage sans tir
。
Articles de test | Quel aspect du modèle est testé ? | Résultats de test |
---|---|---|
Les livres pour enfants | Identifier différents types de vocabulaire | ACC amélioré de 85,7 à 93,3 |
Essai LAMBADA | La capacité d'identifier les longues dépendances dans le texte | PPL99,8 réduit à 8,63 |
Défi du schéma Winograd | raisonnement de bon sens | 63,7% augmenté à 70,7% |
compréhension écrite | Le modèle doit avoir certaines capacités de mémoire | 4 tests et 3 enregistrements historiques actualisés |
Résumé | La possibilité d'extraire des résumés d'articles de presse | Conformément aux résultats historiques |
traduire | Capacités de traduction de l’apprentissage automatique de grands modèles | La traduction anglaise est médiocre, tandis que la traduction française atteint le niveau de référence. |
Questions et réponses | La capacité d’un modèle à répondre correctement à des questions plausibles | Précision augmentée de 5,3 fois |
Le contenu principal du document GPT-2 peut être résumé en une phrase :
Sur la base du modèle GPT, l'auteur a augmenté la taille du modèle et la taille de l'ensemble de données de formation, et a découvert que GPT-2 peut automatiquement s'adapter et compléter l'apprentissage des objectifs de tâche dans différents domaines de la PNL.
。
Par exemple, nous saisissons simultanément des ensembles de données de texte de conversation quotidienne et de texte de reportage dans un modèle de langage fixe, et cet ensemble de données est suffisamment grand, le modèle est suffisamment grand et le temps de formation est suffisamment long. Le modèle final aura la capacité de distinguer différents scénarios de conversations quotidiennes et de reportages d'actualité. De plus, le modèle disposera également automatiquement de nouvelles fonctionnalités, telles que la possibilité de rédiger des résumés d'actualités.
Cela signifie que les grands modèles de langage ont de fortes capacités de généralisation, mais cela signifie également que
Les grands modèles de langage seront potentiellement autonomes
. Cet article présente ensuite des résultats expérimentaux pour plusieurs domaines indépendants répertoriés par l'auteur.
Par rapport à l'article GPT qui ne mentionnait que les grands ensembles de données, la description du LLM (Large Language Model) a commencé à apparaître dans l'article GPT-2.
Adresse originale du papier : https://cdn.openai.com/better-langage-models/langage_models_are_uns