Technologieaustausch

„Deep Analysis“ ChatGPT2: Sprachmodell für unbeaufsichtigtes Multitasking-Lernen (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zusammenfassung des Papiers

Das Folgende ist meine persönliche Zusammenfassung nach dem Lesen des gesamten Artikels, der den Hauptinhalt des ChatGPT-2-Artikels enthält. Sie können nur das Kapitel [Zusammenfassung des Artikels] lesen.

Datensatz

Ich habe einen hausgemachten Webcrawler erstellt. Einige der gecrawlten Webseiten stammen von sozialen Plattformen.endgültig generiert
WebText-Datensatz
, mit 45 Millionen Links. Der andere Teil stammt von Nachrichten-Websites (Stand Dezember 2017). Das Gesamtdatenvolumen beträgt 8.000.000 Artikel mit insgesamt 40 GB Textinhalt.In dem Artikel wurde auch erwähnt, dass Texte wie Wikipedia und andere ebenfalls im Trainingsdatensatz enthalten sind
Millionen Menschen auf der ganzen Welt nehmen daran teil
um den für das GPT-2-Training verwendeten Datensatz zu erstellen und zu bereinigen.

Eingabedarstellung

entworfen a
Hybride Eingabedarstellung, die Darstellung auf Wortebene und Darstellung auf Byteebene kombiniert
. Bei früheren Bibliotheken auf Wortebene wurde eine große Anzahl wiederholter Wörter entfernt und eine Darstellung auf Byteebene eingeführt, um die Generalisierungsfähigkeiten zu verbessern.

Die Darstellung auf Wortebene hat Vorteile von vornherein und die Darstellung auf Byteebene hat Vorteile bei der Verallgemeinerung.

Modell

Für GPT1 wurden einige Änderungen vorgenommen:

1. Verschieben Sie die Ebenennormalisierung zum Eingang jedes Unterblocks.

2. Fügen Sie nach dem Selbstaufmerksamkeitsblock eine zusätzliche Ebenennormalisierung hinzu.

3. Die Initialisierungsmethode wurde verbessert (während der Initialisierung wird das Gewicht der Restschicht um ein Vielfaches von 1/√N erweitert, N ist die Anzahl der Restschichten).

4. Wörterbucherweiterung, Wortsegmentierungserweiterung, Befehlssatzerweiterung und Stapelverarbeitungsgrößenerweiterung.

5.GPT enthält 117000000 Parameter,
GPT-2 enthält 1542000000 Parameter

Experiment

Da wir nur einmal trainieren, aber die Leistung des Modells in verschiedenen Unterteilungen beobachten möchten, können alle Experimente als klassifiziert werden
Zero-Shot-Lernen

ProbeartikelWelcher Aspekt des Modells wird getestet?Testergebnisse
KinderbuchIdentifizieren Sie verschiedene Arten von VokabelnACC verbesserte sich von 85,7 auf 93,3
LAMBADA-TestDie Fähigkeit, lange Abhängigkeiten im Text zu identifizierenPPL99,8 auf 8,63 reduziert
Winograd Schema Challengevernünftiges Denken63,7 % auf 70,7 % gestiegen
LeseverständnisDas Modell muss über bestimmte Speicherkapazitäten verfügen4 Tests und 3 aktualisierte historische Aufzeichnungen
ZusammenfassungDie Möglichkeit, Zusammenfassungen von Nachrichtenartikeln zu extrahierenIm Einklang mit historischen Ergebnissen
übersetzenÜbersetzungsfunktionen des automatischen Lernens großer ModelleDie englische Übersetzung ist schlecht, während die französische Übersetzung das Benchmark-Niveau erreicht.
Fragen und AntwortenDie Fähigkeit eines Modells, plausible Fragen richtig zu beantwortenGenauigkeit um das 5,3-fache erhöht
Zusammenfassen

Der Kerninhalt des GPT-2-Papiers lässt sich in einem Satz zusammenfassen: Das heißt
Basierend auf dem GPT-Modell erhöhte der Autor die Modellgröße und die Größe des Trainingsdatensatzes und stellte fest, dass GPT-2 sich automatisch an das Lernen von Aufgabenzielen in verschiedenen Bereichen des NLP anpassen und diese abschließen kann.

Beispielsweise geben wir Datensätze aus täglichen Konversationstexten und Nachrichtenberichtstexten gleichzeitig in ein festes Sprachmodell ein, und dieser Datensatz ist groß genug, das Modell ist groß genug und die Trainingszeit ist lang genug. Das endgültige Modell wird in der Lage sein, verschiedene Szenarien täglicher Gespräche und Nachrichtenberichte zu unterscheiden. Darüber hinaus wird das Modell automatisch über einige neue Funktionen verfügen, beispielsweise die Möglichkeit, Nachrichtenzusammenfassungen zu verfassen.

Das bedeutet, dass große Sprachmodelle über starke Generalisierungsfähigkeiten verfügen, aber das bedeutet auch
Große Sprachmodelle werden potenziell autonom sein
. Anschließend werden in diesem Artikel experimentelle Ergebnisse für mehrere vom Autor aufgeführte unabhängige Bereiche vorgestellt.

Im Vergleich zum GPT-Artikel, in dem nur große Datensätze erwähnt wurden, tauchte im GPT-2-Artikel erstmals die Beschreibung von LLM (Large Language Model) auf.


Interpretation des Originaltextes der Arbeit

Ursprüngliche Papieradresse: https://cdn.openai.com/better-Language-Models/Language_Models_are_uns