Evolution des Sprachmodells: eine Reise von NLP zu LLM

2024-07-12

Im riesigen Universum der künstlichen Intelligenz war die Verarbeitung natürlicher Sprache (NLP) schon immer ein Bereich voller Herausforderungen und Chancen. Mit der Weiterentwicklung der Technologie haben wir eine Entwicklung von traditionellen Regeln über statistisches maschinelles Lernen bis hin zu Deep Learning und vorab trainierten Modellen erlebt. Heute stehen wir an der Schwelle zu großen Sprachmodellen (LLMs), die die Art und Weise, wie wir mit Maschinen kommunizieren, neu definieren. Dieser Artikel befasst sich mit der Entwicklungsgeschichte, der technischen Roadmap und den Auswirkungen von LLM auf den zukünftigen KI-Bereich.

Einführung

Das Ziel der Verarbeitung natürlicher Sprache (NLP) besteht darin, Maschinen in die Lage zu versetzen, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen. Die Entwicklung dieses Fachgebiets hat mehrere wichtige Phasen durchlaufen, von denen jede einen Sprung in der Tiefe des Sprachverständnisses bedeutete. Von frühen regelbasierten Systemen über statistische Lernmethoden und Deep-Learning-Modelle bis hin zu den heutigen Large Language Models (LLM) ist jeder Schritt eine Transzendenz der vorherigen Stufe.
Fügen Sie hier eine Bildbeschreibung ein

Von Regeln zu Statistiken: frühe Erkundungen im NLP

Regelphase (1956–1992)

In den Anfängen des NLP verließen sich Forscher bei der Verarbeitung von Sprache auf handgeschriebene Regeln. Der Technologie-Stack umfasst in dieser Phase endliche Automaten und regelbasierte Systeme. Apertium ist beispielsweise ein regelbasiertes maschinelles Übersetzungssystem, das zeigt, wie frühe Forscher eine automatische Übersetzung von Sprachen erreichen können, indem sie Wörterbücher manuell organisieren und Regeln schreiben.
Fügen Sie hier eine Bildbeschreibung ein

Phase des statistischen maschinellen Lernens (1993–2012)

Im Laufe der Zeit begannen Forscher, sich statistischen Lernmethoden zuzuwenden und verwendeten Werkzeuge wie Support-Vektor-Maschinen (SVM), Hidden-Markov-Modelle (HMM), Maximum-Entropie-Modelle (MaxEnt) und bedingte Zufallsfelder (CRF). Diese Phase ist durch die Kombination einer kleinen Menge manuell gekennzeichneter Domänendaten und manueller Feature-Entwicklung gekennzeichnet und markiert den Übergang von handgeschriebenen Regeln zu Maschinen, die automatisch Wissen aus Daten lernen.
Fügen Sie hier eine Bildbeschreibung ein

Durchbrüche im Deep Learning: Eine neue Ära eröffnen

Deep-Learning-Phase (2013–2018)

Das Aufkommen des Deep Learning hat revolutionäre Veränderungen im NLP mit sich gebracht. Die durch Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention und Embedding repräsentierten Technologien ermöglichen es dem Modell, größere Datensätze nahezu ohne Aufwand zu verarbeiten. Das neuronale maschinelle Übersetzungssystem von Google (2016) ist ein repräsentatives Werk dieser Phase.
Fügen Sie hier eine Bildbeschreibung ein

Der Aufstieg vorab trainierter Modelle: Selbstentdeckung von Wissen

Vorbereitungsphase (2018–2022)

Das Aufkommen vorab trainierter Modelle markiert einen weiteren Sprung im Bereich NLP. Der Technologie-Stack mit Transformer und Aufmerksamkeitsmechanismus als Kern kombiniert riesige, unbeschriftete Daten für selbstüberwachtes Lernen, generiert allgemeines Wissen und passt sich dann durch Feinabstimmung an bestimmte Aufgaben an. Die Variabilität dieser Phase ist sehr hoch, da sie den Bereich der verfügbaren Daten von beschrifteten Daten auf unbeschriftete Daten erweitert.
Fügen Sie hier eine Bildbeschreibung ein

Eine neue Ära des LLM: die Verschmelzung von Intelligenz und Vielseitigkeit

LLM-Stufe (2023-?)

LLM stellt die neueste Entwicklung von Sprachmodellen dar, die normalerweise eine Decoder-basierte Architektur in Kombination mit Transformer und Reinforcement Learning Human Feedback (RLHF) verwenden. Diese Phase ist durch einen zweistufigen Prozess gekennzeichnet: Vorschulung und Ausrichtung auf den Menschen. In der Vortrainingsphase werden umfangreiche unbeschriftete Daten und Domänendaten verwendet, um durch selbstüberwachtes Lernen Wissen zu generieren. In der Phase der menschlichen Ausrichtung kann sich das Modell durch die Ausrichtung von Nutzungsgewohnheiten und Werten an verschiedene Aufgaben anpassen.
Fügen Sie hier eine Bildbeschreibung ein
Wenn wir auf die verschiedenen Entwicklungsstadien zurückblicken, können wir folgende Trends erkennen:

Daten: Von Daten zu Wissen werden immer mehr Daten genutzt/Zukunft:Mehr Textdaten, mehr andere Formulardaten→beliebige Daten
Algorithmus: Die Ausdrucksfähigkeit wird immer stärker; die Fähigkeit zum unabhängigen Lernen wird immer stärker;Zukunft:Transformer reicht derzeit aus, neues Modell (Lerneffizienz sollte betont werden)?→AGI?
Mensch-Maschine-Beziehung: Zurück vom Ausbilder zum Vorgesetzten/Zukunft:Mensch-Maschine-Kollaboration, maschinelles Lernen von Menschen→Menschliches Lernen von Maschinen?→Maschinen erweitern die Grenzen des menschlichen Wissens

Fügen Sie hier eine Bildbeschreibung ein

LLM-Technologieentwicklungsroute: vielfältige Wege

In den letzten Jahren hat die Entwicklung der LLM-Technologie vielfältige Wege aufgezeigt, darunter den BERT-Modus, den GPT-Modus und den T5-Modus usw. Jeder Modus hat seine eigenen Eigenschaften und anwendbaren Szenarien.
Fügen Sie hier eine Bildbeschreibung ein

BERT-Modus (nur Encoder)

Das BERT-Modell eignet sich für Aufgaben zum Verstehen natürlicher Sprache durch einen zweistufigen Prozess der Vorschulung des bidirektionalen Sprachmodells und der Feinabstimmung der Aufgabe (Vorschulung des bidirektionalen Sprachmodells + Feinabstimmung der Aufgabe). Das BERT-Vortraining extrahiert allgemeines Wissen aus allgemeinen Daten, während die Feinabstimmung Domänenwissen aus Domänendaten extrahiert.
Fügen Sie hier eine Bildbeschreibung ein
Geeignete Aufgabenszenarien: besser geeignet für das Verständnis natürlicher Sprache, spezifische Aufgaben in einem bestimmten Szenario, spezialisiert und leicht;

GPT-Modus (nur Decoder)

Der GPT-Modus wurde aus dem Vortraining des Einweg-Sprachmodells und der Null-Schuss-/Wenig-Schuss-Eingabeaufforderung oder -Anweisung (Einweg-Sprachmodell-Vortraining + Null-Schuss-/Wenig-Schuss-Eingabeaufforderung/Anleitung) entwickelt und ist für natürliche Zwecke geeignet Sprachgenerierung. GPT-Modus-Modelle sind in der Regel die größten verfügbaren LLMs und können ein breiteres Aufgabenspektrum bewältigen.
Fügen Sie hier eine Bildbeschreibung ein
Anwendbare Szenarien: besser geeignet für Aufgaben zur Generierung natürlicher Sprache. Derzeit sind die größten LLMs alle in diesem Modus: GPT-Serie, PaLM, LaMDA ..., der GPT-Modus wird für Generierungsaufgaben/allgemeine Modelle empfohlen.

T5-Modus (Encoder-Decoder)

Der T5-Modus kombiniert die Eigenschaften von BERT und GPT und eignet sich für Generierungs- und Verständnisaufgaben. Die Lückenfüllaufgabe im T5-Modus (Span Corruption) ist eine effektive Vortrainingsmethode, die bei Aufgaben zum Verstehen natürlicher Sprache gute Ergebnisse liefert. Zwei Phasen (einseitiges Sprachmodell vor dem Training + hauptsächlich Feinabstimmung)
Fügen Sie hier eine Bildbeschreibung ein
Eigenschaften: Sieht aus wie GPT, sieht aus wie Bert
Anwendbare Szenarien: Sowohl die Generierung als auch das Verstehen sind akzeptabel. Viele große LLMs in China übernehmen diese Methode, wenn es sich um eine Aufgabe zum Verstehen natürlicher Sprache handelt , wird empfohlen, den T5-Modus zu verwenden;
Fügen Sie hier eine Bildbeschreibung ein

Warum sind sehr große LLMs im GPT-Modus?

Super LLM: Null-Schuss-/wenige Schuss-/Anweisungseffekte anstreben
Aktuelle Forschungsergebnisse

(Wenn die Modellgröße klein ist):

Kategorie für das Verständnis natürlicher Sprache: Der T5-Modus funktioniert am besten.
Klasse zur Generierung natürlicher Sprache: Der GPT-Modus funktioniert am besten.
Zero Shot: Der GPT-Modus funktioniert am besten.
Wenn nach Pretrain eine Feinabstimmung für mehrere Aufgaben eingeführt wird, funktioniert der T5-Modus besser (die Schlussfolgerung ist fraglich: Der aktuelle experimentelle Encoder-Decoder verfügt über die doppelte Anzahl an Nur-Decoder-Parametern. Ist die Schlussfolgerung zuverlässig?)

Aktuelle Forschungsergebnisse (sehr groß angelegt):
Tatsache: Fast alle LLM-Modelle über 100 B verwenden den GPT-Modus

möglicher Grund:
1. Bidirektionale Aufmerksamkeit im Encoder-Decoder beschädigt die Null-Schuss-Fähigkeit (Überprüfen)
2. Die Encoder-Decoder-Struktur kann beim Generieren von Token nur Aufmerksamkeit für den High-Level-Encoder bereitstellen. Die Nur-Decoder-Struktur kann beim Generieren von Token Schicht für Schicht Aufmerksamkeit bereitstellen, und die Informationen sind feinkörniger.
3. Encoder-Decoder-Züge „füllen die Lücken“ und generieren das letzte Wort. Es besteht eine Inkonsistenz. Die Trainings- und Generierungsmethoden nur für den Decoder sind konsistent.

Herausforderungen und Chancen sehr großer LLMs

Mit zunehmender Größe des Modells stehen Forscher vor der Herausforderung, den Parameterraum effektiv zu nutzen. Untersuchungen zum Chinchilla-Modell zeigen, dass der aktuelle LLM-Maßstab bei ausreichenden Daten möglicherweise größer als der ideale Maßstab ist und es zu einer Verschwendung von Parameterraum kommt. Das Skalierungsgesetz weist jedoch auch darauf hin, dass umso mehr Daten vorhanden sind, je größer der Modellmaßstab ist Je angemessener das Training ist, desto besser ist die Wirkung des LLM-Modells. Eine praktikablere Idee ist: Machen Sie es zuerst klein (GPT 3 sollte nicht so groß sein) und machen Sie es dann groß (nutzen Sie die Modellparameter vollständig aus und vergrößern Sie es dann weiter).
Fügen Sie hier eine Bildbeschreibung ein

Da multimodales LLM umfassendere Fähigkeiten zur Wahrnehmung der realen Umgebung erfordert, werden natürlich auch höhere Anforderungen an die LLM-Parameter gestellt.
Multimodales LLM: visueller Input (Bilder, Videos), auditiver Input (Audio), taktiler Input (Druck)
Fügen Sie hier eine Bildbeschreibung ein
vor Problemen stehen: Multimodales LLM sieht ziemlich gut aus und basiert stark auf manuell organisierten großen Datensätzen.

Beispiel: ALIGN: 1,8B Grafiken und Text/LAION: 5,8B Grafik- und Textdaten (gefiltert nach CLIP, derzeit die größten Grafik- und Textdaten) Fliegen derzeit Text mit Bildern?

Bildverarbeitung: Der technische Weg der Selbstüberwachung wird versucht, war aber noch nicht erfolgreich (vergleichendes Lernen/MAE)/wenn er erfolgreich umgesetzt werden kann, wird es ein weiterer großer technologischer Durchbruch im Bereich der KI sein;

Wenn es gelöst werden kann, wird erwartet, dass einige aktuelle Bildverständnisaufgaben (semantische Segmentierung/Erkennung usw.) in LLM integriert werden und verschwinden.

Fügen Sie hier eine Bildbeschreibung ein

Verbessern Sie die komplexen Denkfähigkeiten von LLM

Obwohl das aktuelle LLM über bestimmte einfache Argumentationsfunktionen verfügt, weist es immer noch Mängel bei der komplexen Argumentation auf. Beispielsweise bleiben Aufgaben wie das Addieren mehrstelliger Zahlen für LLM eine Herausforderung. Forscher erforschen, wie sich komplexe Denkfähigkeiten durch technische Mittel wie die semantische Zerlegung in kleinere Modelle destillieren lassen.
Fügen Sie hier eine Bildbeschreibung ein
Natürlich lässt sich dieses Problem auch durch Kapazitäts-Outsourcing umgehen, beispielsweise durch die Kombination mit Tools: Rechenleistung (externer Rechner), neue Informationsabfrage (Suchmaschine) und andere Fähigkeiten werden mit Hilfe externer Tools ergänzt.
Fügen Sie hier eine Bildbeschreibung ein

Interaktion zwischen LLM und der physischen Welt

Das Konzept der verkörperten Intelligenz kombiniert LLM mit Robotik und nutzt Reinforcement Learning, um verkörperte Intelligenz durch Interaktion mit der physischen Welt zu erlangen. . Beispielsweise kombiniert das PaLM-E-Modell von Google 540 Milliarden PaLM und 22 Milliarden ViT und demonstriert so das Potenzial von LLM in einer multimodalen Umgebung.
Fügen Sie hier eine Bildbeschreibung ein

Andere Forschungsrichtungen

Erwerb von neuem Wissen: Derzeit gibt es gewisse Schwierigkeiten, aber es gibt auch einige Methoden (LLM+Retrieval)
Korrektur alter Erkenntnisse: Derzeit gibt es einige Forschungsergebnisse, die noch optimiert werden müssen
Integration von privatem Domänenwissen: Feinabstimmung?
Besseres Verständnis der Befehle: Muss noch optimiert werden (schwerer Unsinn)
Reduzierung der Trainingsinferenzkosten: schnelle Entwicklung in den nächsten ein bis zwei Jahren
Aufbau eines chinesischen Bewertungsdatensatzes: Ein Lackmustest der Fähigkeiten. Derzeit gibt es einige Bewertungssätze auf Englisch, wie z. B. HELM/BigBench usw., es mangelt jedoch an Datensätzen zur Bewertung mehrerer Aufgaben, hoher Schwierigkeitsgrade und mehrerer Winkel auf Chinesisch.

Abschluss

In diesem Artikel werden die Entwicklungsgeschichte, die technische Roadmap und ihre Auswirkungen auf den zukünftigen KI-Bereich von LLM eingehend untersucht. Die Entwicklung von LLM ist nicht nur ein technologischer Fortschritt, sondern auch eine tiefgreifende Reflexion unserer Maschinenverständnisfähigkeiten. Von Regeln über Statistiken bis hin zu Deep Learning und Pre-Training bietet uns jeder Schritt neue Perspektiven und Werkzeuge. Heute stehen wir an der Schwelle einer neuen Ära groß angelegter Sprachmodelle und stehen vor beispiellosen Chancen und Herausforderungen.

Technologieaustausch