2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Im riesigen Universum der künstlichen Intelligenz war die Verarbeitung natürlicher Sprache (NLP) schon immer ein Bereich voller Herausforderungen und Chancen. Mit der Weiterentwicklung der Technologie haben wir eine Entwicklung von traditionellen Regeln über statistisches maschinelles Lernen bis hin zu Deep Learning und vorab trainierten Modellen erlebt. Heute stehen wir an der Schwelle zu großen Sprachmodellen (LLMs), die die Art und Weise, wie wir mit Maschinen kommunizieren, neu definieren. Dieser Artikel befasst sich mit der Entwicklungsgeschichte, der technischen Roadmap und den Auswirkungen von LLM auf den zukünftigen KI-Bereich.
Das Ziel der Verarbeitung natürlicher Sprache (NLP) besteht darin, Maschinen in die Lage zu versetzen, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen. Die Entwicklung dieses Fachgebiets hat mehrere wichtige Phasen durchlaufen, von denen jede einen Sprung in der Tiefe des Sprachverständnisses bedeutete. Von frühen regelbasierten Systemen über statistische Lernmethoden und Deep-Learning-Modelle bis hin zu den heutigen Large Language Models (LLM) ist jeder Schritt eine Transzendenz der vorherigen Stufe.
In den Anfängen des NLP verließen sich Forscher bei der Verarbeitung von Sprache auf handgeschriebene Regeln. Der Technologie-Stack umfasst in dieser Phase endliche Automaten und regelbasierte Systeme. Apertium ist beispielsweise ein regelbasiertes maschinelles Übersetzungssystem, das zeigt, wie frühe Forscher eine automatische Übersetzung von Sprachen erreichen können, indem sie Wörterbücher manuell organisieren und Regeln schreiben.
Im Laufe der Zeit begannen Forscher, sich statistischen Lernmethoden zuzuwenden und verwendeten Werkzeuge wie Support-Vektor-Maschinen (SVM), Hidden-Markov-Modelle (HMM), Maximum-Entropie-Modelle (MaxEnt) und bedingte Zufallsfelder (CRF). Diese Phase ist durch die Kombination einer kleinen Menge manuell gekennzeichneter Domänendaten und manueller Feature-Entwicklung gekennzeichnet und markiert den Übergang von handgeschriebenen Regeln zu Maschinen, die automatisch Wissen aus Daten lernen.
Das Aufkommen des Deep Learning hat revolutionäre Veränderungen im NLP mit sich gebracht. Die durch Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention und Embedding repräsentierten Technologien ermöglichen es dem Modell, größere Datensätze nahezu ohne Aufwand zu verarbeiten. Das neuronale maschinelle Übersetzungssystem von Google (2016) ist ein repräsentatives Werk dieser Phase.
Das Aufkommen vorab trainierter Modelle markiert einen weiteren Sprung im Bereich NLP. Der Technologie-Stack mit Transformer und Aufmerksamkeitsmechanismus als Kern kombiniert riesige, unbeschriftete Daten für selbstüberwachtes Lernen, generiert allgemeines Wissen und passt sich dann durch Feinabstimmung an bestimmte Aufgaben an. Die Variabilität dieser Phase ist sehr hoch, da sie den Bereich der verfügbaren Daten von beschrifteten Daten auf unbeschriftete Daten erweitert.
LLM stellt die neueste Entwicklung von Sprachmodellen dar, die normalerweise eine Decoder-basierte Architektur in Kombination mit Transformer und Reinforcement Learning Human Feedback (RLHF) verwenden. Diese Phase ist durch einen zweistufigen Prozess gekennzeichnet: Vorschulung und Ausrichtung auf den Menschen. In der Vortrainingsphase werden umfangreiche unbeschriftete Daten und Domänendaten verwendet, um durch selbstüberwachtes Lernen Wissen zu generieren. In der Phase der menschlichen Ausrichtung kann sich das Modell durch die Ausrichtung von Nutzungsgewohnheiten und Werten an verschiedene Aufgaben anpassen.
Wenn wir auf die verschiedenen Entwicklungsstadien zurückblicken, können wir folgende Trends erkennen:
Daten: Von Daten zu Wissen werden immer mehr Daten genutzt/Zukunft:Mehr Textdaten, mehr andere Formulardaten→beliebige Daten
Algorithmus: Die Ausdrucksfähigkeit wird immer stärker; die Fähigkeit zum unabhängigen Lernen wird immer stärker;Zukunft:Transformer reicht derzeit aus, neues Modell (Lerneffizienz sollte betont werden)?→AGI?
Mensch-Maschine-Beziehung: Zurück vom Ausbilder zum Vorgesetzten/Zukunft:Mensch-Maschine-Kollaboration, maschinelles Lernen von Menschen→Menschliches Lernen von Maschinen?→Maschinen erweitern die Grenzen des menschlichen Wissens
In den letzten Jahren hat die Entwicklung der LLM-Technologie vielfältige Wege aufgezeigt, darunter den BERT-Modus, den GPT-Modus und den T5-Modus usw. Jeder Modus hat seine eigenen Eigenschaften und anwendbaren Szenarien.
Das BERT-Modell eignet sich für Aufgaben zum Verstehen natürlicher Sprache durch einen zweistufigen Prozess der Vorschulung des bidirektionalen Sprachmodells und der Feinabstimmung der Aufgabe (Vorschulung des bidirektionalen Sprachmodells + Feinabstimmung der Aufgabe). Das BERT-Vortraining extrahiert allgemeines Wissen aus allgemeinen Daten, während die Feinabstimmung Domänenwissen aus Domänendaten extrahiert.
Geeignete Aufgabenszenarien: besser geeignet für das Verständnis natürlicher Sprache, spezifische Aufgaben in einem bestimmten Szenario, spezialisiert und leicht;
Der GPT-Modus wurde aus dem Vortraining des Einweg-Sprachmodells und der Null-Schuss-/Wenig-Schuss-Eingabeaufforderung oder -Anweisung (Einweg-Sprachmodell-Vortraining + Null-Schuss-/Wenig-Schuss-Eingabeaufforderung/Anleitung) entwickelt und ist für natürliche Zwecke geeignet Sprachgenerierung. GPT-Modus-Modelle sind in der Regel die größten verfügbaren LLMs und können ein breiteres Aufgabenspektrum bewältigen.
Anwendbare Szenarien: besser geeignet für Aufgaben zur Generierung natürlicher Sprache. Derzeit sind die größten LLMs alle in diesem Modus: GPT-Serie, PaLM, LaMDA ..., der GPT-Modus wird für Generierungsaufgaben/allgemeine Modelle empfohlen.
Der T5-Modus kombiniert die Eigenschaften von BERT und GPT und eignet sich für Generierungs- und Verständnisaufgaben. Die Lückenfüllaufgabe im T5-Modus (Span Corruption) ist eine effektive Vortrainingsmethode, die bei Aufgaben zum Verstehen natürlicher Sprache gute Ergebnisse liefert. Zwei Phasen (einseitiges Sprachmodell vor dem Training + hauptsächlich Feinabstimmung)
Eigenschaften: Sieht aus wie GPT, sieht aus wie Bert
Anwendbare Szenarien: Sowohl die Generierung als auch das Verstehen sind akzeptabel. Viele große LLMs in China übernehmen diese Methode, wenn es sich um eine Aufgabe zum Verstehen natürlicher Sprache handelt , wird empfohlen, den T5-Modus zu verwenden;
Super LLM: Null-Schuss-/wenige Schuss-/Anweisungseffekte anstreben
Aktuelle Forschungsergebnisse
(Wenn die Modellgröße klein ist):
Aktuelle Forschungsergebnisse (sehr groß angelegt):
Tatsache: Fast alle LLM-Modelle über 100 B verwenden den GPT-Modus
möglicher Grund:
1. Bidirektionale Aufmerksamkeit im Encoder-Decoder beschädigt die Null-Schuss-Fähigkeit (Überprüfen)
2. Die Encoder-Decoder-Struktur kann beim Generieren von Token nur Aufmerksamkeit für den High-Level-Encoder bereitstellen. Die Nur-Decoder-Struktur kann beim Generieren von Token Schicht für Schicht Aufmerksamkeit bereitstellen, und die Informationen sind feinkörniger.
3. Encoder-Decoder-Züge „füllen die Lücken“ und generieren das letzte Wort. Es besteht eine Inkonsistenz. Die Trainings- und Generierungsmethoden nur für den Decoder sind konsistent.
Mit zunehmender Größe des Modells stehen Forscher vor der Herausforderung, den Parameterraum effektiv zu nutzen. Untersuchungen zum Chinchilla-Modell zeigen, dass der aktuelle LLM-Maßstab bei ausreichenden Daten möglicherweise größer als der ideale Maßstab ist und es zu einer Verschwendung von Parameterraum kommt. Das Skalierungsgesetz weist jedoch auch darauf hin, dass umso mehr Daten vorhanden sind, je größer der Modellmaßstab ist Je angemessener das Training ist, desto besser ist die Wirkung des LLM-Modells. Eine praktikablere Idee ist: Machen Sie es zuerst klein (GPT 3 sollte nicht so groß sein) und machen Sie es dann groß (nutzen Sie die Modellparameter vollständig aus und vergrößern Sie es dann weiter).
Da multimodales LLM umfassendere Fähigkeiten zur Wahrnehmung der realen Umgebung erfordert, werden natürlich auch höhere Anforderungen an die LLM-Parameter gestellt.
Multimodales LLM: visueller Input (Bilder, Videos), auditiver Input (Audio), taktiler Input (Druck)
vor Problemen stehen: Multimodales LLM sieht ziemlich gut aus und basiert stark auf manuell organisierten großen Datensätzen.
Beispiel: ALIGN: 1,8B Grafiken und Text/LAION: 5,8B Grafik- und Textdaten (gefiltert nach CLIP, derzeit die größten Grafik- und Textdaten) Fliegen derzeit Text mit Bildern?
Bildverarbeitung: Der technische Weg der Selbstüberwachung wird versucht, war aber noch nicht erfolgreich (vergleichendes Lernen/MAE)/wenn er erfolgreich umgesetzt werden kann, wird es ein weiterer großer technologischer Durchbruch im Bereich der KI sein;
Wenn es gelöst werden kann, wird erwartet, dass einige aktuelle Bildverständnisaufgaben (semantische Segmentierung/Erkennung usw.) in LLM integriert werden und verschwinden.
Obwohl das aktuelle LLM über bestimmte einfache Argumentationsfunktionen verfügt, weist es immer noch Mängel bei der komplexen Argumentation auf. Beispielsweise bleiben Aufgaben wie das Addieren mehrstelliger Zahlen für LLM eine Herausforderung. Forscher erforschen, wie sich komplexe Denkfähigkeiten durch technische Mittel wie die semantische Zerlegung in kleinere Modelle destillieren lassen.
Natürlich lässt sich dieses Problem auch durch Kapazitäts-Outsourcing umgehen, beispielsweise durch die Kombination mit Tools: Rechenleistung (externer Rechner), neue Informationsabfrage (Suchmaschine) und andere Fähigkeiten werden mit Hilfe externer Tools ergänzt.
Das Konzept der verkörperten Intelligenz kombiniert LLM mit Robotik und nutzt Reinforcement Learning, um verkörperte Intelligenz durch Interaktion mit der physischen Welt zu erlangen. . Beispielsweise kombiniert das PaLM-E-Modell von Google 540 Milliarden PaLM und 22 Milliarden ViT und demonstriert so das Potenzial von LLM in einer multimodalen Umgebung.
In diesem Artikel werden die Entwicklungsgeschichte, die technische Roadmap und ihre Auswirkungen auf den zukünftigen KI-Bereich von LLM eingehend untersucht. Die Entwicklung von LLM ist nicht nur ein technologischer Fortschritt, sondern auch eine tiefgreifende Reflexion unserer Maschinenverständnisfähigkeiten. Von Regeln über Statistiken bis hin zu Deep Learning und Pre-Training bietet uns jeder Schritt neue Perspektiven und Werkzeuge. Heute stehen wir an der Schwelle einer neuen Ära groß angelegter Sprachmodelle und stehen vor beispiellosen Chancen und Herausforderungen.