Technologieaustausch

Große Sprachmodellanwendung – KI-Engineering-Implementierung

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Die rasante Entwicklung der KI in den letzten Jahren hat tatsächlich große Auswirkungen gebracht. Tatsächlich hat die KI die Grenze jedoch noch nicht vollständig überschritten und ist immer noch nur in einem kleinen Kreis „Eigenwerbung“.Aber es ist ganz anders als vorher.
Dieser Artikel konzentriert sich auf den aktuellen Stand großer Modelle und spricht über Dinge im Zusammenhang mit der technischen Umsetzung. Er basiert auch auf Inspiration und Zusammenfassung.

Ich werde hier nicht zu sehr ins Detail auf die KI selbst eingehen, sondern mich mehr auf Anwendungen auf höherer Ebene konzentrieren.

Überblick über große Sprachmodelle

Wenn wir von einem großen Sprachmodell sprechen, beziehen wir uns auf eine Software, die auf ähnliche Weise wie die menschliche Sprache „sprechen“ kann.Diese Modelle sind erstaunlich – sie sind in der Lage, den Kontext zu erfassen und Antworten zu generieren, die nicht nur kohärent sind, sondern auch den Eindruck erwecken, als kämen sie von echten Menschen
Diese Sprachmodelle funktionieren durch die Analyse großer Textdatenmengen und Lernmuster im Sprachgebrauch.Sie nutzen diese Muster, um Texte zu erzeugen, die kaum von dem zu unterscheiden sind, was Menschen sagen oder schreiben.
Wenn Sie jemals mit einem virtuellen Assistenten gechattet oder mit einem KI-Kundendienstmitarbeiter interagiert haben, haben Sie wahrscheinlich mit einem großen Sprachmodell interagiert, ohne es zu merken. Diese Modelle haben ein breites Anwendungsspektrum, von Chatbots über Sprachübersetzungen bis hin zu Inhalten! Schöpfung und mehr

Was ist ein großes Sprachmodell?

  • Definition : Large Language Model (LLM) ist ein vorab trainiertes NLP-Modell (Natural Language Processing), normalerweise mit Milliarden oder sogar Hunderten von Milliarden Parametern, das in der Lage ist, Text in natürlicher Sprache zu verstehen und zu generieren.Die Trainingsdaten für ein ausgereiftes großes Sprachmodell sind umfangreich.
  • Funktion: Große Sprachmodelle können eine Vielzahl von Sprachaufgaben ausführen, z. B. Textklassifizierung, Stimmungsanalyse, maschinelle Übersetzung, Textzusammenfassung, Frage- und Antwortsysteme usw.
  • technische Grundlage: Basierend auf der Transformer-Architektur, Verwendung des Self-Attention-Mechanismus zur Verarbeitung von Sequenzdaten
  • entwickeln: Von den frühen RNN und LSTM bis hin zu aktuellen Modellen wie BERT und GPT haben sich die Anzahl der Parameter und die Leistung kontinuierlich verbessert.

Was ist maschinelles Lernen?

  • Definition: Maschinelles Lernen ist ein Zweig der künstlichen Intelligenz, der es Computersystemen ermöglicht, aus Daten zu lernen und Entscheidungen oder Vorhersagen zu treffen, ohne explizit programmiert zu werden
  • Typ: Einschließlich überwachtes Lernen, unüberwachtes Lernen, halbüberwachtes Lernen und verstärkendes Lernen
  • Anwendung: Weit verbreitet in der Bilderkennung, Spracherkennung, Empfehlungssystemen, Vorhersageanalyse und anderen Bereichen
  • Schlüssel Konzepte: Funktionsauswahl, Modelltraining, Über- und Unteranpassung, Modellbewertung usw.

Was ist Deep Learning?

  • Definition: Deep Learning ist eine Teilmenge des maschinellen Lernens, die eine neuronale Netzwerkstruktur ähnlich dem menschlichen Gehirn nutzt, um komplexe Datenmuster durch mehrschichtige (tiefe) nichtlineare Transformationen zu lernen.
  • Kernkomponenten: Neuronale Netzwerkschichten, Aktivierungsfunktionen, Verlustfunktionen, Optimierungsalgorithmen.
  • Die Architektur: Einschließlich Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Long Short-Term Memory Network (LSTM) und Transformer (Transformer) usw.
  • Anwendung: Revolutionäre Fortschritte wurden in den Bereichen Bild- und Spracherkennung, Verarbeitung natürlicher Sprache, autonomes Fahren usw. erzielt.

Große Sprachmodelle verstehen

Warum muss ich ein separates Kapitel öffnen, um große Sprachmodelle zu „verstehen“, nachdem ich oben einen Überblick über große Sprachmodelle erhalten habe? Denn dadurch können Sie besser wissen, was ein großes Sprachmodell ist, seine Obergrenze verstehen und es auch können Machen Sie es uns leichter, die Anwendungsschicht besser zu machen.
Zunächst können wir allgemein sagen, dass maschinelles Lernen darin besteht, eine spezielle komplexe „Funktion“ zu finden, die unsere Eingabe in die gewünschte Ausgabe umwandeln kann. Wenn wir beispielsweise erwarten, 1 einzugeben und 5 auszugeben; 2 einzugeben und 10 auszugeben, dann könnte diese Funktion y=2*x sein.Oder wenn wir ein Bild einer Katze eingeben, soll das Wort „Katze“ ausgegeben werden, oder wenn ich „Hallo“ eingebe, soll „Hallo“ usw. ausgegeben werden.

Tatsächlich kann dies im Wesentlichen als mathematisches Problem angesehen werden. Natürlich wird das eigentliche Problem viel komplizierter sein als das obige Beispiel.

Geschichte

1. In der Anfangszeit wollten die Menschen immer Maschinen dazu bringen, wie Menschen zu denken. Damals förderten die Menschen hauptsächlich die „Vogelflugschule“, die auf der Bionik basierte: Wenn Menschen einen Vogel fliegen sahen, lernten sie das Fliegen, indem sie mit ihm flatterten Dann hofften sie, die Maschine dazu zu bringen, dasselbe zu tun. Aber dieser Effekt ist nicht sehr gut. Es gibt kein „Weltwissen“ (Weltwissen ist das Standardwissen in Ihrem Gehirn, das ohne Denken vorhanden ist). ist riesig und es ist schwierig, das Problem der Mehrfachbedeutungen in einem Wort zu lösen.Im Allgemeinen ist es zu komplex, das menschliche Gehirn nachzuahmen, und es ist schwierig, dies einfach mithilfe von Codes und Funktionen zu erreichen.

2. Ära der künstlichen Intelligenz 2.0: datengesteuerte Implementierung von „statistikbasierter künstlicher Intelligenz“. Warum sind nach dem Erscheinen von GPT3 nach einem Regenschauer alle möglichen großen Modelle wie Pilze aus dem Boden geschossen? Tatsächlich beschäftigen sich die meisten Unternehmen schon seit langem mit der Erforschung von KI, aber in den frühen Tagen überquerten alle den Fluss, indem sie die Steine ​​spürten. Obwohl es viele Pläne und Gedanken gab, wagten sie es nicht, ihre Investitionen in das Gestüt zu erhöhen Sie befanden sich alle in einem begrenzten Forschungsbereich. Durch das Aufkommen von GPT3 konnte jeder erkennen, dass eine bestimmte Methode machbar ist, nämlich die Verwendung riesiger Datenmengen zur Berechnung von Statistiken. Bei erfolgreichen Fällen wusste also jeder, dass diese Methode machbar ist begonnen Investitionen erhöhen und diesen Weg gehen

3. Big Data kann das Niveau der maschinellen Intelligenz sprunghaft steigern. Die größte Bedeutung der Nutzung großer Datenmengen besteht darin, dass Computer Dinge erledigen können, die in der Vergangenheit nur Menschen konnten.

  • Kernidee: Basierend auf statistischen Informationen in einer großen Datenmenge „Trainieren Sie Parameter“, um sie an die Ergebnisse anzupassen (die Essenz ist „Statistik“ statt „Bionik“)
  • Hauptvorteile: Mit zunehmender Datenmenge wird sich das System weiter verbessern und immer besser werden;
  • Kernelemente: „Big Data“, massive, mehrdimensionale und umfassende Big Data
  • „Rotes Lernen“ basierend auf massiven, mehrdimensionalen und umfassenden Big Data;
    Durch statistische künstliche Intelligenz werden „Intelligenzprobleme“ in „Datenprobleme“ umgewandelt, was das Rechnen ermöglicht
    Maschinen können „unsichere Probleme“ lösen, indem sie aus Big Data lernen

Das Essenzielle

Der Schlüssel zum Problem wird also zu einer Frage der Wahrscheinlichkeit. Derzeit berechnen große Modelle eine Wahrscheinlichkeit aus massiven Daten, um die höchste Wahrscheinlichkeit für den nächsten Text oder einen bestimmten Textabschnitt in der Mitte zu ermitteln, und geben ihn dann aus.Tatsächlich geht es nicht darum, neue Dinge zu schaffen, sondern um Vernunft.

Fragen Sie ihn zum Beispiel: Wo ist die Hauptstadt Chinas?Das durch den Algorithmus extrahierte Schlüsselwort ist die Hauptstadt Chinas
Dann berechnet das große Modell aus den umfangreichen Daten, dass die Hauptstadt Chinas das wahrscheinlichste Wort ist, gefolgt von Peking, und gibt daher das richtige Ergebnis aus.

Große Modelle sind auf das „Auswendiglernen“ riesiger Datenmengen angewiesen, um aktuelle Fähigkeiten zu erreichen.
Daher ist auch die Datenqualität für das Training großer Modelle sehr wichtig. Gleichzeitig können wir uns fast die Obergrenze großer Modelle vorstellen.

AIGC-System

AIGC (Artificial Intelligence Generated Content) ist eine Technologie, die Algorithmen des maschinellen Lernens nutzt, um automatisch verschiedene Arten von Inhalten zu generieren, darunter Text, Bilder, Audio und Video. Durch die Analyse großer Datenmengen lernen AIGC-Systeme Sprach-, Bild- und Tonmuster, um neue Inhalte zu erstellen, die von Menschen erstellten Inhalten ähneln oder sich sogar nicht von ihnen unterscheiden.
Alle digitalen Arbeiten werden wahrscheinlich von „großen Vorbildern“ unterwandert.
Der Großteil unserer aktuellen Anwendungsschichtarbeit gehört zum AIGC-System
Nach GPT3.5 können große Modelle bereits Tools nutzen.
• Plug-Ins und Netzwerke: Gleichen den Speichermangel des großen Modells selbst aus und markieren den offiziellen Beginn des LLM-Lernens im Umgang mit Werkzeugen
• Funktion: LLM lernt, APIs aufzurufen, um komplexe Aufgaben auszuführen, was die Hauptaufgabe von Back-End-Ingenieuren ist (durch die Erteilung von Gorilla-Anweisungen werden automatisch Diffusions- und andere Modelle aufgerufen, um multimodale Aufgaben wie Zeichnen und Dialoge zu implementieren).
• Lassen Sie das Modell „denken“: Führen Sie große Modelle zu logischen Fähigkeiten. Der Kern liegt in: „Planning Memory Tool“

Umsetzung von KI-Engineering-Projekten

Tatsächlich ist die Umsetzung von KI-Projekten die gleiche wie bei gewöhnlichen Projekten. Der Kern der anfänglichen Projektgründung muss darin bestehen, die Kernprobleme, die das Projekt lösen soll, klar zu verstehen, dann das Denken zu erweitern und dann umzusetzen Bedarfsanalyse, Technologieauswahl usw.Wir sind nicht sehr gut darin, große Modelle für die Forschung auf der Anwendungsebene zu entwerfen. Normalerweise rufen wir APIs direkt auf oder stellen lokale große Open-Source-Modelle bereit.

Wie man landet

Prompt-Projekt (Phase 1)

Jeder, der ein wenig mit KI in Berührung gekommen ist, kennt möglicherweise die Aufforderungen. In den Jahren 2022 bis 2023 wird die erste Forschung zu KI immer noch darauf basieren, das heißt, wie man Fragen stellt, damit die KI Ihre Bedeutung besser versteht, achten Sie auf Ihren Schlüssel Punkte und geben Sie dann Antworten von besserer Qualität
Der Schwellenwert ist relativ niedrig und die meisten großen Modellanwendungen werden mit Prompt entworfen.Ob einige Anforderungen erfüllt werden können, hängt von den Fähigkeiten des Basismodells ab

RAG-Suche (zweite Stufe)

RAG (Retrieval-Augmented Generation) ist eine Technologie der künstlichen Intelligenz, die Retrieval-Modelle und Generationsmodelle kombiniert. Es verbessert die Antwortmöglichkeiten großer Sprachmodelle (LLMs), indem relevante Informationen aus einer Wissensdatenbank oder Datenbank abgerufen und mit Benutzeranfragen kombiniert werden. Die RAG-Technologie kann die Genauigkeit und Relevanz von KI-Anwendungen verbessern, insbesondere in Szenarien, die sich mit spezifischem Domänenwissen befassen oder die neuesten Informationen erfordern.
Das Arbeitsprinzip von RAG umfasst hauptsächlich zwei Schritte:

  1. Retrieval: Basierend auf der Anfrage des Benutzers verwendet RAG das Retrieval-Modell, um die relevantesten Informationen oder Dokumente in der Wissensdatenbank zu suchen und zu extrahieren.
  2. Generierung: Die abgerufenen Informationen werden zusammen mit der Benutzerabfrage als Eingabe für das Generierungsmodell verwendet, aus der das Generierungsmodell Antworten oder Inhalte generiert.
    Die Vorteile der RAG-Technologie sind:
    • Wissensaktualisierung: Möglichkeit, während des Modelltrainings auf die neuesten Informationen und nicht nur auf Wissen zuzugreifen
    • Halluzinationen reduzieren: Reduzieren Sie die Tendenz von LLM, mithilfe externer Wissensquellen ungenaue oder falsche Informationen zu generieren
    • Datensicherheit: Ermöglicht Unternehmen die Nutzung privater Daten, ohne diese auf Plattformen Dritter hochzuladen
    • Kostengünstig: RAG bietet eine wirtschaftlichere Lösung als die Umschulung oder Feinabstimmung großer Modelle
Funktionsspezifische Modelle trainieren (Phase 3)

Allerdings ist dieser Schwellenwert relativ hoch und es bestehen bestimmte Anforderungen an Rechenleistung, Daten und Algorithmen.

Business Design umgesetzt

Schritt eins: Ideenfindung und Erkundung

Ziel: Machbarkeitsüberprüfung durchführen, Prototypen auf Grundlage der Geschäftsanforderungen entwerfen und PromptFlow erstellen, um wichtige Annahmen zu testen

  • Kern-Input: Klare Geschäftsziele
  • Schlüsselergebnis: Überprüfen Sie, ob das große Sprachmodell (LLM) die Aufgabenanforderungen erfüllen kann, und stellen Sie wichtige Annahmen auf oder verneinen Sie diese
  • Wichtige Aktionspläne:
    • Definieren Sie klar Geschäftsanwendungsfälle
    • Wählen Sie ein geeignetes Basis-Großmodell aus und bereiten Sie die erforderlichen Daten für die anschließende Feinabstimmung (SFT) oder andere Verwendungszwecke vor
    • Entwerfen und erstellen Sie PromptFlow, formulieren und testen Sie Machbarkeitshypothesen
Schritt 2: Erstellen und verbessern

Ziel: Bewerten Sie die Robustheit von Lösungen anhand einer größeren Auswahl an Datensätzen und verbessern Sie die Modellleistung durch Techniken wie Feinabstimmung (SFT) und Retrieval-Augmented Generation (RAG).

  • Kerninput: Geschäftsziele kombiniert mit vorläufigem Plan (Ergebnisse von Schritt 1)
  • Wichtigstes Ergebnis: Eine ausgereifte Geschäftslösung, die für die Bereitstellung in einem Produktionssystem bereit ist
  • Wichtige Aktionspläne:
    • Überprüfen Sie die Wirksamkeit von PromptFlow anhand von Beispieldaten
    • Bewerten und optimieren Sie PromptFlow und entdecken Sie bessere Eingabeaufforderungen und Tools
    • Wenn die erwarteten Ziele erreicht werden, erweitern Sie es zum Testen auf einen größeren Datensatz und verbessern Sie den Effekt durch SFT, RAG und andere Technologien weiter.
Schritt 3: Betrieb fortsetzen

Ziel: Den stabilen Betrieb des AIGC-Systems sicherstellen, Überwachungs- und Alarmsysteme integrieren und kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD) erreichen.

  • Kerneingabe: ein AIGC-System, das ein spezifisches Problem lösen kann
  • Wichtigste Ergebnisse: Verfahren auf Produktionsebene, die Überwachungs- und Warnsysteme sowie CI/CD-Prozesse integrieren.
  • Wichtige Aktionspläne:
    • Stellen Sie das AIGC-System bereit
    • Integrieren Sie Überwachungs- und Warnfunktionen, um sicherzustellen, dass Systemfunktionen in Anwendungen eingebettet sind
    • Richten Sie Anwendungsbetriebsmechanismen ein, einschließlich kontinuierlicher Iteration, Bereitstellung und Aktualisierung
      Durch diesen Prozess stellen wir sicher, dass jeder Schritt vom Proof of Concept bis zur Produktionsbereitstellung präzise, ​​kontrollierbar und auf Geschäftsziele ausgerichtet ist

Schnelle Technologie

1. Die treibende Rolle der Hauptinhaltsfragmente

Main-Content-Snippets sind die textliche Grundlage, die in Verbindung mit Anleitungen deren Wirksamkeit deutlich steigert.

  1. Definition des Hauptinhalts:
    • Der Hauptinhalt ist der Kerntext der Modellverarbeitung oder -transformation, normalerweise gepaart mit Anweisungen zum Erreichen bestimmter Ziele.
  2. Anwendungsbeispiele:
    • Beispiel 1: Geben Sie einen Wikipedia-Text [text] mit der Anweisung „Bitte fassen Sie den obigen Inhalt zusammen“ an.
    • Beispiel 2: Bei einer Tabelle mit Bierinformationen [Text] lautet die Anweisung „Listen Sie alle Biere in der Tabelle mit einem Grad von weniger als 6 Grad auf.“

2. Umsetzungsstrategie der Hauptinhalte

Spezifische Methoden zum Erreichen des Hauptinhalts, einschließlich:

  • Beispiel: Ermöglicht dem Modell, autonom die Aktionen abzuleiten, die ausgeführt werden müssen, indem es Beispiele für die Ausführung einer Aufgabe anstelle direkter Anweisungen bereitstellt.
  • Hinweis: Verwenden Sie Anweisungen mit Hinweisen, um das Modell Schritt für Schritt zum Denken zu führen, um zur Antwort zu gelangen.
  • Vorlagen: Bietet wiederverwendbare Eingabeaufforderungsrezepte mit Platzhaltern und ermöglicht so die Anpassung an bestimmte Anwendungsfälle.

3. Die Kraft der Beispiele (Beispiel)

Indem es dem Modell zeigt, wie eine Ausgabe basierend auf gegebenen Anweisungen generiert wird, ist das Modell in der Lage, Ausgabemuster abzuleiten, unabhängig davon, ob es sich um Zero-Shot-, One-Shot- oder Fence-Shot-Lernen handelt.

  • Komponente:
    • Allgemeine Missionsbeschreibung.
    • Ein Beispiel für eine Reihe gewünschter Ergebnisse.
    • Ein Leitfaden zu neuen Beispielen, die als Ausgangspunkt für nachfolgende Aufgaben dienen.

4. Die leitende Rolle von Hinweisen (Cue)

Durch die Bereitstellung von Hinweisen für große Modelle, die sie beim logischen Denken in eine klare Richtung leiten, ähnelt dies der Bereitstellung einer Schritt-für-Schritt-Formel, die dem Modell hilft, nach und nach die Antwort zu finden.

5. Anpassungswert von Vorlagen (Vorlage)

Der Wert von Vorlagen liegt in der Erstellung und Veröffentlichung von Bibliotheken mit Eingabeaufforderungen für bestimmte Anwendungsbereiche, die für den spezifischen Kontext oder das Beispiel der Anwendung optimiert wurden.

  • Optimierungstipp: Gestalten Sie die Antworten relevanter und genauer für Ihre Zielgruppe.
  • Ressourcenreferenz: Die OpenAI-API-Beispielseite bietet eine Fülle von Vorlagenressourcen.
  • Modellrollenzuweisung: Verbessern Sie das Verständnis des Modells für die Aufgabenrelevanz, indem Sie Modellidentitätsrollen angeben (z. B. System, Benutzer, Assistent usw.).

Beispiele für erweiterte Eingabeaufforderungen

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: