Partage de technologie

Application de modèle de langage étendu – Implémentation de l'ingénierie de l'IA

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Le développement rapide de l'IA au cours des dernières années a en effet eu un impact considérable. Toutefois, en réalité, l'IA n'a pas complètement franchi les frontières et ne s'auto-promeut encore que dans un petit cercle.Mais c’est très différent d’avant.
Cet article se concentrera sur l'état actuel des grands modèles et parlera des éléments liés à la mise en œuvre de l'ingénierie. Il est également basé sur l'inspiration et le résumé.

Je n’entrerai pas ici dans les détails de l’IA elle-même, mais je me concentrerai davantage sur les applications de niveau supérieur.

Présentation des grands modèles de langage

Lorsque nous parlons d'un grand modèle de langage, nous faisons référence à un logiciel capable de « parler » d'une manière similaire au langage humain.Ces modèles sont étonnants : ils sont capables de prendre en compte le contexte et de générer des réponses qui sont non seulement cohérentes, mais qui donnent l'impression qu'elles proviennent de vrais humains.
Ces modèles linguistiques fonctionnent en analysant de grandes quantités de données textuelles et des modèles d’apprentissage dans l’utilisation de la langue.Ils exploitent ces modèles pour générer un texte presque impossible à distinguer de ce que les humains disent ou écrivent.
Si vous avez déjà discuté avec un assistant virtuel ou interagi avec un agent du service client IA, vous avez probablement interagi avec un grand modèle linguistique sans même vous en rendre compte. Ces modèles ont un large éventail d'applications, des chatbots à la traduction linguistique en passant par le contenu ! création et plus

Qu'est-ce qu'un grand modèle de langage

  • définition : Large Language Model (LLM) est un modèle de traitement du langage naturel (NLP) pré-entraîné, généralement avec des milliards, voire des centaines de milliards de paramètres, capable de comprendre et de générer du texte en langage naturel.Les données de formation pour un grand modèle de langage mature sont énormes.
  • Fonction: Les grands modèles linguistiques peuvent effectuer une variété de tâches linguistiques, telles que la classification de texte, l'analyse des sentiments, la traduction automatique, le résumé de texte, les systèmes de questions et réponses, etc.
  • fondement technique: Basé sur l'architecture Transformer, utilisant le mécanisme Self-Attention pour traiter les données de séquence
  • développer: Depuis les premiers RNN et LSTM jusqu'aux modèles actuels tels que BERT et GPT, le nombre de paramètres et les performances ont continué de s'améliorer.

Qu'est-ce que l'apprentissage automatique

  • définition: L'apprentissage automatique est une branche de l'intelligence artificielle qui permet aux systèmes informatiques d'apprendre à partir de données et de prendre des décisions ou des prédictions sans être explicitement programmés.
  • taper: Y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage semi-supervisé et l'apprentissage par renforcement
  • application: Largement utilisé dans la reconnaissance d'images, la reconnaissance vocale, les systèmes de recommandation, l'analyse prédictive et d'autres domaines
  • Concepts clés: Sélection des fonctionnalités, formation du modèle, surajustement et sous-ajustement, évaluation du modèle, etc.

Qu'est-ce que l'apprentissage profond

  • définition: L'apprentissage profond est un sous-ensemble de l'apprentissage automatique qui utilise une structure de réseau neuronal similaire à celle du cerveau humain pour apprendre des modèles de données complexes via des transformations non linéaires multicouches (profondes).
  • composants principaux: Couches de réseaux de neurones, fonctions d'activation, fonctions de perte, algorithmes d'optimisation.
  • Architecture: Y compris le réseau neuronal convolutif (CNN), le réseau neuronal récurrent (RNN), le réseau de mémoire à long terme (LSTM) et le transformateur (Transformer), etc.
  • application: Des progrès révolutionnaires ont été réalisés dans les domaines de la reconnaissance de l'image et de la parole, du traitement du langage naturel, de la conduite autonome, etc.

Comprendre les grands modèles de langage

Pourquoi dois-je ouvrir un chapitre séparé pour « comprendre » les grands modèles de langage après avoir eu un aperçu des grands modèles de langage ci-dessus ? Parce que cela vous permettra de mieux savoir ce qu'est un grand modèle de langage, de comprendre sa limite supérieure, et également il peut ? nous permettent de mieux gérer la couche d'application.
Tout d'abord, nous pouvons dire de manière générale que l'apprentissage automatique consiste à trouver une « fonction » complexe spéciale qui peut transformer notre entrée en sortie souhaitée. Par exemple, si nous nous attendons à saisir 1 et à produire 5 ; à saisir 2 et à produire 10, alors cette fonction peut être y=2*x.Ou si nous saisissons l'image d'un chat, je veux qu'il affiche le mot "chat", ou si je saisis "salut", il affichera "bonjour", etc.

En fait, cela peut être considéré comme un problème mathématique par essence. Bien entendu, le problème réel sera beaucoup plus compliqué que l’exemple ci-dessus.

Histoire

1. Au début, les gens voulaient toujours faire penser aux machines comme les gens. À cette époque, les gens promouvaient principalement « l’école de vol des oiseaux ». Basée sur la bionique, lorsque les gens voyaient un oiseau voler, ils apprenaient à voler en le battant. ailes. Ensuite, ils espéraient faire en sorte que la machine pense comme un être humain. Mais cet effet n'est pas très bon. Il n'y a pas de « connaissance du monde » (la connaissance du monde est la connaissance par défaut dans votre cerveau qui est bien connue et instinctive sans penser). est énorme et il est difficile de résoudre le problème des significations multiples en un seul mot.D’une manière générale, il est trop complexe d’imiter le cerveau humain et il est difficile d’y parvenir simplement en utilisant des codes et des fonctions.

2. L’ère de l’intelligence artificielle 2.0 : mise en œuvre basée sur les données d’une « intelligence artificielle basée sur les statistiques ». Pourquoi toutes sortes de grands modèles ont-ils poussé comme des champignons après la pluie après l’émergence du GPT3 ? En fait, la plupart des entreprises étudient l'IA depuis longtemps, mais au début, tout le monde traversait la rivière en palpant les pierres. Même s'il y avait de nombreux projets et pensées, elles n'osaient pas augmenter leurs investissements dans les haras. ils étaient tous dans un champ de recherche limité. L'émergence de GPT3 a permis à chacun de voir qu'une certaine méthode est réalisable, qui consiste à utiliser des quantités massives de données pour calculer des statistiques. Les changements d'usage entraînent des changements qualitatifs. Ainsi, avec des cas réussis, tout le monde savait que cette méthode était réalisable, donc tout le monde. commencé Augmenter les investissements et emprunter cette voie

3. Le Big Data peut faire progresser le niveau d'intelligence artificielle ; la plus grande importance de l'utilisation de grandes quantités de données est de permettre aux ordinateurs d'accomplir des choses que seuls les humains pouvaient faire dans le passé.

  • Idée de base : sur la base d'informations statistiques contenues dans une grande quantité de données, « entraîner les paramètres » pour s'adapter aux résultats (l'essence est « statistiques » plutôt que « bionique »)
  • Principaux avantages : à mesure que la quantité de données s'accumule, le système continuera à s'améliorer et à devenir de mieux en mieux ;
  • Éléments clés : « big data », big data massif, multidimensionnel et complet
  • « Rote learning » basé sur des big data massifs, multidimensionnels et complets ;
    Grâce à l'intelligence artificielle statistique, les « problèmes d'intelligence » se transforment en « problèmes de données », rendant l'informatique
    Les machines peuvent résoudre des « problèmes incertains » grâce à l’apprentissage du Big Data

L'essentiel

La clé du problème devient donc une question de probabilité. Actuellement, les grands modèles calculent une probabilité à partir de données massives pour déterminer la probabilité la plus élevée du texte suivant ou d'un certain paragraphe de texte au milieu, puis l'affichent.En fait, l’essentiel n’est pas de générer de nouvelles choses, mais de raisonner.

Par exemple, demandez-lui où est la capitale de la Chine ?Le mot-clé extrait grâce à l'algorithme est que la capitale de la Chine est
Ensuite, le grand modèle calcule à partir des données massives que la capitale de la Chine est le mot le plus susceptible d'être suivi par Pékin, et il produira donc le résultat correct.

Les grands modèles s'appuient sur « l'apprentissage par cœur » de quantités massives de données pour atteindre les capacités actuelles.
Par conséquent, la qualité des données pour la formation de grands modèles est également très critique. Dans le même temps, nous pouvons presque penser à la limite supérieure des grands modèles.

Système AIGC

L'AIGC, ou Artificial Intelligence Generated Content, est une technologie qui utilise des algorithmes d'apprentissage automatique pour générer automatiquement divers types de contenu, notamment du texte, des images, de l'audio et de la vidéo. En analysant de grandes quantités de données, les systèmes AIGC apprennent des modèles linguistiques, visuels et audio pour créer un nouveau contenu similaire, voire impossible à distinguer, du contenu créé par l'homme.
Tout travail numérique risque d’être détourné par les « grands modèles »
La plupart de nos travaux actuels sur la couche application appartiennent au système AIGC
Après GPT3.5, les grands modèles peuvent déjà utiliser des outils.
• Plug-ins et mise en réseau : compensent le manque de mémoire du grand modèle lui-même et marquent le début officiel de l'apprentissage des outils en LLM.
• Fonction : LLM apprend à appeler des API pour effectuer des tâches complexes, ce qui est le travail principal des ingénieurs back-end (donner des instructions à Gorilla appellera automatiquement la diffusion et d'autres modèles pour mettre en œuvre des tâches multimodales telles que le dessin et le dialogue)
• Laisser le modèle « penser » : guider les grands modèles pour qu'ils aient des capacités logiques, le noyau réside dans : "Planning Memory Tool"

Mise en œuvre de projets d'ingénierie IA

En fait, la mise en œuvre des projets d'IA est la même que celle des projets ordinaires. L'essentiel de la création initiale du projet doit être de comprendre clairement les problèmes fondamentaux que le projet est censé résoudre, puis d'élargir la réflexion, puis de le réaliser. analyse de la demande, sélection de technologies, etc.Nous ne sommes pas très doués pour concevoir de grands modèles pour la recherche sur la couche application. Nous appelons généralement directement des API ou déployons de grands modèles open source locaux.

Comment atterrir

Projet rapide (phase 1)

Quiconque a été un peu exposé à l'IA connaît peut-être des invites. En 2022-2023, les premières recherches sur l'IA seront toujours basées sur cela, c'est-à-dire comment poser des questions pour que l'IA comprenne mieux votre sens, faites attention à votre clé. points, puis fournissez des réponses de meilleure qualité.
Le seuil est relativement bas et la plupart des applications de grands modèles sont conçues avec Prompt.La capacité à répondre à certains besoins dépend des capacités du modèle de base

Recherche RAG (deuxième étape)

RAG (Retrieval-Augmented Generation) est une technologie d’intelligence artificielle qui combine modèles de récupération et modèles de génération. Il améliore les capacités de réponse des grands modèles de langage (LLM) en récupérant des informations pertinentes à partir d'une base de connaissances ou d'une base de données et en les combinant avec les requêtes des utilisateurs. La technologie RAG peut améliorer la précision et la pertinence des applications d’IA, en particulier dans les scénarios qui traitent de connaissances spécifiques à un domaine ou nécessitent les informations les plus récentes.
Le principe de fonctionnement de RAG comprend principalement deux étapes :

  1. Récupération : sur la base de la requête de l'utilisateur, RAG utilise le modèle de récupération pour rechercher et extraire les informations ou les documents les plus pertinents dans la base de connaissances.
  2. Génération : les informations récupérées sont utilisées comme entrée dans le modèle de génération, avec la requête de l'utilisateur, à partir de laquelle le modèle de génération génère des réponses ou du contenu.
    Les avantages de la technologie RAG sont :
    • Mise à jour des connaissances : possibilité d'accéder aux informations les plus récentes, pas seulement aux connaissances pendant la formation du modèle
    • Réduire les hallucinations : réduire la tendance du LLM à générer des informations inexactes ou fausses grâce à l'aide de sources de connaissances externes
    • Sécurité des données : permet aux entreprises d'utiliser des données privées sans les télécharger sur des plateformes tierces
    • Rentable : RAG offre une solution plus économique que le recyclage ou la mise au point de grands modèles
Modèles spécifiques à la fonction de formation (Phase 3)

Cependant, ce seuil est relativement élevé et il existe certaines exigences en matière de puissance de calcul, de données et d'algorithmes.

Conception commerciale mise en œuvre

Première étape : idéation et exploration

Objectif : effectuer une vérification de faisabilité, concevoir un prototype basé sur les exigences de l'entreprise et créer PromptFlow pour tester les hypothèses clés

  • Contribution principale : des objectifs commerciaux clairs
  • Résultat clé : vérifier si le grand modèle de langage (LLM) peut répondre aux exigences de la tâche, établir ou infirmer les hypothèses clés
  • Plans d’action clés :
    • Définir clairement les cas d'utilisation métier
    • Sélectionnez un grand modèle de base approprié et préparez les données nécessaires pour un réglage ultérieur (SFT) ou d'autres utilisations.
    • Concevoir et construire PromptFlow, formuler et tester des hypothèses de faisabilité
Étape 2 : Créer et améliorer

Objectif : évaluer la robustesse des solutions sur une plus large gamme d'ensembles de données et améliorer les performances du modèle grâce à des techniques telles que le réglage fin (SFT) et la génération augmentée par récupération (RAG).

  • Entrée principale : objectifs commerciaux combinés avec un plan préliminaire (résultats de l'étape 1)
  • Résultat clé : une solution métier mature, prête à être déployée sur un système de production
  • Plans d’action clés :
    • Vérifier l'efficacité de PromptFlow sur des exemples de données
    • Évaluez et optimisez PromptFlow et explorez de meilleures invites et outils
    • Si les objectifs attendus sont atteints, étendez-vous à un ensemble de données plus large à tester et améliorez encore l'effet grâce à SFT, RAG et d'autres technologies.
Étape 3 : Poursuivre les opérations

Objectif : Assurer le fonctionnement stable du système AIGC, intégrer les systèmes de surveillance et d'alarme et réaliser une intégration et un déploiement continus (CI/CD)

  • Entrée de base : un système AIGC capable de résoudre un problème spécifique
  • Résultats clés : procédures au niveau de la production qui intègrent des systèmes de surveillance et d'alerte et des processus CI/CD.
  • Plans d’action clés :
    • Déployer le système AIGC
    • Intégrer des capacités de surveillance et d'alerte pour garantir que les capacités du système sont intégrées dans les applications
    • Établir un mécanisme de fonctionnement de l'application, y compris l'itération, le déploiement et la mise à jour continus
      Grâce à ce processus, nous garantissons que chaque étape, depuis la validation de principe jusqu'au déploiement en production, est précise, contrôlable et guidée par les objectifs commerciaux.

Technologie rapide

1. Le rôle moteur des principaux fragments de contenu

Les principaux extraits de contenu constituent la base textuelle utilisée conjointement avec les instructions pour augmenter considérablement leur efficacité.

  1. Définition du contenu principal :
    • Le contenu principal est le texte de base du traitement ou de la transformation du modèle, généralement associé à des instructions pour atteindre des objectifs spécifiques.
  2. Exemples d'applications :
    • Exemple 1 : Fournissez un morceau de texte Wikipédia [texte] avec l'instruction "Veuillez résumer le contenu ci-dessus".
    • Exemple 2 : étant donné un tableau contenant des informations sur la bière [texte], l'instruction est « Listez toutes les bières du tableau avec un degré inférieur à 6 degrés ».

2. Stratégie de mise en œuvre du contenu principal

Méthodes spécifiques pour réaliser le contenu principal, notamment :

  • Exemple : permet au modèle de déduire de manière autonome les actions qui doivent être effectuées en fournissant des exemples sur la façon d'accomplir une tâche plutôt que des instructions directes.
  • Indice : utilisez des instructions avec des indices pour guider le modèle dans son raisonnement étape par étape pour arriver à la réponse.
  • Modèles : fournit des recettes d'invites réutilisables avec des espaces réservés, permettant la personnalisation selon des cas d'utilisation spécifiques.

3. Le pouvoir des exemples (Exemple)

En montrant au modèle comment générer une sortie en fonction d'instructions données, le modèle est capable de déduire des modèles de sortie, qu'il s'agisse d'un apprentissage sans tir, en un seul coup ou en quelques coups.

  • composant:
    • Description globale de la mission.
    • Un exemple d’une plage de résultats souhaités.
    • Un guide de nouveaux exemples qui servent de point de départ pour les tâches ultérieures.

4. Le rôle directeur des indices (Cue)

En fournissant des indices aux grands modèles pour les guider dans un raisonnement logique dans une direction claire, cela revient à fournir une formule étape par étape pour aider le modèle à obtenir progressivement la réponse.

5. Valeur de personnalisation des modèles (Modèle)

La valeur des modèles réside dans la création et la publication de bibliothèques d'invites pour des domaines d'application spécifiques qui ont été optimisées pour le contexte ou l'exemple spécifique de l'application.

  • Conseil d'optimisation : rendez les réponses plus pertinentes et plus précises pour votre groupe d'utilisateurs cible.
  • Référence des ressources : la page d'exemple de l'API OpenAI fournit une multitude de ressources de modèles.
  • Attribution des rôles de modèle : améliorez la compréhension du modèle sur la pertinence des tâches en spécifiant les rôles d'identité du modèle (tels que système, utilisateur, assistant, etc.).

Exemples d'invites avancées

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: