Partage de technologie

Évolution du modèle linguistique : un voyage de la PNL au LLM

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Dans le vaste univers de l’intelligence artificielle, le traitement du langage naturel (NLP) a toujours été un domaine plein de défis et d’opportunités. À mesure que la technologie évolue, nous avons assisté à une évolution des règles traditionnelles vers l'apprentissage automatique statistique, l'apprentissage profond et les modèles pré-entraînés. Aujourd’hui, nous sommes à l’aube des grands modèles de langage (LLM), qui redéfinissent la façon dont nous communiquons avec les machines. Cet article approfondira l'historique du développement, la feuille de route technique et l'impact du LLM sur le futur domaine de l'IA.

introduction

L’objectif du traitement du langage naturel (NLP) est de permettre aux machines de comprendre, d’interpréter et de générer le langage humain. Le développement de ce domaine a traversé plusieurs étapes importantes, dont chacune a marqué un pas en avant dans la profondeur de la compréhension du langage. Des premiers systèmes basés sur des règles aux méthodes d'apprentissage statistique, en passant par les modèles d'apprentissage profond et les grands modèles de langage (LLM) d'aujourd'hui, chaque étape est une transcendance de l'étape précédente.
Insérer la description de l'image ici

Des règles aux statistiques : premières explorations en PNL

Étape des règles (1956-1992)

Au début de la PNL, les chercheurs s’appuyaient sur des règles manuscrites pour traiter le langage. À ce stade, la pile technologique comprend des machines à états finis et des systèmes basés sur des règles. Par exemple, Apertium est un système de traduction automatique basé sur des règles, qui montre comment les premiers chercheurs peuvent réaliser une traduction automatique de langues en organisant manuellement des dictionnaires et en écrivant des règles.
Insérer la description de l'image ici

Étape d'apprentissage automatique statistique (1993-2012)

Au fil du temps, les chercheurs ont commencé à se tourner vers des méthodes d'apprentissage statistique, en utilisant des outils tels que les machines à vecteurs de support (SVM), les modèles de Markov cachés (HMM), les modèles à entropie maximale (MaxEnt) et les champs aléatoires conditionnels (CRF). Cette étape est caractérisée par la combinaison d'une petite quantité de données de domaine étiquetées manuellement et d'une ingénierie manuelle des fonctionnalités, marquant la transition de règles écrites à la main vers des machines apprenant automatiquement les connaissances à partir des données.
Insérer la description de l'image ici

Percées dans le Deep Learning : ouvrir une nouvelle ère

Phase d'apprentissage profond (2013-2018)

L’émergence du deep learning a apporté des changements révolutionnaires à la PNL. Les technologies représentées par Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention et Embedding permettent au modèle de gérer des ensembles de données plus volumineux sans presque aucun effort. Le système de traduction automatique neuronale de Google (2016) est une œuvre représentative de cette étape.
Insérer la description de l'image ici

L’essor des modèles pré-entraînés : autodécouverte des connaissances

Phase de pré-formation (2018-2022)

L’émergence de modèles pré-entraînés marque une nouvelle avancée dans le domaine de la PNL. La pile technologique avec Transformer et un mécanisme d'attention comme noyau combine des données massives non étiquetées pour un apprentissage auto-supervisé, génère des connaissances générales, puis s'adapte à des tâches spécifiques grâce à un réglage fin. La variabilité de cette étape est très élevée car elle élargit la gamme de données disponibles, des données étiquetées aux données non étiquetées.
Insérer la description de l'image ici

Une nouvelle ère du LLM : la fusion de l'intelligence et de la polyvalence

Stage LLM (2023-?)

LLM représente le dernier développement de modèles de langage, qui adoptent généralement une architecture basée sur un décodeur combinée avec Transformer et Reinforcement Learning Human Feedback (RLHF). Cette phase se caractérise par un processus en deux étapes : la pré-formation et l'alignement avec les humains. La phase de pré-formation utilise des données massives non étiquetées et des données de domaine pour générer des connaissances grâce à un apprentissage auto-supervisé ; la phase d'alignement humain permet au modèle de s'adapter à diverses tâches en alignant les habitudes et les valeurs d'utilisation.
Insérer la description de l'image ici
En regardant les différentes étapes de développement, nous pouvons constater les tendances suivantes :

Données : Des données à la connaissance, de plus en plus de données sont utilisées/avenir:Plus de données texte, plus d'autres données de formulaire → toutes les données
Algorithme : la capacité d'expression devient de plus en plus forte ; l'échelle devient de plus en plus grande ; la capacité d'apprentissage indépendant devient de plus en plus forte du professionnel au général ;avenir:Le transformateur est actuellement suffisant, nouveau modèle (l'efficacité de l'apprentissage doit être soulignée) ?→AGI ?
Relation homme-machine : retour en arrière, d'instructeur à superviseur/avenir:Collaboration homme-machine, apprentissage automatique par les humains → Apprentissage humain par les machines ? → Les machines repoussent les limites de la connaissance humaine

Insérer la description de l'image ici

Parcours de développement technologique LLM : des parcours diversifiés

Au cours des dernières années, le développement de la technologie LLM a montré des voies diversifiées, notamment le mode BERT, le mode GPT et le mode T5, etc. Chaque mode a ses propres caractéristiques et scénarios applicables.
Insérer la description de l'image ici

Mode BERT (encodeur uniquement)

Le modèle BERT convient aux tâches de compréhension du langage naturel grâce à un processus en deux étapes de pré-formation du modèle de langage bidirectionnel et de réglage fin des tâches (pré-formation du modèle de langage bidirectionnel + réglage fin des tâches). La pré-formation BERT extrait les connaissances générales des données générales, tandis que le réglage fin extrait les connaissances du domaine des données du domaine.
Insérer la description de l'image ici
Scénarios de tâches appropriés : plus adaptés à la compréhension du langage naturel, tâches spécifiques dans un certain scénario, spécialisées et légères ;
Insérer la description de l'image ici

Mode GPT (décodeur uniquement)

Le mode GPT est développé à partir du processus de pré-entraînement du modèle de langage unidirectionnel et d'invite ou d'instruction zéro tir/quelques tirs (pré-entraînement du modèle de langage unidirectionnel + zéro tir/invite de quelques tirs/instruction), et convient au naturel génération de langage. Les modèles en mode GPT sont généralement les plus grands LLM disponibles et peuvent gérer un plus large éventail de tâches.
Insérer la description de l'image ici
Scénarios applicables : plus adaptés aux tâches de génération de langage naturel Actuellement, les plus grands LLM sont tous dans ce mode : série GPT, PaLM, LaMDA..., le mode GPT lourd et commun est recommandé pour les tâches de génération/modèles généraux ;
Insérer la description de l'image ici

Mode T5 (Encodeur-Décodeur)

Le mode T5 combine les caractéristiques de BERT et GPT et convient aux tâches de génération et de compréhension. La tâche de remplissage en mode T5 (Span Corruption) est une méthode de pré-formation efficace qui fonctionne bien dans les tâches de compréhension du langage naturel. Deux étapes (pré-formation unidirectionnelle du modèle de langage + mise au point principalement)
Insérer la description de l'image ici
Caractéristiques : ressemble à GPT, ressemble à Bert
Scénarios applicables : la génération et la compréhension sont acceptables. Du point de vue des effets, il est plus adapté aux tâches de compréhension du langage naturel. De nombreux grands LLM nationaux adoptent ce mode s'il s'agit d'une tâche de compréhension du langage naturel dans un seul domaine ; recommandé d'utiliser le mode T5 ;
Insérer la description de l'image ici

Pourquoi les très gros LLM sont-ils en mode GPT ?

Super LLM : Poursuivre les effets zéro tir/peu de tirs/instructions
Conclusions actuelles de la recherche

(Lorsque la taille du modèle est petite) :

  • Catégorie de compréhension du langage naturel : le mode T5 fonctionne le mieux.
  • Classe de génération de langage naturel : le mode GPT fonctionne mieux.
  • Zero shot : le mode GPT fonctionne mieux.
    Si un réglage fin multitâche est introduit après le pré-entraînement, le mode T5 fonctionnera mieux (la conclusion est discutable : l'encodeur-décodeur expérimental actuel a deux fois plus de paramètres réservés au décodeur. La conclusion est-elle fiable ?)

Conclusions actuelles des recherches (très grande échelle) :
Fait : presque tous les modèles LLM dépassant 100 B adoptent le mode GPT

raison possible:
1. L'attention bidirectionnelle dans l'encodeur-décodeur endommage la capacité de tir nul (vérifier)
2. La structure Encodeur-Décodeur ne peut prêter attention qu'au codeur de haut niveau lors de la génération du jeton. La structure du décodeur uniquement peut fournir une attention couche par couche lors de la génération du jeton, et les informations sont plus fines.
3. Les trains Encoder-Decoder « remplissent les blancs » et génèrent le dernier mot Next Token. Il y a une incohérence. Les méthodes de formation et de génération de la structure uniquement du décodeur sont cohérentes.

Défis et opportunités des très grands LLM

À mesure que la taille du modèle augmente, les chercheurs sont confrontés au défi de savoir comment utiliser efficacement l’espace des paramètres. La recherche sur le modèle Chinchilla montre que lorsque les données sont suffisantes, l'échelle LLM actuelle peut être plus grande que l'échelle idéale, et il y a un gaspillage d'espace de paramètres. Cependant, la loi de mise à l'échelle souligne également que plus l'échelle du modèle est grande, plus il y a de données. , et plus la formation est complète, plus l'effet du modèle LLM est meilleur. Une idée plus réalisable est la suivante : faites-le d'abord petit (GPT 3 ne devrait pas être si grand), puis faites-le grand (après avoir pleinement utilisé les paramètres du modèle, continuez à l'agrandir).
Insérer la description de l'image ici

Bien entendu, étant donné que le LLM multimodal nécessite des capacités de perception de l’environnement réel plus riches, il impose également des exigences plus élevées en matière de paramètres LLM.
LLM multimodal : saisie visuelle (images, vidéos), saisie auditive (audio), saisie tactile (pression)
Insérer la description de l'image ici
faire face à des problèmes: Le LLM multimodal a l'air plutôt bien et s'appuie fortement sur de grands ensembles de données organisés manuellement.

Par exemple, ALIGN : 1,8 B de graphiques et de texte/LAION : 5,8 B de graphiques et de données de texte (filtrés par CLIP, actuellement les plus grandes données de graphiques et de texte) est-ce actuellement du texte avec des images volantes ?

Traitement d'image: La voie technologique auto-supervisée est à l'essai, mais n'a pas encore été mise en œuvre avec succès (apprentissage comparatif/MAE)/si elle peut être réalisée avec succès, ce sera une autre énorme avancée technologique dans le domaine de l'IA ;

Si ce problème peut être résolu, certaines tâches actuelles de compréhension d’images (segmentation/reconnaissance sémantique, etc.) devraient être intégrées au LLM et disparaître.

Insérer la description de l'image ici

Améliorer les capacités de raisonnement complexe de LLM

Bien que le LLM actuel possède certaines capacités de raisonnement simple, il présente encore des lacunes en matière de raisonnement complexe. Par exemple, des tâches telles que l'addition à plusieurs chiffres restent un défi pour le LLM. Les chercheurs étudient comment distiller des capacités de raisonnement complexes en modèles plus petits grâce à des moyens techniques tels que la décomposition sémantique.
Insérer la description de l'image ici
Bien entendu, ce problème peut également être contourné par l'externalisation des capacités, par exemple en les combinant avec des outils : la puissance de calcul (calculateur externe), la requête de nouvelles informations (moteur de recherche) et d'autres capacités sont complétées à l'aide d'outils externes.
Insérer la description de l'image ici

Interaction entre LLM et le monde physique

Le concept d'intelligence incarnée combine le LLM avec la robotique et utilise l'apprentissage par renforcement pour obtenir une intelligence incarnée grâce à l'interaction avec le monde physique. . Par exemple, le modèle PaLM-E de Google combine 540 B de PaLM et 22 B de ViT, démontrant le potentiel du LLM dans un environnement multimodal.
Insérer la description de l'image ici
Insérer la description de l'image ici

Autres axes de recherche

  1. Acquisition de nouvelles connaissances : Il existe actuellement certaines difficultés, mais il existe également certaines méthodes (LLM+Retrieval)
  2. Correction d'anciennes connaissances : il existe actuellement certains résultats de recherche qui doivent encore être optimisés
  3. Intégration des connaissances du domaine privé : peaufiner ?
  4. Meilleure compréhension des commandes : nécessite encore une optimisation (absurdité sérieuse)
  5. Réduction des coûts d’inférence de formation : développement rapide d’ici un à deux ans
  6. Construction d'un ensemble de données d'évaluation chinoises : un test décisif de capacité. Il existe actuellement des ensembles de données d'évaluation en anglais, tels que HELM/BigBench, etc., mais il y a un manque d'ensembles de données d'évaluation multitâches, de haute difficulté et multi-angles en chinois.

Conclusion

Cet article explore en profondeur l'historique du développement, la feuille de route technique et leur impact sur le futur domaine de l'IA du LLM. Le développement du LLM n’est pas seulement une avancée technologique, mais aussi une réflexion profonde sur nos capacités de compréhension machine. Des règles aux statistiques en passant par le deep learning et la pré-formation, chaque étape nous offre de nouvelles perspectives et de nouveaux outils. Aujourd’hui, nous sommes au seuil d’une nouvelle ère de modèles linguistiques à grande échelle, confrontés à des opportunités et à des défis sans précédent.