Beyond Transformer ouvre un nouveau chapitre dans le domaine des modèles de langage ouvert efficaces

Beyond Transformer ouvre un nouveau chapitre dans les modèles de langage ouverts efficaces

2024-07-12

Aujourd'hui, avec le développement rapide de l'intelligence artificielle, la recherche de modèles linguistiques efficaces et excellents a incité l'équipe Google DeepMind à développer le modèle révolutionnaire RecurrentGemma. Ce nouveau modèle, détaillé dans l'article « RecurrentGemma : Efficient Open Language Models Beyond Transformers », promet de redéfinir les normes du traitement du langage en combinant récursivité linéaire et mécanismes d'attention locale.

Architecture du modèle

L'architecture du modèle RecurrentGemma est au cœur de ses performances efficaces. Elle est basée sur l'architecture Griffin proposée par Google DeepMind. Cette architecture offre de nouvelles possibilités de traitement des tâches de langage en combinant récursion linéaire et mécanismes d'attention locale. Lorsque nous examinons l'architecture du modèle de RecurrentGemma, nous devons d'abord comprendre les fondements de l'architecture Griffin et comment RecurrentGemma innove et optimise sur cette base.

RecurrentGemma apporte une modification clé à l'architecture Griffin, qui implique le traitement des intégrations d'entrée. L'intégration d'entrée du modèle est multipliée par une constante égale à la racine carrée de la largeur du modèle. Ce traitement ajuste le côté entrée du modèle mais ne modifie pas le côté sortie car l'intégration de sortie n'applique pas ce facteur de multiplication. Cet ajustement permet au modèle de traiter les informations plus efficacement tout en maintenant la cohérence sur toutes les largeurs du modèle. Cette modification joue un rôle important dans l'expression mathématique et le flux d'informations du modèle. Il optimise non seulement le traitement initial des données d'entrée par le modèle, mais aide également le modèle à mieux capturer et représenter les caractéristiques du langage en ajustant l'échelle de l'intégration.

Les performances et l'efficacité d'un modèle RecurrentGemma sont largement déterminées par ses hyperparamètres. Ces hyperparamètres constituent un élément clé de la définition du modèle et incluent, sans toutefois s'y limiter, les aspects suivants :

paramètres totaux: 270 millions de paramètres, ce qui démontre la complexité et la capacité du modèle.
Paramètres non intégrés: 200 millions de paramètres, soit le nombre de paramètres dans le modèle hors couche d'intégration.
Paramètres d'intégration: 070 millions de paramètres, qui sont directement liés au vocabulaire incorporé du modèle.
Vocabulaire: 256 000 mots, soit le nombre total de mots que le modèle peut comprendre et générer.
Largeur du modèle:2560, qui représente la dimensionnalité de la représentation interne du modèle.
Largeur RNN:2560, qui est la largeur de la partie récurrente du réseau neuronal.
Facteur d'expansion MLP:3, ce qui affecte le degré d'expansion du perceptron multicouche dans le modèle.
profondeur: 26 couches, soit le nombre de couches du modèle, reflétant la profondeur du traitement des données par le modèle.
Nombre de têtes d'attention:10, qui représente le nombre de têtes du mécanisme d'attention utilisé par le modèle lors du traitement de la séquence.
Taille de la fenêtre d’attention locale:2048, qui définit la portée du mécanisme d'attention locale sur la séquence.

Les hyperparamètres clés du modèle RecurrentGemma incluent le nombre total de paramètres, le nombre de paramètres non intégrés, le nombre de paramètres intégrés, la taille du vocabulaire, la largeur du modèle, la largeur du RNN, le facteur d'expansion MLP, la profondeur, le nombre de têtes d'attention et l'attention locale. la taille de la fenêtre.

Le tableau 1 fournit un résumé de ces hyperparamètres clés, et une définition plus détaillée du modèle peut être trouvée dans l'article Griffin de De et al. Ensemble, ces hyperparamètres constituent la base du modèle RecurrentGemma, lui permettant de réaliser un traitement efficace de longues séquences tout en conservant une faible empreinte mémoire.

Grâce à des modifications minutieuses de l'architecture Griffin et à un ajustement minutieux des hyperparamètres, le modèle RecurrentGemma démontre non seulement ses progrès en théorie, mais prouve également son efficacité et ses puissantes capacités de traitement du langage dans des applications pratiques.

détails de la formation

La pré-formation de RecurrentGemma-2B utilise 2 000 milliards de jetons. Bien que cette quantité de données soit inférieure aux 3 000 milliards de jetons utilisés par Gemma-2B, elle constitue néanmoins un énorme ensemble de données et fournit des informations linguistiques riches pour le modèle.

Les sources de données pour la pré-formation sont principalement des documents en ligne en anglais, des mathématiques et des codes. Non seulement ces données couvrent un large éventail de sujets et de domaines, mais elles sont également soigneusement filtrées et nettoyées pour réduire les contenus indésirables ou dangereux et exclure les données personnelles ou sensibles. De plus, pour garantir l'équité de l'évaluation, tous les ensembles d'évaluation sont exclus de l'ensemble de données de pré-formation.

RecurrentGemma-2B utilise d'abord un large mélange de données génériques lors de la pré-formation, puis passe à des ensembles de données plus petits mais de meilleure qualité pour une formation ultérieure. Cette approche de formation par étapes aide le modèle à apprendre une représentation linguistique générale sur un large éventail de données, puis à l'affiner et à l'optimiser avec des données plus spécialisées.

Après la pré-formation, RecurrentGemma-2B a été affiné grâce au réglage des instructions et à l'algorithme RLHF. Ce processus vise à optimiser le modèle afin qu'il puisse mieux suivre les instructions et générer des réponses avec des récompenses élevées.

Le réglage des instructions est une méthode de formation qui permet à un modèle de comprendre et de répondre à un format d'instruction spécifique. RecurrentGemma-2B est formé pour adhérer à un format de conversation spécifique, défini par des balises de contrôle spécifiques, de sorte que les entrées de l'utilisateur et les sorties du modèle soient chacune identifiées par des balises différentes.

L'algorithme RLHF est une technique avancée de réglage fin qui optimise la sortie du modèle grâce à un cadre d'apprentissage par renforcement. Dans RLHF, la sortie du modèle est évaluée sur la base des commentaires humains et ajustée en fonction des résultats de l'évaluation pour améliorer la qualité de la sortie et des récompenses. Cet algorithme permet au modèle d'apprendre à générer des réponses plus appropriées dans différents contextes.

Grâce à l'ajustement des instructions et au réglage fin du RLHF, RecurrentGemma-2B est non seulement capable de produire une sortie linguistique de haute qualité, mais il fonctionne également bien dans les conversations et dans le suivi des instructions. Cette méthode de formation confère au modèle flexibilité et adaptabilité, lui permettant de fonctionner dans une variété de scénarios d'application.

Balises de contrôle de formatage liées au réglage des instructions et au Reinforcement Learning Human Feedback (RLHF) pour les modèles Gemma, qui sont utilisées pour définir le format de conversation entre l'utilisateur et le modèle.

Exemple de dialogue montrant comment utiliser les balises de contrôle pour formater le dialogue entre l'utilisateur et le modèle

De cette manière, RecurrentGemma-2B devient un modèle de langage puissant capable de fournir un traitement linguistique efficace et précis dans une variété de tâches et d'environnements.

Évaluer

L'analyse comparative automatisée est la première étape dans l'évaluation des performances de RecurrentGemma-2B. Ces tests couvrent une variété de tâches populaires en aval, notamment la réponse aux questions, le résumé de texte, le raisonnement linguistique, etc. Les performances de RecurrentGemma-2B sur ces tâches sont comparées à celles de Gemma-2B, et les résultats montrent que bien que RecurrentGemma-2B soit formé sur un plus petit nombre de jetons, ses performances sont comparables à celles de Gemma-2B.

Les performances de RecurrentGemma-2B dans plusieurs benchmarks académiques tels que MMLU 5-shot, HellaSwag 0-shot, PIQA 0-shot, etc. sont similaires à celles de Gemma-2B, ce qui prouve sa polyvalence et son efficacité sur différentes tâches. Ces résultats de tests démontrent non seulement la compréhension approfondie du langage du modèle, mais reflètent également son potentiel dans des applications pratiques.

Comparaison des performances de RecurrentGemma-2B et Gemma-2B sur plusieurs critères académiques, y compris différentes mesures d'évaluation et scores des deux modèles

En plus des benchmarks automatisés, RecurrentGemma-2B a été testé par rapport à une évaluation humaine. L'évaluation humaine est une étape cruciale pour déterminer si un modèle de langage peut générer des réponses qui répondent aux attentes humaines. Dans ce processus, une variante optimisée par les instructions de RecurrentGemma-2B (RecurrentGemma-2B-IT) a été comparée au modèle Mistral 7B v0.2 Instruct.

Les évaluations humaines utilisent une collection d’environ 1 000 instructions à suivre pour les tâches d’écriture créative et de codage. RecurrentGemma-2B-IT a réalisé des performances impressionnantes sur cet ensemble, atteignant un taux de victoire de 43,7 %, à peine inférieur aux 45,0 % de Gemma-1.1-2B-IT. Ce résultat démontre que la capacité de RecurrentGemma-2B à comprendre et à exécuter des instructions complexes est comparable aux modèles avancés existants.

RecurrentGemma-2B-IT a également été évalué sur une collection d'environ 400 invites testant les protocoles de sécurité de base, atteignant un taux de réussite de 59,8 %, démontrant la supériorité du modèle dans le respect des directives de sécurité.

Comparaison des taux de réussite du modèle RecurrentGemma-2B-IT et du modèle Mistral 7B v0.2 Instruct dans l'évaluation humaine, y compris la sécurité du modèle et la capacité de suivi des instructions

Les performances de RecurrentGemma-2B ont été examinées de manière approfondie grâce à une combinaison de tests de référence automatisés et d'évaluation humaine. Les tests automatisés fournissent une évaluation quantitative des performances du modèle sur diverses tâches linguistiques, tandis que l'évaluation humaine fournit une compréhension qualitative de la qualité du résultat du modèle. Cette approche d'évaluation complète garantit que RecurrentGemma-2B non seulement fonctionne bien en théorie, mais offre également une génération et une compréhension linguistiques de haute qualité dans des applications pratiques.

Benchmark de vitesse d'inférence

La vitesse d'inférence est l'une des mesures clés pour mesurer l'utilité d'un modèle de langage, en particulier lorsqu'il s'agit de données de longue séquence. L'optimisation de la vitesse d'inférence de RecurrentGemma-2B est un point fort qui le distingue du modèle Transformer traditionnel. Dans le modèle Transformer traditionnel, pour un traitement de séquence efficace, le modèle doit récupérer et charger le cache clé-valeur (KV) dans la mémoire de l'appareil. À mesure que la longueur de la séquence augmente, la taille du cache KV augmente également de manière linéaire, ce qui non seulement augmente l'utilisation de la mémoire, mais limite également la capacité du modèle à gérer de longues séquences. Bien que la taille du cache puisse être réduite grâce à des mécanismes d’attention locaux, cela se fait généralement au détriment de certaines performances.

RecurrentGemma-2B résout les problèmes ci-dessus grâce à sa conception architecturale innovante. Il compresse la séquence d'entrée dans un état de taille fixe plutôt que de s'appuyer sur un cache KV qui augmente avec la longueur de la séquence. Cette conception réduit considérablement l'utilisation de la mémoire et permet au modèle de maintenir une vitesse d'inférence efficace lors du traitement de longues séquences.

Lors de tests de référence, RecurrentGemma-2B a démontré des avantages significatifs en matière de débit. Comme le montre la figure 1a, sur un seul appareil TPUv5e, RecurrentGemma-2B est capable d'atteindre un débit allant jusqu'à 6 000 jetons par seconde lors de l'échantillonnage de séquences de différentes longueurs à partir d'un soupçon de 2 000 jetons, tandis que le modèle Gemma grandit à mesure que le cache grandit. . Le débit diminue.

La taille d’état fixe de RecurrentGemma-2B est la clé de son inférence efficace. Par rapport au modèle Gemma, l'état de RecurrentGemma-2B n'augmente pas avec la longueur de la séquence, ce qui signifie qu'il peut générer des séquences de n'importe quelle longueur sans être limité par la taille de la mémoire hôte. Ceci est particulièrement important dans le traitement de séquences longues, car cela permet au modèle de traiter des données textuelles plus longues tout en conservant des performances élevées.

L’amélioration de la vitesse de raisonnement n’est pas seulement d’une grande importance en théorie, mais montre également sa valeur dans les applications pratiques. Le débit élevé et la faible empreinte mémoire de RecurrentGemma-2B en font un choix idéal dans les environnements aux ressources limitées, tels que les appareils mobiles ou les appareils informatiques de pointe. De plus, la vitesse d'inférence efficace permet également au modèle de répondre plus rapidement aux demandes des utilisateurs et d'offrir une expérience interactive plus fluide.

(a) indique le nombre maximum de jetons générés par seconde sur un seul appareil TPUv5e lors de l'échantillonnage de séquences de différentes longueurs à partir d'un indice de 2 000 jetons. RecurrentGemma atteint un débit plus élevé pour toutes les longueurs de séquence prises en compte.
(b) montre le débit lors du traitement des signaux de différentes longueurs. Contrairement à l'échantillonnage autorégressif, les signaux sont traités en parallèle. Gemma et RecurrentGemma ont une vitesse similaire lors du traitement des indices.

déploiement responsable

Dans le domaine de l'intelligence artificielle, le déploiement de modèles n'est pas seulement la réalisation de la technologie, mais aussi la prise en charge de responsabilités en matière de sécurité et d'éthique. La stratégie de déploiement de RecurrentGemma-2B reflète pleinement l’accent mis sur ces facteurs clés.

Avant le déploiement du modèle, RecurrentGemma-2B a été soumis à une série de tests de sécurité académiques standard conçus pour évaluer les éventuelles fautes ou biais du modèle. Grâce à ces tests, l'équipe de développement est en mesure d'identifier et d'atténuer les risques potentiels, garantissant ainsi que le modèle est sûr pour un usage public.

Résultats du modèle RecurrentGemma-2B sur les références académiques de sécurité, y compris les résultats pour les points de contrôle pré-formation et les variantes adaptées aux instructions

En plus de l'analyse comparative automatisée de la sécurité, RecurrentGemma-2B a fait l'objet d'une évaluation d'éthique et de sécurité par une équipe indépendante. Ce processus implique un examen complet du modèle, y compris, mais sans s'y limiter, son équité envers des groupes spécifiques, sa capacité à éviter les résultats préjudiciables et sa protection de la vie privée des utilisateurs.

Malgré des tests et des évaluations rigoureux, l'équipe de développement souligne qu'il est impossible de couvrir tous les cas d'utilisation possibles, étant donné que RecurrentGemma-2B peut être appliqué dans de nombreux scénarios différents. Par conséquent, ils recommandent à tous les utilisateurs d’effectuer des tests de sécurité supplémentaires en fonction de leurs cas d’utilisation spécifiques avant de déployer des modèles. Cette recommandation reflète l'accent mis sur la responsabilité des utilisateurs pour garantir que chaque déploiement est bien pensé et personnalisé.

Un déploiement responsable inclut également la transparence sur les performances et les limites du modèle. L'équipe de développement fournit une architecture détaillée du modèle et des détails de formation pour permettre aux utilisateurs et aux chercheurs de comprendre le fonctionnement du modèle et ses limites potentielles. De plus, l’équipe s’engage à surveiller et à améliorer continuellement le modèle pour faire face aux risques et défis émergents.

Un déploiement responsable implique également une collaboration avec la communauté plus large de l’IA et de multiples parties prenantes. En partageant les résultats de la recherche, en s'engageant dans des discussions ouvertes et en acceptant les commentaires externes, l'équipe de développement de RecurrentGemma démontre son engagement en faveur de la science ouverte et de la collaboration.

Alors que le domaine de l'intelligence artificielle continue de se développer, RecurrentGemma sert de modèle combinant des concepts de conception architecturale innovants, des processus de formation et d'évaluation rigoureux, démontrant le potentiel de repousser les limites de ce qui est possible en matière de compréhension et de génération de langues.

Lien papier : https://arxiv.org/abs/2404.07839

Partage de technologie