Le modèle LLaMA2 est open source et disponible dans le commerce : sa force est comparable à ChatGPT, explorant les nouveaux sommets d'AI

Le modèle LLaMA2 est open source pour un usage commercial : sa force est comparable à ChatGPT, explorant de nouveaux sommets de l'IA

2024-07-08

[Grand modèle] Le LLaMA2 disponible dans le commerce et plus puissant est là

Introduction à LLaMA2

19 juillet 2023 : Meta publie le modèle commercial open source Llama 2.

Llama 2 est une collection de modèles de texte génératifs pré-entraînés et affinés dont la taille varie de 7 milliards à 70 milliards de paramètres.

Les LLM affinés, appelés Llama-2-Chat, sont optimisés pour les cas d'utilisation conversationnels. Le modèle Llama-2-Chat surpasse les modèles de discussion open source sur la plupart des tests que nous avons testés et est à égalité avec certains modèles fermés populaires comme ChatGPT et PaLM dans les évaluations humaines de l'utilité et de la sécurité.

LLaMA-2-chat est presque le seul modèle open source qui effectue le RLHF. Après 5 tours de RLHF, LLaMA-2 a montré de meilleures performances que ChatGPT sous l'évaluation du propre modèle de récompense de Meta et de GPT-4.

Liste des modèles

Chat Llama2 :

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Pour les autres modèles, veuillez vérifier :
https://huggingface.co/meta-llama

données d'entraînement

Formé sur un ensemble de données de plus de 2 000 milliards de jetons.
Les données de réglage fin comprennent des ensembles de données d'instructions accessibles au public, ainsi que plus d'un million de nouveaux exemples annotés par des humains.
La date limite pour les données de pré-formation est septembre 2022

informations sur la formation

Tous les modèles sont formés à l’aide d’un lot global de 4 millions de jetons.
Le modèle plus vaste de 70 milliards de paramètres utilise l'attention de requête groupée (GQA) pour améliorer l'évolutivité de l'inférence.
La période de formation s'étend de janvier 2023 à juillet 2023.
est un modèle en texte brut.
Au cours du processus de pré-formation, 330 000 heures GPU ont été consacrées à l'A100-80GB.