Partage de technologie

Le modèle LLaMA2 est open source pour un usage commercial : sa force est comparable à ChatGPT, explorant de nouveaux sommets de l'IA

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Grand modèle] Le LLaMA2 disponible dans le commerce et plus puissant est là

Introduction à LLaMA2

19 juillet 2023 : Meta publie le modèle commercial open source Llama 2.

Llama 2 est une collection de modèles de texte génératifs pré-entraînés et affinés dont la taille varie de 7 milliards à 70 milliards de paramètres.

Les LLM affinés, appelés Llama-2-Chat, sont optimisés pour les cas d'utilisation conversationnels. Le modèle Llama-2-Chat surpasse les modèles de discussion open source sur la plupart des tests que nous avons testés et est à égalité avec certains modèles fermés populaires comme ChatGPT et PaLM dans les évaluations humaines de l'utilité et de la sécurité.

LLaMA-2-chat est presque le seul modèle open source qui effectue le RLHF. Après 5 tours de RLHF, LLaMA-2 a montré de meilleures performances que ChatGPT sous l'évaluation du propre modèle de récompense de Meta et de GPT-4.

papier

https://ai.meta.com/research/publications/llama-2-open-foundation-et-fine-tuned-chat-models/

GitHub

adresse:
https://github.com/facebookresearch/llama

visage enlacé

adresse:
https://huggingface.co/meta-llama

Liste des modèles

Chat Llama2 :

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Pour les autres modèles, veuillez vérifier :
https://huggingface.co/meta-llama

données d'entraînement

  1. Formé sur un ensemble de données de plus de 2 000 milliards de jetons.
  2. Les données de réglage fin comprennent des ensembles de données d'instructions accessibles au public, ainsi que plus d'un million de nouveaux exemples annotés par des humains.
  3. La date limite pour les données de pré-formation est septembre 2022

informations sur la formation

  1. Tous les modèles sont formés à l’aide d’un lot global de 4 millions de jetons.
  2. Le modèle plus vaste de 70 milliards de paramètres utilise l'attention de requête groupée (GQA) pour améliorer l'évolutivité de l'inférence.
  3. La période de formation s'étend de janvier 2023 à juillet 2023.
  4. est un modèle en texte brut.
  5. Au cours du processus de pré-formation, 330 000 heures GPU ont été consacrées à l'A100-80GB.

Informations sur le modèle

La longueur du contexte est de 4K.

Licence

Gratuit pour un usage commercial

Demande d'inscription obligatoire

faire référence à

https://ai.meta.com/research/publications/llama-2-open-foundation-et-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B