Condivisione della tecnologia

Il modello LLaMA2 è open source e disponibile in commercio: la sua forza è paragonabile a ChatGPT, esplorando nuove vette dell'intelligenza artificiale

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Modello grande] Il modello LLaMA2 più potente e disponibile in commercio è qui

Introduzione a LLaMA2

19 luglio 2023: Meta ha rilasciato il modello commerciale open source Llama 2.

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati di dimensioni variabili da 7 miliardi a 70 miliardi di parametri.

Gli LLM ottimizzati, chiamati Llama-2-Chat, sono ottimizzati per casi d'uso conversazionali. Il modello Llama-2-Chat supera i modelli di chat open source nella maggior parte dei benchmark che abbiamo testato ed è alla pari con alcuni popolari modelli closed source come ChatGPT e PaLM nelle valutazioni umane di utilità e sicurezza.

LLaMA-2-chat è quasi l'unico modello open source che esegue RLHF. Dopo 5 round di RLHF, LLaMA-2 ha mostrato prestazioni migliori rispetto a ChatGPT sotto la valutazione del modello di ricompensa di Meta e di GPT-4.

carta

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

Guida

indirizzo:
https://github.com/facebookresearch/llama

faccia da abbraccio

indirizzo:
https://huggingface.co/meta-llama

Elenco dei modelli

Chat di Llama2:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Per altri modelli consultare:
https://huggingface.co/meta-llama

dati di allenamento

  1. Addestrato su un set di dati di oltre 2 trilioni di token.
  2. I dati di ottimizzazione includono set di dati di istruzioni disponibili al pubblico, nonché oltre 1 milione di nuovi esempi con annotazioni umane.
  3. La scadenza per i dati pre-formazione è settembre 2022

informazioni sulla formazione

  1. Tutti i modelli vengono addestrati utilizzando una dimensione batch globale di 4 milioni di token.
  2. Il modello più ampio da 70 miliardi di parametri utilizza Grouped-Query Attention (GQA) per migliorare la scalabilità dell'inferenza.
  3. Il periodo formativo va da gennaio 2023 a luglio 2023.
  4. è un modello di testo semplice.
  5. Durante il processo di pre-addestramento, sono state spese 330.000 ore GPU su A100-80GB.

Informazioni sul modello

La lunghezza del contesto è 4K.

licenza

Gratuito per uso commerciale

Richiesta domanda di registrazione

fare riferimento a

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B