Compartilhamento de tecnologia

O modelo LLaMA2 é de código aberto e está disponível comercialmente: sua força é comparável ao ChatGPT, explorando novos patamares de IA

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Modelo grande] O LLaMA2 mais forte e disponível comercialmente está aqui

Introdução ao LLaMA2

19 de julho de 2023: Meta lançou o modelo comercial de código aberto Llama 2.

Llama 2 é uma coleção de modelos de texto generativo pré-treinados e ajustados que variam em tamanho de 7 bilhões a 70 bilhões de parâmetros.

Os LLMs aprimorados, chamados Llama-2-Chat, são otimizados para casos de uso de conversação. O modelo Llama-2-Chat supera os modelos de chat de código aberto na maioria dos benchmarks que testamos e está no mesmo nível de alguns modelos populares de código fechado, como ChatGPT e PaLM, em avaliações humanas de utilidade e segurança.

LLaMA-2-chat é quase o único modelo de código aberto que executa RLHF. Após 5 rodadas de RLHF, o LLaMA-2 apresentou melhor desempenho que o ChatGPT na avaliação do próprio modelo de recompensa do Meta e do GPT-4.

papel

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

GitHub

endereço:
https://github.com/facebookresearch/llama

abraçandorosto

endereço:
https://huggingface.co/meta-llama

Lista de modelos

Llama2-chat:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Para outros modelos consulte:
https://huggingface.co/meta-llama

dados de treinamento

  1. Treinado em um conjunto de dados de mais de 2 trilhões de tokens.
  2. Os dados de ajuste fino incluem conjuntos de dados de instruções disponíveis publicamente, bem como mais de 1 milhão de novos exemplos anotados por humanos.
  3. O prazo para dados de pré-treinamento é setembro de 2022

informações de treinamento

  1. Todos os modelos são treinados usando um tamanho de lote global de 4 milhões de tokens.
  2. O modelo maior de 70 bilhões de parâmetros usa Grouped-Query Attention (GQA) para melhorar a escalabilidade de inferência.
  3. O período de treinamento é de janeiro de 2023 a julho de 2023.
  4. é um modelo de texto simples.
  5. Durante o processo de pré-treinamento, 330.000 horas de GPU foram gastas no A100-80GB.

Informações do modelo

O comprimento do contexto é 4K.

licença

Gratuito para uso comercial

Solicitação de registro necessária

referir-se

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B