O modelo LLaMA2 é de código aberto para uso comercial: sua força é comparável ao ChatGPT, explorando novos patamares de AI

O modelo LLaMA2 é de código aberto e está disponível comercialmente: sua força é comparável ao ChatGPT, explorando novos patamares de IA

2024-07-08

[Modelo grande] O LLaMA2 mais forte e disponível comercialmente está aqui

Introdução ao LLaMA2

19 de julho de 2023: Meta lançou o modelo comercial de código aberto Llama 2.

Llama 2 é uma coleção de modelos de texto generativo pré-treinados e ajustados que variam em tamanho de 7 bilhões a 70 bilhões de parâmetros.

Os LLMs aprimorados, chamados Llama-2-Chat, são otimizados para casos de uso de conversação. O modelo Llama-2-Chat supera os modelos de chat de código aberto na maioria dos benchmarks que testamos e está no mesmo nível de alguns modelos populares de código fechado, como ChatGPT e PaLM, em avaliações humanas de utilidade e segurança.

LLaMA-2-chat é quase o único modelo de código aberto que executa RLHF. Após 5 rodadas de RLHF, o LLaMA-2 apresentou melhor desempenho que o ChatGPT na avaliação do próprio modelo de recompensa do Meta e do GPT-4.

Lista de modelos

Llama2-chat：

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Para outros modelos consulte:
https://huggingface.co/meta-llama

dados de treinamento

Treinado em um conjunto de dados de mais de 2 trilhões de tokens.
Os dados de ajuste fino incluem conjuntos de dados de instruções disponíveis publicamente, bem como mais de 1 milhão de novos exemplos anotados por humanos.
O prazo para dados de pré-treinamento é setembro de 2022

informações de treinamento

Todos os modelos são treinados usando um tamanho de lote global de 4 milhões de tokens.
O modelo maior de 70 bilhões de parâmetros usa Grouped-Query Attention (GQA) para melhorar a escalabilidade de inferência.
O período de treinamento é de janeiro de 2023 a julho de 2023.
é um modelo de texto simples.
Durante o processo de pré-treinamento, 330.000 horas de GPU foram gastas no A100-80GB.