El modelo LLaMA2 es de código abierto para uso comercial: su fortaleza es comparable a ChatGPT, explorando nuevas alturas de AI

El modelo LLaMA2 es de código abierto y está disponible comercialmente: su fuerza es comparable a ChatGPT, explorando nuevas alturas de la IA.

2024-07-08

[Modelo grande] El LLaMA2 más potente y disponible comercialmente ya está aquí

Introducción a LLaMA2

19 de julio de 2023: Meta lanzó el modelo comercial de código abierto Llama 2.

Llama 2 es una colección de modelos de texto generativo previamente entrenados y ajustados que varían en tamaño entre 7 mil millones y 70 mil millones de parámetros.

Los LLM perfeccionados, llamados Llama-2-Chat, están optimizados para casos de uso conversacionales. El modelo Llama-2-Chat supera a los modelos de chat de código abierto en la mayoría de los puntos de referencia que probamos y está a la par con algunos modelos populares de código cerrado como ChatGPT y PaLM en evaluaciones humanas de utilidad y seguridad.

LLaMA-2-chat es casi el único modelo de código abierto que realiza RLHF. Después de 5 rondas de RLHF, LLaMA-2 mostró un mejor rendimiento que ChatGPT según la evaluación del propio modelo de recompensa de Meta y GPT-4.

Lista de modelos

Llama2-chat:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Para otros modelos consulte:
https://huggingface.co/meta-llama

datos de entrenamiento

Capacitado con un conjunto de datos de más de 2 billones de tokens.
Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 1 millón de nuevos ejemplos anotados por humanos.
La fecha límite para los datos previos al entrenamiento es septiembre de 2022.

información de entrenamiento

Todos los modelos se entrenan utilizando un tamaño de lote global de 4 millones de tokens.
El modelo más grande de 70 mil millones de parámetros utiliza Atención de consultas agrupadas (GQA) para mejorar la escalabilidad de la inferencia.
El periodo de formación es de enero de 2023 a julio de 2023.
es un modelo de texto plano.
Durante el proceso de capacitación previa, se dedicaron 330.000 horas de GPU a A100-80 GB.