Модель LLaMA2 имеет открытый исходный код и коммерчески доступна: ее сила сравнима с ChatGPT, открывая новые высоты AI

Модель LLaMA2 имеет открытый исходный код для коммерческого использования: ее сила сравнима с ChatGPT, она открывает новые высоты искусственного интеллекта.

2024-07-08

[Большая модель] Уже доступна коммерчески доступная и более мощная модель LLaMA2.

Введение в LLaMA2

19 июля 2023 г.: Meta выпустила коммерческую модель Llama 2 с открытым исходным кодом.

Llama 2 — это коллекция предварительно обученных и точно настроенных генеративных текстовых моделей размером от 7 до 70 миллиардов параметров.

Тщательно настроенные LLM, называемые Llama-2-Chat, оптимизированы для разговорных случаев использования. Модель Llama-2-Chat превосходит модели чата с открытым исходным кодом по большинству протестированных нами тестов и находится на одном уровне с некоторыми популярными моделями с закрытым исходным кодом, такими как ChatGPT и PaLM, по человеческим оценкам полезности и безопасности.

LLaMA-2-chat — чуть ли не единственная модель с открытым исходным кодом, выполняющая RLHF. После 5 раундов RLHF LLaMA-2 показал лучшую производительность, чем ChatGPT, при оценке собственной модели вознаграждения Meta и GPT-4.

Список моделей

Llama2-чат：

Llama2-чат-7B

Llama2-чат-13B

Llama2-чат-70B

Для других моделей, пожалуйста, проверьте:
https://huggingface.co/meta-llama

данные обучения

Обучение проводилось на наборе данных из более чем 2 триллионов токенов.
Данные для точной настройки включают общедоступные наборы данных инструкций, а также более 1 миллиона новых примеров, аннотированных человеком.
Крайний срок предоставления данных для предварительного обучения — сентябрь 2022 г.

информация об обучении

Все модели обучаются с использованием глобального пакета из 4 миллионов токенов.
Более крупная модель с 70 миллиардами параметров использует внимание к групповым запросам (GQA) для улучшения масштабируемости вывода.
Период обучения – с января 2023 года по июль 2023 года.
представляет собой обычную текстовую модель.
В процессе предварительного обучения на A100-80GB было потрачено 330 000 часов графического процессора.