기술나눔

LLaMA2 모델은 오픈 소스이며 상업적으로 이용 가능합니다. 그 강점은 ChatGPT와 비슷하며 AI의 새로운 차원을 탐구합니다.

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[대형 모델] 시판되고 있으며 더욱 강력한 LLaMA2 출시

LLaMA2 소개

2023년 7월 19일: Meta가 오픈소스 상용 모델 Llama 2를 출시했습니다.

Llama 2는 70억에서 700억 개의 매개변수 크기에 이르는 사전 학습되고 미세 조정된 생성 텍스트 모델 모음입니다.

Llama-2-Chat이라고 하는 미세 조정된 LLM은 대화 사용 사례에 최적화되어 있습니다. Llama-2-Chat 모델은 우리가 테스트한 대부분의 벤치마크에서 오픈 소스 채팅 모델보다 성능이 뛰어나며 유용성과 보안에 대한 인간 평가에서 ChatGPT 및 PaLM과 같은 인기 있는 일부 비공개 소스 모델과 동등합니다.

LLaMA-2-chat은 RLHF를 수행하는 거의 유일한 오픈 소스 모델입니다. RLHF 5회 진행 후 Meta 자체 보상 모델과 GPT-4 평가 결과 LLaMA-2가 ChatGPT보다 좋은 성능을 보였습니다.

종이

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

깃허브

주소:
https://github.com/facebookresearch/llama

허깅페이스

주소:
https://huggingface.co/meta-llama

모델 목록

라마2채팅:

라마2-채팅-7B

라마2-채팅-13B

라마2-채팅-70B

다른 모델의 경우 다음을 확인하십시오.
https://huggingface.co/meta-llama

훈련 데이터

  1. 2조 개 이상의 토큰으로 구성된 데이터 세트에 대한 교육을 받았습니다.
  2. 미세 조정 데이터에는 공개적으로 사용 가능한 명령 데이터 세트와 사람이 주석을 추가한 100만 개가 넘는 새로운 예제가 포함됩니다.
  3. 사전 학습 데이터 마감일은 2022년 9월입니다.

훈련정보

  1. 모든 모델은 4M 토큰의 글로벌 배치 크기를 사용하여 학습되었습니다.
  2. 700억 개의 더 큰 매개변수 모델은 GQA(Grouped-Query Attention)를 사용하여 추론 확장성을 향상시킵니다.
  3. 훈련기간은 2023년 1월부터 2023년 7월까지이다.
  4. 일반 텍스트 모델입니다.
  5. 사전 학습 과정에서 A100-80GB에 330,000 GPU 시간이 소요되었습니다.

모델 정보

컨텍스트 길이는 4K입니다.

특허

상업적 용도로는 무료

등록 신청이 필요합니다

인용하다

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

라마2-채팅-7B

라마2-채팅-13B

라마2-채팅-70B