Teknologian jakaminen

LLaMA2-malli on avoimen lähdekoodin ja kaupallisesti saatavilla: sen vahvuus on verrattavissa ChatGPT:hen, joka tutkii tekoälyn uusia korkeuksia

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Suuri malli] Kaupallisesti saatavilla oleva ja vahvempi LLaMA2 on täällä

Johdatus LLaMA2:een

19. heinäkuuta 2023: Meta julkaisi avoimen lähdekoodin kaupallisen mallin Llama 2.

Llama 2 on kokoelma esiopetettuja ja hienosäädettyjä generatiivisia tekstimalleja, joiden koko vaihtelee 7 miljardista 70 miljardiin parametriin.

Hienosäädetyt LLM:t, nimeltään Llama-2-Chat, on optimoitu keskustelukäyttöön. Llama-2-Chat-malli ylittää avoimen lähdekoodin chat-mallit useimmissa testaamissamme vertailuissa, ja se on samassa tasossa joidenkin suosittujen suljetun lähdekoodin mallien, kuten ChatGPT ja PaLM, kanssa hyödyllisyyden ja turvallisuuden ihmisten arvioinnissa.

LLaMA-2-chat on lähes ainoa avoimen lähdekoodin malli, joka suorittaa RLHF:n. Viiden RLHF-kierroksen jälkeen LLaMA-2 osoitti parempaa suorituskykyä kuin ChatGPT Metan oman palkkiomallin ja GPT-4:n arvioinnissa.

paperi

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

GitHub

osoite:
https://github.com/facebookresearch/llama

halaavat kasvot

osoite:
https://huggingface.co/meta-llama

Malliluettelo

Llama2-chat:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Katso muut mallit:
https://huggingface.co/meta-llama

harjoitustiedot

  1. Koulutettu yli 2 biljoonan tokenin tietojoukossa.
  2. Hienosäätödata sisältää julkisesti saatavilla olevia ohjeaineistoja sekä yli miljoona uutta ihmisen kirjoittamaa esimerkkiä.
  3. Valmennustietojen viimeinen jättöpäivä on syyskuu 2022

koulutustiedot

  1. Kaikki mallit on koulutettu käyttämällä maailmanlaajuista 4 miljoonan tokenin eräkokoa.
  2. Suuremmassa 70 miljardin parametrin mallissa käytetään Grouped-Query Attention (GQA) -toimintoa parantaakseen päätelmien skaalattavuutta.
  3. Koulutusjakso on tammikuusta 2023 heinäkuuhun 2023.
  4. on pelkkä teksti -malli.
  5. Esiharjoittelun aikana 330 000 GPU-tuntia käytettiin A100-80 Gt:lla.

Mallin tiedot

Kontekstin pituus on 4K.

lisenssi

Ilmainen kaupalliseen käyttöön

Rekisteröintihakemus vaaditaan

viitata

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B