LLaMA2-malli on avoimen lähdekoodin kaupalliseen käyttöön: sen vahvuus on verrattavissa ChatGPT:hen, joka tutkii uusia AI

LLaMA2-malli on avoimen lähdekoodin ja kaupallisesti saatavilla: sen vahvuus on verrattavissa ChatGPT:hen, joka tutkii tekoälyn uusia korkeuksia

2024-07-08

[Suuri malli] Kaupallisesti saatavilla oleva ja vahvempi LLaMA2 on täällä

Johdatus LLaMA2:een

19. heinäkuuta 2023: Meta julkaisi avoimen lähdekoodin kaupallisen mallin Llama 2.

Llama 2 on kokoelma esiopetettuja ja hienosäädettyjä generatiivisia tekstimalleja, joiden koko vaihtelee 7 miljardista 70 miljardiin parametriin.

Hienosäädetyt LLM:t, nimeltään Llama-2-Chat, on optimoitu keskustelukäyttöön. Llama-2-Chat-malli ylittää avoimen lähdekoodin chat-mallit useimmissa testaamissamme vertailuissa, ja se on samassa tasossa joidenkin suosittujen suljetun lähdekoodin mallien, kuten ChatGPT ja PaLM, kanssa hyödyllisyyden ja turvallisuuden ihmisten arvioinnissa.

LLaMA-2-chat on lähes ainoa avoimen lähdekoodin malli, joka suorittaa RLHF:n. Viiden RLHF-kierroksen jälkeen LLaMA-2 osoitti parempaa suorituskykyä kuin ChatGPT Metan oman palkkiomallin ja GPT-4:n arvioinnissa.

Malliluettelo

Llama2-chat:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Katso muut mallit:
https://huggingface.co/meta-llama

harjoitustiedot

Koulutettu yli 2 biljoonan tokenin tietojoukossa.
Hienosäätödata sisältää julkisesti saatavilla olevia ohjeaineistoja sekä yli miljoona uutta ihmisen kirjoittamaa esimerkkiä.
Valmennustietojen viimeinen jättöpäivä on syyskuu 2022

koulutustiedot

Kaikki mallit on koulutettu käyttämällä maailmanlaajuista 4 miljoonan tokenin eräkokoa.
Suuremmassa 70 miljardin parametrin mallissa käytetään Grouped-Query Attention (GQA) -toimintoa parantaakseen päätelmien skaalattavuutta.
Koulutusjakso on tammikuusta 2023 heinäkuuhun 2023.
on pelkkä teksti -malli.
Esiharjoittelun aikana 330 000 GPU-tuntia käytettiin A100-80 Gt:lla.