Κοινή χρήση τεχνολογίας

Το μοντέλο LLaMA2 είναι ανοιχτού κώδικα και διατίθεται στο εμπόριο: η δύναμή του είναι συγκρίσιμη με το ChatGPT, εξερευνώντας νέα ύψη τεχνητής νοημοσύνης

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Μεγάλο μοντέλο] Το εμπορικά διαθέσιμο και ισχυρότερο LLaMA2 είναι εδώ

Εισαγωγή στο LLaMA2

19 Ιουλίου 2023: Η Meta κυκλοφόρησε το εμπορικό μοντέλο ανοιχτού κώδικα Llama 2.

Το Llama 2 είναι μια συλλογή προεκπαιδευμένων και βελτιστοποιημένων μοντέλων δημιουργίας κειμένου που κυμαίνονται σε μέγεθος από 7 δισεκατομμύρια έως 70 δισεκατομμύρια παραμέτρους.

Τα τελειοποιημένα LLM, που ονομάζονται Llama-2-Chat, είναι βελτιστοποιημένα για περιπτώσεις χρήσης συνομιλίας. Το μοντέλο Llama-2-Chat υπερτερεί των μοντέλων συνομιλίας ανοιχτού κώδικα στα περισσότερα σημεία αναφοράς που δοκιμάσαμε και είναι στο ίδιο επίπεδο με ορισμένα δημοφιλή μοντέλα κλειστού κώδικα, όπως το ChatGPT και το PaLM, σε ανθρώπινες αξιολογήσεις χρησιμότητας και ασφάλειας.

Το LLaMA-2-chat είναι σχεδόν το μόνο μοντέλο ανοιχτού κώδικα που εκτελεί RLHF. Μετά από 5 γύρους RLHF, το LLaMA-2 έδειξε καλύτερη απόδοση από το ChatGPT υπό την αξιολόγηση του μοντέλου ανταμοιβής του ίδιου του Meta και του GPT-4.

χαρτί

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

GitHub

διεύθυνση:
https://github.com/facebookresearch/llama

αγκαλιασμένο πρόσωπο

διεύθυνση:
https://huggingface.co/meta-llama

Λίστα μοντέλων

Llama2-chat:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Για άλλα μοντέλα, ελέγξτε:
https://huggingface.co/meta-llama

δεδομένα εκπαίδευσης

  1. Εκπαιδεύτηκε σε ένα σύνολο δεδομένων με περισσότερα από 2 τρισεκατομμύρια μάρκες.
  2. Τα δεδομένα λεπτομέρειας περιλαμβάνουν δημόσια διαθέσιμα σύνολα δεδομένων οδηγιών, καθώς και περισσότερα από 1 εκατομμύριο νέα παραδείγματα σχολιασμένα από τον άνθρωπο.
  3. Η προθεσμία για τα δεδομένα προεκπαίδευσης είναι ο Σεπτέμβριος 2022

πληροφορίες εκπαίδευσης

  1. Όλα τα μοντέλα εκπαιδεύονται χρησιμοποιώντας ένα παγκόσμιο μέγεθος παρτίδας 4M tokens.
  2. Το μεγαλύτερο μοντέλο παραμέτρων των 70 δισεκατομμυρίων χρησιμοποιεί το Grouped-Query Attention (GQA) για τη βελτίωση της επεκτασιμότητας των συμπερασμάτων.
  3. Η περίοδος εκπαίδευσης είναι από τον Ιανουάριο του 2023 έως τον Ιούλιο του 2023.
  4. είναι ένα μοντέλο απλού κειμένου.
  5. Κατά τη διάρκεια της προεκπαιδευτικής διαδικασίας, δαπανήθηκαν 330.000 ώρες GPU στο A100-80GB.

Πληροφορίες μοντέλου

Το μήκος περιβάλλοντος είναι 4K.

άδεια

Δωρεάν για εμπορική χρήση

Απαιτείται αίτηση εγγραφής

αναφέρομαι σε

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B