Το μοντέλο LLaMA2 είναι ανοιχτού κώδικα για εμπορική χρήση: η δύναμή του είναι συγκρίσιμη με το ChatGPT, εξερευνώντας νέα ύψη του AI

Το μοντέλο LLaMA2 είναι ανοιχτού κώδικα και διατίθεται στο εμπόριο: η δύναμή του είναι συγκρίσιμη με το ChatGPT, εξερευνώντας νέα ύψη τεχνητής νοημοσύνης

2024-07-08

[Μεγάλο μοντέλο] Το εμπορικά διαθέσιμο και ισχυρότερο LLaMA2 είναι εδώ

Εισαγωγή στο LLaMA2

19 Ιουλίου 2023: Η Meta κυκλοφόρησε το εμπορικό μοντέλο ανοιχτού κώδικα Llama 2.

Το Llama 2 είναι μια συλλογή προεκπαιδευμένων και βελτιστοποιημένων μοντέλων δημιουργίας κειμένου που κυμαίνονται σε μέγεθος από 7 δισεκατομμύρια έως 70 δισεκατομμύρια παραμέτρους.

Τα τελειοποιημένα LLM, που ονομάζονται Llama-2-Chat, είναι βελτιστοποιημένα για περιπτώσεις χρήσης συνομιλίας. Το μοντέλο Llama-2-Chat υπερτερεί των μοντέλων συνομιλίας ανοιχτού κώδικα στα περισσότερα σημεία αναφοράς που δοκιμάσαμε και είναι στο ίδιο επίπεδο με ορισμένα δημοφιλή μοντέλα κλειστού κώδικα, όπως το ChatGPT και το PaLM, σε ανθρώπινες αξιολογήσεις χρησιμότητας και ασφάλειας.

Το LLaMA-2-chat είναι σχεδόν το μόνο μοντέλο ανοιχτού κώδικα που εκτελεί RLHF. Μετά από 5 γύρους RLHF, το LLaMA-2 έδειξε καλύτερη απόδοση από το ChatGPT υπό την αξιολόγηση του μοντέλου ανταμοιβής του ίδιου του Meta και του GPT-4.

Λίστα μοντέλων

Llama2-chat:

Llama2-chat-7B

Llama2-chat-13B

Llama2-chat-70B

Για άλλα μοντέλα, ελέγξτε:
https://huggingface.co/meta-llama

δεδομένα εκπαίδευσης

Εκπαιδεύτηκε σε ένα σύνολο δεδομένων με περισσότερα από 2 τρισεκατομμύρια μάρκες.
Τα δεδομένα λεπτομέρειας περιλαμβάνουν δημόσια διαθέσιμα σύνολα δεδομένων οδηγιών, καθώς και περισσότερα από 1 εκατομμύριο νέα παραδείγματα σχολιασμένα από τον άνθρωπο.
Η προθεσμία για τα δεδομένα προεκπαίδευσης είναι ο Σεπτέμβριος 2022

πληροφορίες εκπαίδευσης

Όλα τα μοντέλα εκπαιδεύονται χρησιμοποιώντας ένα παγκόσμιο μέγεθος παρτίδας 4M tokens.
Το μεγαλύτερο μοντέλο παραμέτρων των 70 δισεκατομμυρίων χρησιμοποιεί το Grouped-Query Attention (GQA) για τη βελτίωση της επεκτασιμότητας των συμπερασμάτων.
Η περίοδος εκπαίδευσης είναι από τον Ιανουάριο του 2023 έως τον Ιούλιο του 2023.
είναι ένα μοντέλο απλού κειμένου.
Κατά τη διάρκεια της προεκπαιδευτικής διαδικασίας, δαπανήθηκαν 330.000 ώρες GPU στο A100-80GB.