Technologieaustausch

Das LLaMA2-Modell ist Open Source für die kommerzielle Nutzung: Seine Stärke ist mit ChatGPT vergleichbar und erschließt neue Höhen der KI

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Großes Modell] Das im Handel erhältliche und stärkere LLaMA2 ist da

Einführung in LLaMA2

19. Juli 2023: Meta veröffentlicht das kommerzielle Open-Source-Modell Llama 2.

Llama 2 ist eine Sammlung vorab trainierter und fein abgestimmter generativer Textmodelle mit einer Größe von 7 bis 70 Milliarden Parametern.

Die fein abgestimmten LLMs namens Llama-2-Chat sind für Konversationsanwendungsfälle optimiert. Das Llama-2-Chat-Modell übertrifft Open-Source-Chat-Modelle bei den meisten von uns getesteten Benchmarks und liegt bei menschlichen Bewertungen von Nützlichkeit und Sicherheit auf Augenhöhe mit einigen beliebten Closed-Source-Modellen wie ChatGPT und PaLM.

LLaMA-2-chat ist fast das einzige Open-Source-Modell, das RLHF ausführt. Nach fünf RLHF-Runden zeigte LLaMA-2 bei der Auswertung von Metas eigenem Belohnungsmodell und GPT-4 eine bessere Leistung als ChatGPT.

Papier

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

GitHub

Adresse:
https://github.com/facebookresearch/llama

umarmendes Gesicht

Adresse:
https://huggingface.co/meta-llama

Modellliste

Llama2-Chat:

Llama2-Chat-7B

Llama2-Chat-13B

Llama2-Chat-70B

Für andere Modelle prüfen Sie bitte:
https://huggingface.co/meta-llama

Trainingsdaten

  1. Trainiert anhand eines Datensatzes von über 2 Billionen Token.
  2. Die Feinabstimmungsdaten umfassen öffentlich verfügbare Befehlsdatensätze sowie über 1 Million neue, von Menschen kommentierte Beispiele.
  3. Die Frist für die Bereitstellung von Pre-Training-Daten endet im September 2022

Trainingsinformationen

  1. Alle Modelle werden mit einer globalen Stapelgröße von 4 Millionen Token trainiert.
  2. Das größere 70-Milliarden-Parametermodell verwendet Grouped-Query Attention (GQA), um die Skalierbarkeit der Inferenz zu verbessern.
  3. Der Ausbildungszeitraum ist von Januar 2023 bis Juli 2023.
  4. ist ein Nur-Text-Modell.
  5. Während des Vortrainingsprozesses wurden 330.000 GPU-Stunden für A100-80GB aufgewendet.

Modellinformationen

Die Kontextlänge beträgt 4K.

Lizenz

Kostenlos für kommerzielle Nutzung

Registrierungsantrag erforderlich

beziehen auf

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

https://github.com/facebookresearch/llama

https://huggingface.co/meta-llama

Llama2-Chat-7B

Llama2-Chat-13B

Llama2-Chat-70B