Das große Modell ist die stärkste KI im ersten Halbjahr 2024, und Qwen2 ist ein neu veröffentlichtes großes Open-Source-Modell, das angeblich das stärkste in China ist. Dies ist der erste Artikel der großen Modellreihe. Er dient dazu, die kürzlich veröffentlichten großen Modelle schnell bereitzustellen und zu sehen. Wenn der Effekt in Ordnung ist, können Sie Ihre eigenen GPTs optimieren.
1. Laden Sie Ollama herunter und installieren Sie es
Wählen Sie Windows aus, klicken Sie auf „Für Windows herunterladen (Vorschau)“, fq wird hier viel schneller sein
Standardinstallation
2. Laden Sie Qwen2 herunter und installieren Sie es
1. Laden Sie Qwen2 herunter
Besuchen Sie das offizielle Tutorial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
Klicken Sie zunächst unten auf „Effizienzbewertung“, sehen Sie sich den von jedem Modell belegten Videospeicher an und wählen Sie das Modell aus, das zu Ihnen passt. Meine Grafikkarte ist beispielsweise 4070 und verfügt über 12G-Videospeicher. Das von mir gewählte Modell ist Qwen2-7B. Weisen Sie GPTQ-Int4 an.
Sie sehen verschiedene Suffixe: „q“ + die Anzahl der Ziffern, die zum Speichern der Gewichte verwendet werden (Genauigkeit) + die spezifische Variante. Je höher die Zahl, desto besser die Leistung.
Je größer die Zahl, desto höher die Genauigkeit. k verbessert die Genauigkeit um 2 Stellen bei allen Aufmerksamkeits- und Feed-Forward-Tensoren und m verbessert die Genauigkeit um 2 Stellen bei der Hälfte der Aufmerksamkeits- und Feed-Forward-Tensoren.
Wählen Sie ein Modell entsprechend Ihren eigenen Bedürfnissen. Ich habe mich hier direkt für Q8 entschieden.
2. Führen Sie Qwen2 aus
Erstellen Sie einen neuen Ordner, geben Sie ihm einen englischen Namen (qwen) und verschieben Sie qwen2-7b-instruct-q8_0.gguf in den Ordner.
Erstellen Sie im Ordner eine neue Datei mit dem Namen Modelfile und füllen Sie sie aus
FROM ./qwen2-7b-instruct-q8_0.gguf
1
Verwenden Sie dann die Befehlszeile, um das Qwen2-7B-Modell über Ollama zu erstellen:
ollama create Qwen2-7B -f ./Modelfile
1
Wenn Erfolg auftritt, bedeutet dies, dass die Erstellung erfolgreich war.
Ausführen, geben Sie den Befehl ein
ollama run Qwen2-7B
1
Wenn ein Dialogfeld angezeigt wird, können Sie chatten
Wenn Sie sehen möchten, welche großen Modelle vor Ort verfügbar sind: Ollama-Liste Wenn Sie dieses Modell löschen möchten: ollama rm xxx Wenn Sie sehen möchten, welche großen Modelle gefahren wurden: ollama ps
Aber das Chatten unter DOS fühlt sich immer genauso an wie das Chatten im letzten Jahrhundert. Um das Gefühl von GPT wiederzufinden, werden wir es weiterhin im Web implementieren.