Großes Modell [Qwen2-7B lokale Bereitstellung (WEB-Version)] (Windows)

2024-07-12

Großes Artikelverzeichnis für Modellreihen

Lokale Bereitstellung von Qwen2-7B (WEB-Version)

Vorwort

Das große Modell ist die stärkste KI im ersten Halbjahr 2024, und Qwen2 ist ein neu veröffentlichtes großes Open-Source-Modell, das angeblich das stärkste in China ist. Dies ist der erste Artikel der großen Modellreihe. Er dient dazu, die kürzlich veröffentlichten großen Modelle schnell bereitzustellen und zu sehen. Wenn der Effekt in Ordnung ist, können Sie Ihre eigenen GPTs optimieren.

1. Laden Sie Ollama herunter und installieren Sie es

EingebenOffizielle Website
Klicken Sie auf Herunterladen
Wählen Sie Windows aus, klicken Sie auf „Für Windows herunterladen (Vorschau)“, fq wird hier viel schneller sein
Standardinstallation

2. Laden Sie Qwen2 herunter und installieren Sie es

1. Laden Sie Qwen2 herunter

Besuchen Sie das offizielle Tutorial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
Klicken Sie zunächst unten auf „Effizienzbewertung“, sehen Sie sich den von jedem Modell belegten Videospeicher an und wählen Sie das Modell aus, das zu Ihnen passt. Meine Grafikkarte ist beispielsweise 4070 und verfügt über 12G-Videospeicher. Das von mir gewählte Modell ist Qwen2-7B. Weisen Sie GPTQ-Int4 an.
EingebenDownload-Link
Sie sehen verschiedene Suffixe: „q“ + die Anzahl der Ziffern, die zum Speichern der Gewichte verwendet werden (Genauigkeit) + die spezifische Variante. Je höher die Zahl, desto besser die Leistung.
Je größer die Zahl, desto höher die Genauigkeit. k verbessert die Genauigkeit um 2 Stellen bei allen Aufmerksamkeits- und Feed-Forward-Tensoren und m verbessert die Genauigkeit um 2 Stellen bei der Hälfte der Aufmerksamkeits- und Feed-Forward-Tensoren.
Wählen Sie ein Modell entsprechend Ihren eigenen Bedürfnissen. Ich habe mich hier direkt für Q8 entschieden.

2. Führen Sie Qwen2 aus

Erstellen Sie einen neuen Ordner, geben Sie ihm einen englischen Namen (qwen) und verschieben Sie qwen2-7b-instruct-q8_0.gguf in den Ordner.
Erstellen Sie im Ordner eine neue Datei mit dem Namen Modelfile und füllen Sie sie aus

FROM ./qwen2-7b-instruct-q8_0.gguf
1

Verwenden Sie dann die Befehlszeile, um das Qwen2-7B-Modell über Ollama zu erstellen:

ollama create Qwen2-7B -f ./Modelfile
1

Wenn Erfolg auftritt, bedeutet dies, dass die Erstellung erfolgreich war.

Ausführen, geben Sie den Befehl ein

ollama run Qwen2-7B
1

Wenn ein Dialogfeld angezeigt wird, können Sie chatten
Bitte fügen Sie eine Bildbeschreibung hinzu

Wenn Sie sehen möchten, welche großen Modelle vor Ort verfügbar sind: Ollama-Liste
Wenn Sie dieses Modell löschen möchten: ollama rm xxx
Wenn Sie sehen möchten, welche großen Modelle gefahren wurden: ollama ps

Aber das Chatten unter DOS fühlt sich immer genauso an wie das Chatten im letzten Jahrhundert. Um das Gefühl von GPT wiederzufinden, werden wir es weiterhin im Web implementieren.

3. Node.js

1.Node.js herunterladen und installieren

EingebenOffizielle Node-WebsiteLaden Sie Node herunter und installieren Sie es
Überprüfen Sie die Knotenversion:

node -v
1

Es ist kein Problem, wenn es Version 20 oder höher ist

herunterladenOllama-Webui-Code
Geben Sie den Ordner ollama-webui ein und stellen Sie die heimische Spiegelquelle auf Beschleunigung ein:

npm config set registry http://mirrors.cloud.tencent.com/npm/
1

Installieren Sie Node.js-Abhängigkeiten:

npm install
1

Wenn die Fehlermeldung besagt, dass ein Audit erforderlich ist, gehen Sie einfach in dieser Reihenfolge vor:

npm audit
npm audit fix
1
2

Starten Sie die Weboberfläche:

npm run dev
1

OffenWebsite, wählen Sie Ihr Modell aus, um das Gespräch zu beginnen:
Bitte fügen Sie eine Bildbeschreibung hinzu

Technologieaustausch