大規模モデル [Qwen2-7B ローカル展開 (WEB 版)] (windows)

大型モデル【Qwen2-7B ローカル展開（WEB版）】（Windows）

2024-07-12

大型モデルシリーズ記事ディレクトリ

序文

大型モデルは2024年上半期時点で最強のAIであり、Qwen2は新たにリリースされた大型オープンソースモデルで中国最強と謳われている。これは、大規模モデルシリーズの最初の記事であり、最近リリースされた大規模モデルのパフォーマンスを迅速に確認し、効果に問題がなければ、独自の GPT を微調整することを目的としています。

1. Ollamaをダウンロードしてインストールします

入力公式ウェブサイト
「ダウンロード」をクリックします
「Windos」を選択し、「Windows 用のダウンロード (プレビュー)」をクリックします。ここでは fq がはるかに高速になります。
デフォルトのインストール

2. Qwen2をダウンロードしてインストールします

1.Qwen2をダウンロードする

公式チュートリアルにアクセスしてください: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
まず、下部にある「効率評価」をクリックし、各モデルが占有しているビデオメモリを確認して、適切なモデルを選択します。たとえば、私のグラフィックカードは 4070 で、12G のビデオメモリを搭載しています。私が選択したモデルは Qwen2-7B- です。 GPTQ-Int4 に指示します。
入力ダウンロードリンク
さまざまなサフィックス、q” + 重み (精度) の保存に使用される桁数 + 特定のバリアントが表示されます。数値が大きいほど、パフォーマンスが向上します。
数値が大きいほど、k はすべての tention および feed_forward テンソルの精度を 2 桁向上させ、m は半分の tention および feed_forward テンソルの精度を 2 桁向上させます。
ここでは自分のニーズに合わせてモデルを選択してください。

2. Qwen2を実行します

新しいフォルダーを作成し、英語名 (qwen) を付け、そのフォルダーに qwen2-7b-instruct-q8_0.gguf を移動します。
フォルダー内に Modelfile という名前の新しいファイルを作成し、次のように入力します。

FROM ./qwen2-7b-instruct-q8_0.gguf
1

次に、コマンドラインを使用して、ollam を通じて Qwen2-7B モデルを作成します。

ollama create Qwen2-7B -f ./Modelfile
1

「成功」と表示されれば、作成は成功したことを意味します。

実行してコマンドを入力します

ollama run Qwen2-7B
1

ダイアログボックスが表示されたらチャットが可能です
画像の説明を追加してください

ローカルで入手可能な大きなモデルを確認したい場合: ollam list
このモデルを削除したい場合: ollama rm xxx
どの大きなモデルが実行されたかを確認したい場合: olllama ps

しかし、DOS でのチャットは常に前世紀のチャットと同じように感じられるため、GPT の感覚を見つけるために、Web でのチャットの実装を継続します。

3.Node.js

1.Node.jsのダウンロードとインストール

入力ノード公式サイトノードをダウンロードしてインストールします
ノードのバージョンを確認します。

node -v
1

v20以降なら問題ない

ダウンロードollam-webui コード
ollam-webui フォルダーに入り、国内のミラーソースを高速化するように設定します。

npm config set registry http://mirrors.cloud.tencent.com/npm/
1

Node.js の依存関係をインストールします。

npm install
1

エラーメッセージに監査が必要であることが示されている場合は、次の順序で続行してください。

npm audit
npm audit fix
1
2

Web インターフェースを開始します。

npm run dev
1

開けるウェブページ、モデルを選択して会話を開始します。
画像の説明を追加してください

技術共有