大型モデル【Qwen2-7B ローカル展開(WEB版)】(Windows)
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
大型モデルシリーズ記事ディレクトリ
Qwen2-7B ローカル展開(WEB版)
序文
大型モデルは2024年上半期時点で最強のAIであり、Qwen2は新たにリリースされた大型オープンソースモデルで中国最強と謳われている。これは、大規模モデル シリーズの最初の記事であり、最近リリースされた大規模モデルのパフォーマンスを迅速に確認し、効果に問題がなければ、独自の GPT を微調整することを目的としています。
1. Ollamaをダウンロードしてインストールします
- 入力公式ウェブサイト
- 「ダウンロード」をクリックします
- 「Windos」を選択し、「Windows 用のダウンロード (プレビュー)」をクリックします。ここでは fq がはるかに高速になります。
- デフォルトのインストール
2. Qwen2をダウンロードしてインストールします
1.Qwen2をダウンロードする
- 公式チュートリアルにアクセスしてください: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
- まず、下部にある「効率評価」をクリックし、各モデルが占有しているビデオ メモリを確認して、適切なモデルを選択します。たとえば、私のグラフィック カードは 4070 で、12G のビデオ メモリを搭載しています。私が選択したモデルは Qwen2-7B- です。 GPTQ-Int4 に指示します。

- 入力ダウンロードリンク
- さまざまなサフィックス、q” + 重み (精度) の保存に使用される桁数 + 特定のバリアントが表示されます。数値が大きいほど、パフォーマンスが向上します。
- 数値が大きいほど、k はすべての tention および feed_forward テンソルの精度を 2 桁向上させ、m は半分の tention および feed_forward テンソルの精度を 2 桁向上させます。
- ここでは自分のニーズに合わせてモデルを選択してください。
2. Qwen2を実行します
- 新しいフォルダーを作成し、英語名 (qwen) を付け、そのフォルダーに qwen2-7b-instruct-q8_0.gguf を移動します。
- フォルダー内に Modelfile という名前の新しいファイルを作成し、次のように入力します。
FROM ./qwen2-7b-instruct-q8_0.gguf
- 次に、コマンド ラインを使用して、ollam を通じて Qwen2-7B モデルを作成します。
ollama create Qwen2-7B -f ./Modelfile
「成功」と表示されれば、作成は成功したことを意味します。
- 実行してコマンドを入力します
ollama run Qwen2-7B
ダイアログボックスが表示されたらチャットが可能です

ローカルで入手可能な大きなモデルを確認したい場合: ollam list
このモデルを削除したい場合: ollama rm xxx
どの大きなモデルが実行されたかを確認したい場合: olllama ps
しかし、DOS でのチャットは常に前世紀のチャットと同じように感じられるため、GPT の感覚を見つけるために、Web でのチャットの実装を継続します。
3.Node.js
1.Node.jsのダウンロードとインストール
- 入力ノード公式サイトノードをダウンロードしてインストールします
- ノードのバージョンを確認します。
node -v
v20以降なら問題ない
- ダウンロードollam-webui コード
- ollam-webui フォルダーに入り、国内のミラー ソースを高速化するように設定します。
npm config set registry http://mirrors.cloud.tencent.com/npm/
- Node.js の依存関係をインストールします。
npm install
エラー メッセージに監査が必要であることが示されている場合は、次の順序で続行してください。
npm audit
npm audit fix
- Web インターフェースを開始します。
npm run dev
開けるウェブページ、モデルを選択して会話を開始します。
