Partage de technologie

Grand modèle [Déploiement local Qwen2-7B (version WEB)] (windows)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Répertoire d'articles sur les grandes séries de modèles


Déploiement local Qwen2-7B (version WEB)

Préface

Le grand modèle est l'IA la plus puissante du premier semestre 2024, et Qwen2 est un grand modèle open source récemment publié qui est considéré comme le plus puissant de Chine. Il s'agit du premier article de la série des grands modèles. Il est conçu pour déployer rapidement et voir les performances des grands modèles récemment publiés. Si l'effet est correct, affinez vos propres GPT.

1. Téléchargez et installez Ollama

  1. EntrerSite officiel
  2. Cliquez sur Télécharger
  3. Sélectionnez Windos, cliquez sur Télécharger pour Windows (Aperçu), fq sera beaucoup plus rapide ici
  4. Installation par défaut

2. Téléchargez et installez Qwen2

1. Téléchargez Qwen2

  1. Accédez au tutoriel officiel : https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
  2. Cliquez d'abord sur Évaluation de l'efficacité en bas, regardez la mémoire vidéo occupée par chaque modèle et choisissez celle qui vous convient. Par exemple, ma carte graphique est 4070 et dispose de 12 Go de mémoire vidéo. Le modèle que j'ai choisi est Qwen2-7B-. Instruisez GPTQ-Int4.Veuillez ajouter une description de l'image
  3. EntrerLien de téléchargement
  4. Vous verrez différents suffixes, q" + le nombre de chiffres utilisés pour stocker les poids (précision) + la variante spécifique, plus le nombre est élevé, meilleures sont les performances.
  5. Plus le nombre est grand, plus la précision est élevée. k améliore la précision de 2 chiffres sur tous les tenseurs d'attention et feed_forward, et m améliore la précision de 2 chiffres sur la moitié des tenseurs d'attention et feed_forward.
  6. Choisissez un modèle en fonction de vos propres besoins. J'ai directement choisi Q8 ici.

2. Exécutez Qwen2

  1. Créez un nouveau dossier, donnez-lui un nom anglais (qwen) et déplacez qwen2-7b-instruct-q8_0.gguf dans le dossier.
  2. Créez un nouveau fichier nommé Modelfile dans le dossier et remplissez-le
FROM ./qwen2-7b-instruct-q8_0.gguf
  • 1
  1. Utilisez ensuite la ligne de commande pour créer le modèle Qwen2-7B via ollama :
ollama create Qwen2-7B -f ./Modelfile
  • 1

Si le succès apparaît, cela signifie que la création est réussie.

  1. Exécutez, entrez la commande
ollama run Qwen2-7B
  • 1

Lorsqu'une boîte de dialogue apparaît, vous pouvez discuter
Veuillez ajouter une description de l'image

Si vous voulez voir quels gros modèles sont disponibles localement : liste ollama
Si vous souhaitez supprimer ce modèle : ollama rm xxx
Si vous voulez voir quels grands modèles ont été exécutés : ollama ps

Mais discuter sous DOS a toujours la même sensation qu'au siècle dernier, donc afin de retrouver la sensation de GPT, nous continuerons à l'implémenter sur le Web.

3. Noeud.js

1.Téléchargement et installation de Node.js

  1. EntrerSite officiel du nœudTéléchargez Node et installez-le
  2. Vérifiez la version du nœud :
node -v
  • 1

Ce n'est pas un problème si c'est la version 20 ou supérieure

  1. téléchargercode ollama-webui
  2. Entrez dans le dossier ollama-webui et configurez la source miroir domestique pour accélérer :
npm config set registry http://mirrors.cloud.tencent.com/npm/
  • 1
  1. Installez les dépendances Node.js :
npm install
  • 1

Si le message d'erreur indique qu'un audit est requis, procédez simplement dans cet ordre :

npm audit
npm audit fix
  • 1
  • 2
  1. Démarrez l'interface Web :
npm run dev
  • 1

Ouvrirpage web, sélectionnez votre modèle pour démarrer la conversation :
Veuillez ajouter une description de l'image