Compartir tecnología

Modelo grande [implementación local Qwen2-7B (versión WEB)] (Windows)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Directorio de artículos de series de modelos grandes.


Implementación local de Qwen2-7B (versión WEB)

Prefacio

El modelo grande es la IA más potente en la primera mitad de 2024, y Qwen2 es un modelo grande de código abierto recientemente lanzado que se afirma que es el más potente en China. Este es el primer artículo de la serie de modelos grandes. Está diseñado para implementar rápidamente y ver cómo funcionan los modelos grandes lanzados recientemente. Si el efecto es bueno, ajuste sus propios GPT.

1. Descargue e instale Ollama

  1. IngresarPágina web oficial
  2. Haga clic en Descargar
  3. Seleccione Windos, haga clic en Descargar para Windows (Vista previa), fq será mucho más rápido aquí
  4. Instalación por defecto

2. Descargue e instale Qwen2

1. Descargar Qwen2

  1. Ingrese al tutorial oficial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
  2. Primero haga clic en Evaluación de eficiencia en la parte inferior, mire la memoria de video que ocupa cada modelo y elija la que más le convenga. Por ejemplo, mi tarjeta gráfica es 4070 y tiene memoria de video de 12G. El modelo que elegí es Qwen2-7B-. Instruir a GPTQ-Int4.Por favor agregue la descripción de la imagen.
  3. IngresarEnlace de descarga
  4. Verá diferentes sufijos, q” + el número de dígitos utilizados para almacenar los pesos (precisión) + la variante específica, cuanto mayor sea el número, mejor será el rendimiento.
  5. Cuanto mayor sea el número, mayor será la precisión. k mejora la precisión en 2 dígitos en todos los tensores de atención y retroalimentación, y m mejora la precisión en 2 dígitos en la mitad de los tensores de atención y retroalimentación.
  6. Elija un modelo según sus propias necesidades. Elegí directamente Q8 aquí.

2. Ejecute Qwen2

  1. Cree una nueva carpeta, asígnele un nombre en inglés (qwen) y mueva qwen2-7b-instruct-q8_0.gguf a la carpeta.
  2. Cree un nuevo archivo llamado Modelfile en la carpeta y rellénelo
FROM ./qwen2-7b-instruct-q8_0.gguf
  • 1
  1. Luego use la línea de comando para crear el modelo Qwen2-7B a través de ollama:
ollama create Qwen2-7B -f ./Modelfile
  • 1

Si aparece el éxito, significa que la creación fue exitosa.

  1. Ejecute, ingrese el comando
ollama run Qwen2-7B
  • 1

Cuando aparece un cuadro de diálogo, puedes chatear.
Por favor agregue la descripción de la imagen.

Si quieres ver qué modelos grandes hay disponibles localmente: lista de ollama
Si deseas eliminar este modelo: ollama rm xxx
Si quieres ver qué modelos grandes se ejecutaron: ollama ps

Pero chatear en DOS siempre se siente igual que chatear en el siglo pasado, por lo que para encontrar la sensación de GPT, continuaremos implementándolo en la web.

3. Nodo.js

1.Descarga e instalación de Node.js

  1. IngresarSitio web oficial del nodoDescarga Node e instálalo
  2. Verificar la versión del nodo:
node -v
  • 1

No hay problema si es v20 o superior

  1. descargarcódigo ollama-webui
  2. Ingrese a la carpeta ollama-webui y configure la fuente del espejo doméstico para acelerar:
npm config set registry http://mirrors.cloud.tencent.com/npm/
  • 1
  1. Instale las dependencias de Node.js:
npm install
  • 1

Si el mensaje de error dice que se requiere una auditoría, simplemente proceda en este orden:

npm audit
npm audit fix
  • 1
  • 2
  1. Inicie la interfaz web:
npm run dev
  • 1

AbiertoPágina web, selecciona tu modelo para iniciar la conversación:
Por favor agregue la descripción de la imagen.