Modelo grande [implementación local Qwen2-7B (versión WEB)] (Windows)

2024-07-12

Directorio de artículos de series de modelos grandes.

Implementación local de Qwen2-7B (versión WEB)

Prefacio

El modelo grande es la IA más potente en la primera mitad de 2024, y Qwen2 es un modelo grande de código abierto recientemente lanzado que se afirma que es el más potente en China. Este es el primer artículo de la serie de modelos grandes. Está diseñado para implementar rápidamente y ver cómo funcionan los modelos grandes lanzados recientemente. Si el efecto es bueno, ajuste sus propios GPT.

1. Descargue e instale Ollama

IngresarPágina web oficial
Haga clic en Descargar
Seleccione Windos, haga clic en Descargar para Windows (Vista previa), fq será mucho más rápido aquí
Instalación por defecto

2. Descargue e instale Qwen2

1. Descargar Qwen2

Ingrese al tutorial oficial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
Primero haga clic en Evaluación de eficiencia en la parte inferior, mire la memoria de video que ocupa cada modelo y elija la que más le convenga. Por ejemplo, mi tarjeta gráfica es 4070 y tiene memoria de video de 12G. El modelo que elegí es Qwen2-7B-. Instruir a GPTQ-Int4.
IngresarEnlace de descarga
Verá diferentes sufijos, q” + el número de dígitos utilizados para almacenar los pesos (precisión) + la variante específica, cuanto mayor sea el número, mejor será el rendimiento.
Cuanto mayor sea el número, mayor será la precisión. k mejora la precisión en 2 dígitos en todos los tensores de atención y retroalimentación, y m mejora la precisión en 2 dígitos en la mitad de los tensores de atención y retroalimentación.
Elija un modelo según sus propias necesidades. Elegí directamente Q8 aquí.

2. Ejecute Qwen2

Cree una nueva carpeta, asígnele un nombre en inglés (qwen) y mueva qwen2-7b-instruct-q8_0.gguf a la carpeta.
Cree un nuevo archivo llamado Modelfile en la carpeta y rellénelo

FROM ./qwen2-7b-instruct-q8_0.gguf
1

Luego use la línea de comando para crear el modelo Qwen2-7B a través de ollama:

ollama create Qwen2-7B -f ./Modelfile
1

Si aparece el éxito, significa que la creación fue exitosa.

Ejecute, ingrese el comando

ollama run Qwen2-7B
1

Cuando aparece un cuadro de diálogo, puedes chatear.
Por favor agregue la descripción de la imagen.

Si quieres ver qué modelos grandes hay disponibles localmente: lista de ollama
Si deseas eliminar este modelo: ollama rm xxx
Si quieres ver qué modelos grandes se ejecutaron: ollama ps

Pero chatear en DOS siempre se siente igual que chatear en el siglo pasado, por lo que para encontrar la sensación de GPT, continuaremos implementándolo en la web.

3. Nodo.js

1.Descarga e instalación de Node.js

IngresarSitio web oficial del nodoDescarga Node e instálalo
Verificar la versión del nodo:

node -v
1

No hay problema si es v20 o superior

descargarcódigo ollama-webui
Ingrese a la carpeta ollama-webui y configure la fuente del espejo doméstico para acelerar:

npm config set registry http://mirrors.cloud.tencent.com/npm/
1

Instale las dependencias de Node.js:

npm install
1

Si el mensaje de error dice que se requiere una auditoría, simplemente proceda en este orden:

npm audit
npm audit fix
1
2

Inicie la interfaz web:

npm run dev
1

AbiertoPágina web, selecciona tu modelo para iniciar la conversación:
Por favor agregue la descripción de la imagen.

Compartir tecnología