El modelo grande es la IA más potente en la primera mitad de 2024, y Qwen2 es un modelo grande de código abierto recientemente lanzado que se afirma que es el más potente en China. Este es el primer artículo de la serie de modelos grandes. Está diseñado para implementar rápidamente y ver cómo funcionan los modelos grandes lanzados recientemente. Si el efecto es bueno, ajuste sus propios GPT.
Seleccione Windos, haga clic en Descargar para Windows (Vista previa), fq será mucho más rápido aquí
Instalación por defecto
2. Descargue e instale Qwen2
1. Descargar Qwen2
Ingrese al tutorial oficial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
Primero haga clic en Evaluación de eficiencia en la parte inferior, mire la memoria de video que ocupa cada modelo y elija la que más le convenga. Por ejemplo, mi tarjeta gráfica es 4070 y tiene memoria de video de 12G. El modelo que elegí es Qwen2-7B-. Instruir a GPTQ-Int4.
Verá diferentes sufijos, q” + el número de dígitos utilizados para almacenar los pesos (precisión) + la variante específica, cuanto mayor sea el número, mejor será el rendimiento.
Cuanto mayor sea el número, mayor será la precisión. k mejora la precisión en 2 dígitos en todos los tensores de atención y retroalimentación, y m mejora la precisión en 2 dígitos en la mitad de los tensores de atención y retroalimentación.
Elija un modelo según sus propias necesidades. Elegí directamente Q8 aquí.
2. Ejecute Qwen2
Cree una nueva carpeta, asígnele un nombre en inglés (qwen) y mueva qwen2-7b-instruct-q8_0.gguf a la carpeta.
Cree un nuevo archivo llamado Modelfile en la carpeta y rellénelo
FROM ./qwen2-7b-instruct-q8_0.gguf
1
Luego use la línea de comando para crear el modelo Qwen2-7B a través de ollama:
ollama create Qwen2-7B -f ./Modelfile
1
Si aparece el éxito, significa que la creación fue exitosa.
Ejecute, ingrese el comando
ollama run Qwen2-7B
1
Cuando aparece un cuadro de diálogo, puedes chatear.
Si quieres ver qué modelos grandes hay disponibles localmente: lista de ollama Si deseas eliminar este modelo: ollama rm xxx Si quieres ver qué modelos grandes se ejecutaron: ollama ps
Pero chatear en DOS siempre se siente igual que chatear en el siglo pasado, por lo que para encontrar la sensación de GPT, continuaremos implementándolo en la web.