Modelo grande [implantação local Qwen2-7B (versão WEB)] (windows)

Modelo grande [implantação local Qwen2-7B (versão WEB)] (Windows)

2024-07-12

Diretório de artigos de grandes séries de modelos

Prefácio

O modelo grande é a IA mais forte no primeiro semestre de 2024, e Qwen2 é um grande modelo de código aberto recém-lançado que é considerado o mais forte da China. Este é o primeiro artigo da série de modelos grandes. Ele foi projetado para implantar rapidamente e ver o desempenho dos modelos grandes lançados recentemente. Se o efeito for bom, ajuste seus próprios GPTs.

1. Baixe e instale o Ollama

DigitarWebsite oficial
Clique em Baixar
Selecione Windos, clique em Download para Windows (Visualização), o fq será muito mais rápido aqui
Instalação padrão

2. Baixe e instale Qwen2

1. Baixe Qwen2

Entre no tutorial oficial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
Primeiro clique em Avaliação de Eficiência na parte inferior, observe a memória de vídeo ocupada por cada modelo e escolha a que mais lhe convier. Por exemplo, minha placa gráfica é 4070 e tem memória de vídeo 12G. O modelo que escolhi é Qwen2-7B-. Instrua GPTQ-Int4.
DigitarLink para Download
Você verá diferentes sufixos, q” + o número de dígitos usados para armazenar os pesos (precisão) + a variante específica, quanto maior o número melhor o desempenho.
Quanto maior o número, maior a precisão k melhora a precisão em 2 dígitos em todos os tensores de atenção e feed_forward, e m melhora a precisão em 2 dígitos em metade dos tensores de atenção e feed_forward.
Escolha um modelo de acordo com suas necessidades. Escolhi diretamente Q8 aqui.

2. Execute Qwen2

Crie uma nova pasta, dê a ela um nome em inglês (qwen) e mova qwen2-7b-instruct-q8_0.gguf para a pasta.
Crie um novo arquivo chamado Modelfile na pasta e preencha-o

FROM ./qwen2-7b-instruct-q8_0.gguf
1

Em seguida, use a linha de comando para criar o modelo Qwen2-7B por meio do ollama:

ollama create Qwen2-7B -f ./Modelfile
1

Se aparecer sucesso, significa que a criação foi bem-sucedida.

Execute, digite o comando

ollama run Qwen2-7B
1

Quando uma caixa de diálogo aparecer, você poderá conversar
Adicione a descrição da imagem

Se você quiser ver quais grandes modelos estão disponíveis localmente: lista ollama
Se você deseja excluir este modelo: ollama rm xxx
Se você quiser ver quais modelos grandes foram rodados: ollama ps

Mas conversar no DOS sempre parece o mesmo que conversar no século passado, então, para encontrar a sensação do GPT, continuaremos a implementá-lo na web.

3. Node.js.

1. Download e instalação do Node.js

DigitarSite oficial do nóBaixe o Node e instale-o
Verifique a versão do nó:

node -v
1

Não há problema se for v20 ou superior

downloadcódigo ollama-webui
Entre na pasta ollama-webui e defina a fonte do espelho doméstico para acelerar:

npm config set registry http://mirrors.cloud.tencent.com/npm/
1

Instale as dependências do Node.js:

npm install
1

Se a mensagem de erro indicar que uma auditoria é necessária, proceda nesta ordem:

npm audit
npm audit fix
1
2

Inicie a interface da web:

npm run dev
1

Abrirpágina da Internet, selecione seu modelo para iniciar a conversa:
Adicione a descrição da imagem

Compartilhamento de tecnologia