Compartilhamento de tecnologia

Modelo grande [implantação local Qwen2-7B (versão WEB)] (Windows)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Diretório de artigos de grandes séries de modelos


Implantação local Qwen2-7B (versão WEB)

Prefácio

O modelo grande é a IA mais forte no primeiro semestre de 2024, e Qwen2 é um grande modelo de código aberto recém-lançado que é considerado o mais forte da China. Este é o primeiro artigo da série de modelos grandes. Ele foi projetado para implantar rapidamente e ver o desempenho dos modelos grandes lançados recentemente. Se o efeito for bom, ajuste seus próprios GPTs.

1. Baixe e instale o Ollama

  1. DigitarWebsite oficial
  2. Clique em Baixar
  3. Selecione Windos, clique em Download para Windows (Visualização), o fq será muito mais rápido aqui
  4. Instalação padrão

2. Baixe e instale Qwen2

1. Baixe Qwen2

  1. Entre no tutorial oficial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
  2. Primeiro clique em Avaliação de Eficiência na parte inferior, observe a memória de vídeo ocupada por cada modelo e escolha a que mais lhe convier. Por exemplo, minha placa gráfica é 4070 e tem memória de vídeo 12G. O modelo que escolhi é Qwen2-7B-. Instrua GPTQ-Int4.Adicione a descrição da imagem
  3. DigitarLink para Download
  4. Você verá diferentes sufixos, q” + o número de dígitos usados ​​para armazenar os pesos (precisão) + a variante específica, quanto maior o número melhor o desempenho.
  5. Quanto maior o número, maior a precisão k melhora a precisão em 2 dígitos em todos os tensores de atenção e feed_forward, e m melhora a precisão em 2 dígitos em metade dos tensores de atenção e feed_forward.
  6. Escolha um modelo de acordo com suas necessidades. Escolhi diretamente Q8 aqui.

2. Execute Qwen2

  1. Crie uma nova pasta, dê a ela um nome em inglês (qwen) e mova qwen2-7b-instruct-q8_0.gguf para a pasta.
  2. Crie um novo arquivo chamado Modelfile na pasta e preencha-o
FROM ./qwen2-7b-instruct-q8_0.gguf
  • 1
  1. Em seguida, use a linha de comando para criar o modelo Qwen2-7B por meio do ollama:
ollama create Qwen2-7B -f ./Modelfile
  • 1

Se aparecer sucesso, significa que a criação foi bem-sucedida.

  1. Execute, digite o comando
ollama run Qwen2-7B
  • 1

Quando uma caixa de diálogo aparecer, você poderá conversar
Adicione a descrição da imagem

Se você quiser ver quais grandes modelos estão disponíveis localmente: lista ollama
Se você deseja excluir este modelo: ollama rm xxx
Se você quiser ver quais modelos grandes foram rodados: ollama ps

Mas conversar no DOS sempre parece o mesmo que conversar no século passado, então, para encontrar a sensação do GPT, continuaremos a implementá-lo na web.

3. Node.js.

1. Download e instalação do Node.js

  1. DigitarSite oficial do nóBaixe o Node e instale-o
  2. Verifique a versão do nó:
node -v
  • 1

Não há problema se for v20 ou superior

  1. downloadcódigo ollama-webui
  2. Entre na pasta ollama-webui e defina a fonte do espelho doméstico para acelerar:
npm config set registry http://mirrors.cloud.tencent.com/npm/
  • 1
  1. Instale as dependências do Node.js:
npm install
  • 1

Se a mensagem de erro indicar que uma auditoria é necessária, proceda nesta ordem:

npm audit
npm audit fix
  • 1
  • 2
  1. Inicie a interface da web:
npm run dev
  • 1

Abrirpágina da Internet, selecione seu modelo para iniciar a conversa:
Adicione a descrição da imagem