O modelo grande é a IA mais forte no primeiro semestre de 2024, e Qwen2 é um grande modelo de código aberto recém-lançado que é considerado o mais forte da China. Este é o primeiro artigo da série de modelos grandes. Ele foi projetado para implantar rapidamente e ver o desempenho dos modelos grandes lançados recentemente. Se o efeito for bom, ajuste seus próprios GPTs.
Selecione Windos, clique em Download para Windows (Visualização), o fq será muito mais rápido aqui
Instalação padrão
2. Baixe e instale Qwen2
1. Baixe Qwen2
Entre no tutorial oficial: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
Primeiro clique em Avaliação de Eficiência na parte inferior, observe a memória de vídeo ocupada por cada modelo e escolha a que mais lhe convier. Por exemplo, minha placa gráfica é 4070 e tem memória de vídeo 12G. O modelo que escolhi é Qwen2-7B-. Instrua GPTQ-Int4.
Você verá diferentes sufixos, q” + o número de dígitos usados para armazenar os pesos (precisão) + a variante específica, quanto maior o número melhor o desempenho.
Quanto maior o número, maior a precisão k melhora a precisão em 2 dígitos em todos os tensores de atenção e feed_forward, e m melhora a precisão em 2 dígitos em metade dos tensores de atenção e feed_forward.
Escolha um modelo de acordo com suas necessidades. Escolhi diretamente Q8 aqui.
2. Execute Qwen2
Crie uma nova pasta, dê a ela um nome em inglês (qwen) e mova qwen2-7b-instruct-q8_0.gguf para a pasta.
Crie um novo arquivo chamado Modelfile na pasta e preencha-o
FROM ./qwen2-7b-instruct-q8_0.gguf
1
Em seguida, use a linha de comando para criar o modelo Qwen2-7B por meio do ollama:
ollama create Qwen2-7B -f ./Modelfile
1
Se aparecer sucesso, significa que a criação foi bem-sucedida.
Execute, digite o comando
ollama run Qwen2-7B
1
Quando uma caixa de diálogo aparecer, você poderá conversar
Se você quiser ver quais grandes modelos estão disponíveis localmente: lista ollama Se você deseja excluir este modelo: ollama rm xxx Se você quiser ver quais modelos grandes foram rodados: ollama ps
Mas conversar no DOS sempre parece o mesmo que conversar no século passado, então, para encontrar a sensação do GPT, continuaremos a implementá-lo na web.