Condivisione della tecnologia

Modello di grandi dimensioni [distribuzione locale Qwen2-7B (versione WEB)] (Windows)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Directory di articoli di serie di modelli di grandi dimensioni


Distribuzione locale Qwen2-7B (versione WEB)

Prefazione

Il modello di grandi dimensioni è l’IA più potente a partire dalla prima metà del 2024 e Qwen2 è un modello open source di grandi dimensioni appena rilasciato che si ritiene sia il più potente in Cina. Questo è il primo articolo della serie di modelli di grandi dimensioni. È progettato per distribuire rapidamente e vedere come si comportano i modelli di grandi dimensioni rilasciati di recente. Se l'effetto è OK, ottimizzare i propri GPT.

1. Scarica e installa Ollama

  1. accedereSito ufficiale
  2. Fare clic su Scarica
  3. Seleziona Windos, fai clic su Download per Windows (Anteprima), qui fq sarà molto più veloce
  4. Installazione di default

2. Scarica e installa Qwen2

1. Scarica Qwen2

  1. Accedi al tutorial ufficiale: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
  2. Per prima cosa fai clic su Valutazione efficienza in basso, guarda la memoria video occupata da ciascun modello e scegli quella più adatta a te Ad esempio, la mia scheda grafica è 4070 e ha una memoria video 12G. Il modello che ho scelto è Qwen2-7B-. Istruire GPTQ-Int4.Per favore aggiungi la descrizione dell'immagine
  3. accedereLink per scaricare
  4. Vedrai diversi suffissi, q” + il numero di cifre utilizzate per memorizzare i pesi (precisione) + la variante specifica, maggiore è il numero migliore è la prestazione.
  5. Maggiore è il numero, maggiore è la precisione. k migliora la precisione di 2 cifre su tutti i tensori attenzione e feed_forward e m migliora la precisione di 2 cifre su metà dei tensori attenzione e feed_forward.
  6. Scegli un modello in base alle tue esigenze Ho scelto direttamente Q8 qui.

2. Eseguire Qwen2

  1. Crea una nuova cartella, assegnale un nome inglese (qwen) e sposta qwen2-7b-instruct-q8_0.gguf nella cartella.
  2. Crea un nuovo file denominato Modelfile nella cartella e compilalo
FROM ./qwen2-7b-instruct-q8_0.gguf
  • 1
  1. Quindi utilizza la riga di comando per creare il modello Qwen2-7B tramite ollama:
ollama create Qwen2-7B -f ./Modelfile
  • 1

Se viene visualizzato il successo, significa che la creazione è riuscita.

  1. Corri, inserisci il comando
ollama run Qwen2-7B
  • 1

Quando viene visualizzata una finestra di dialogo, puoi chattare
Per favore aggiungi la descrizione dell'immagine

Se vuoi vedere quali modelli grandi sono disponibili localmente: elenco ollama
Se vuoi eliminare questo modello: ollama rm xxx
Se vuoi vedere quali modelli di grandi dimensioni sono stati eseguiti: ollama ps

Ma chattare in DOS è sempre uguale a chattare nel secolo scorso, quindi per ritrovare la sensazione di GPT, continueremo a implementarlo nel web.

3. Node.js

Download e installazione di 1.Node.js

  1. accedereSito ufficiale del nodoScarica Node e installalo
  2. Verifica la versione del nodo:
node -v
  • 1

Non è un problema se è v20 o successiva

  1. scaricamentocodice ollama-webui
  2. Entra nella cartella ollama-webui e imposta la sorgente del mirror domestico per velocizzare:
npm config set registry http://mirrors.cloud.tencent.com/npm/
  • 1
  1. Installa le dipendenze di Node.js:
npm install
  • 1

Se il messaggio di errore indica che è necessario un controllo, procedi in questo ordine:

npm audit
npm audit fix
  • 1
  • 2
  1. Avviare l'interfaccia web:
npm run dev
  • 1

Aprirepagina web, seleziona il tuo modello per iniziare la conversazione:
Per favore aggiungi la descrizione dell'immagine