Большая модель [локальное развертывание Qwen2-7B (веб-версия)] (windows)

Большая модель [локальное развертывание Qwen2-7B (веб-версия)] (Windows)

2024-07-12

Каталог статей большой серии моделей

Локальное развертывание Qwen2-7B (ВЕБ-версия)

Предисловие

Большая модель — это самый мощный ИИ по состоянию на первую половину 2024 года, а Qwen2 — это недавно выпущенная крупная модель с открытым исходным кодом, которая считается самой сильной в Китае. Это первая статья в серии о больших моделях. Она предназначена для быстрого развертывания и просмотра работы недавно выпущенных больших моделей. Если результат в порядке, настройте свои собственные GPT.

1. Загрузите и установите Олламу.

ВходитьОфициальный веб-сайт
Нажмите «Загрузить».
Выбираем Windos, нажимаем Download for Windows (Preview), здесь fq будет намного быстрее
Установка по умолчанию

2. Загрузите и установите Qwen2.

1. Загрузите Qwen2

Откройте официальное руководство: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html.
Сначала нажмите «Оценка эффективности» внизу, посмотрите, какую видеопамять занимает каждая модель, и выберите ту, которая вам подходит. Например, моя видеокарта 4070 и имеет 12 ГБ видеопамяти. Модель, которую я выбрал, — Qwen2-7B-. Поручите GPTQ-Int4.
ВходитьСсылка для скачивания
Вы увидите разные суффиксы: q» + количество цифр, используемых для хранения весов (точность) + конкретный вариант. Чем выше число, тем выше производительность.
Чем больше число, тем выше точность. k повышает точность на 2 цифры для всех тензоров внимания и прямой передачи, а m повышает точность на 2 цифры для половины тензоров внимания и прямой связи.
Выбирайте модель в соответствии со своими потребностями. Я сразу выбрал Q8.

2. Запустите Qwen2

Создайте новую папку, дайте ей английское имя (qwen) и переместите в нее qwen2-7b-instruct-q8_0.gguf.
Создайте в папке новый файл с именем Modelfile и заполните его

FROM ./qwen2-7b-instruct-q8_0.gguf
1

Затем используйте командную строку для создания модели Qwen2-7B через ollama:

ollama create Qwen2-7B -f ./Modelfile
1

Если появится успех, значит, творение удалось.

Запускаем, вводим команду

ollama run Qwen2-7B
1

Когда появится диалоговое окно, вы можете поговорить
Пожалуйста, добавьте описание изображения

Если вы хотите увидеть, какие большие модели доступны локально: список ollama
Если вы хотите удалить эту модель: ollama rm xxx
Если вы хотите увидеть, какие большие модели запускались: ollama ps.

Но общение в DOS всегда ощущается так же, как общение в прошлом веке, поэтому, чтобы почувствовать ощущение GPT, мы продолжим внедрять его в Интернет.

3. Node.js

1.Загрузка и установка Node.js

ВходитьОфициальный сайт узлаЗагрузите Node и установите его
Проверьте версию узла:

node -v
1

Это не проблема, если это v20 или выше

скачатькод оллама-вебуи
Войдите в папку ollama-webui и установите источник внутреннего зеркала для ускорения:

npm config set registry http://mirrors.cloud.tencent.com/npm/
1

Установите зависимости Node.js:

npm install
1

Если в сообщении об ошибке говорится, что требуется аудит, просто действуйте в следующем порядке:

npm audit
npm audit fix
1
2

Запустите веб-интерфейс:

npm run dev
1

Открытьвеб-страница, выберите свою модель, чтобы начать разговор:
Пожалуйста, добавьте описание изображения

Обмен технологиями