Большая модель — это самый мощный ИИ по состоянию на первую половину 2024 года, а Qwen2 — это недавно выпущенная крупная модель с открытым исходным кодом, которая считается самой сильной в Китае. Это первая статья в серии о больших моделях. Она предназначена для быстрого развертывания и просмотра работы недавно выпущенных больших моделей. Если результат в порядке, настройте свои собственные GPT.
Сначала нажмите «Оценка эффективности» внизу, посмотрите, какую видеопамять занимает каждая модель, и выберите ту, которая вам подходит. Например, моя видеокарта 4070 и имеет 12 ГБ видеопамяти. Модель, которую я выбрал, — Qwen2-7B-. Поручите GPTQ-Int4.
Вы увидите разные суффиксы: q» + количество цифр, используемых для хранения весов (точность) + конкретный вариант. Чем выше число, тем выше производительность.
Чем больше число, тем выше точность. k повышает точность на 2 цифры для всех тензоров внимания и прямой передачи, а m повышает точность на 2 цифры для половины тензоров внимания и прямой связи.
Выбирайте модель в соответствии со своими потребностями. Я сразу выбрал Q8.
2. Запустите Qwen2
Создайте новую папку, дайте ей английское имя (qwen) и переместите в нее qwen2-7b-instruct-q8_0.gguf.
Создайте в папке новый файл с именем Modelfile и заполните его
FROM ./qwen2-7b-instruct-q8_0.gguf
1
Затем используйте командную строку для создания модели Qwen2-7B через ollama:
ollama create Qwen2-7B -f ./Modelfile
1
Если появится успех, значит, творение удалось.
Запускаем, вводим команду
ollama run Qwen2-7B
1
Когда появится диалоговое окно, вы можете поговорить
Если вы хотите увидеть, какие большие модели доступны локально: список ollama Если вы хотите удалить эту модель: ollama rm xxx Если вы хотите увидеть, какие большие модели запускались: ollama ps.
Но общение в DOS всегда ощущается так же, как общение в прошлом веке, поэтому, чтобы почувствовать ощущение GPT, мы продолжим внедрять его в Интернет.