대형모델[Qwen2-7B 로컬배포(WEB버전)] (windows)

대형 모델[Qwen2-7B 로컬 배포(WEB 버전)](windows)

2024-07-12

대형 모델 시리즈 기사 디렉토리

머리말

대형 모델은 2024년 상반기 기준 가장 강력한 AI이며, Qwen2는 중국에서 가장 강력하다고 자부하는 새로 출시된 대형 오픈소스 모델이다. 이것은 대형 모델 시리즈의 첫 번째 기사입니다. 최근 출시된 대형 모델의 성능을 빠르게 살펴보고 효과가 괜찮다면 직접 GPT를 미세 조정해 보세요.

1. 올라마 다운로드 및 설치

입력하다공식 웹 사이트
다운로드를 클릭하세요
Windos를 선택하고 Windows용 다운로드(미리보기)를 클릭하면 여기에서 fq가 훨씬 빨라집니다.
기본 설치

2. Qwen2 다운로드 및 설치

1. Qwen2 다운로드

공식 튜토리얼을 입력하세요: https://qwen.readthedocs.io/zh-cn/latest/getting_started/installation.html
먼저 하단의 효율성 평가를 클릭하고, 각 모델이 차지하는 비디오 메모리를 살펴보고 자신에게 맞는 것을 선택하세요. 예를 들어 제 그래픽 카드는 4070이고 비디오 메모리는 12G입니다. 제가 선택한 모델은 Qwen2-7B-입니다. GPTQ-Int4에 지시합니다.
입력하다다운로드 링크
다양한 접미사(q” + 가중치(정밀도)를 저장하는 데 사용되는 자릿수 + 특정 변형)가 표시됩니다. 숫자가 높을수록 성능이 향상됩니다.
숫자가 클수록 정확도가 높아집니다. k는 모든 Attention 및 Feed_forward 텐서의 정확도를 2자리 향상시키고, m은 Attention 및 Feed_forward 텐서의 절반에서 정확도를 2자리 향상시킵니다.
자신의 필요에 따라 모델을 선택하십시오. 여기서는 Q8을 직접 선택했습니다.

2. Qwen2 실행

새 폴더를 만들고 영어 이름(qwen)을 지정한 다음 qwen2-7b-instruct-q8_0.gguf를 해당 폴더로 이동합니다.
폴더에 Modelfile이라는 새 파일을 만들고 채워주세요.

FROM ./qwen2-7b-instruct-q8_0.gguf
1

그런 다음 명령줄을 사용하여 ollama를 통해 Qwen2-7B 모델을 생성합니다.

ollama create Qwen2-7B -f ./Modelfile
1

성공이 나타나면 생성이 성공한 것입니다.

실행하고 명령을 입력하십시오

ollama run Qwen2-7B
1

대화상자가 나타나면 채팅을 할 수 있습니다.
이미지 설명을 추가해주세요

현지에서 어떤 대형 모델을 구입할 수 있는지 확인하려면: ollama 목록
이 모델을 삭제하고 싶다면: ollama rm xxx
어떤 대형 모델이 실행되었는지 확인하려면: ollama ps

하지만 DOS에서의 채팅은 언제나 지난 세기의 채팅과 같은 느낌이기 때문에 GPT의 느낌을 찾기 위해 계속해서 웹에서도 구현해 나갈 예정입니다.

3. Node.js

1.Node.js 다운로드 및 설치

입력하다노드 공식 홈페이지노드를 다운로드하고 설치하세요.
노드 버전 확인:

node -v
1

v20이상이면 문제없어요

다운로드ollama-webui 코드
ollama-webui 폴더에 들어가서 국내 미러 소스를 속도를 높이도록 설정하세요.

npm config set registry http://mirrors.cloud.tencent.com/npm/
1

Node.js 종속성을 설치합니다.

npm install
1

오류 메시지에 감사가 필요하다는 내용이 나타나면 다음 순서대로 진행하세요.

npm audit
npm audit fix
1
2

웹 인터페이스를 시작합니다:

npm run dev
1

열려 있는웹 페이지, 모델을 선택하여 대화를 시작하세요.
이미지 설명을 추가해주세요

기술나눔