2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
질문 의미:
FastAPI, Llama.cpp 및 Langchain을 사용하여 로컬 대형 언어 모델 스트리밍
저는 Llama.cpp와 Langchain으로 FastAPI를 설정했습니다. 이제 FastAPI 응답에서 스트리밍을 활성화하고 싶습니다. 스트리밍은 터미널에서 Llama.cpp로 작동하지만 FastAPI 응답으로 구현할 수 없었습니다.
Llama.cpp와 Langchain을 사용하여 FastAPI를 설정했습니다. 이제 FastAPI 응답에서 스트리밍을 활성화하고 싶습니다. 내 터미널에서는 Llama.cpp에서 스트리밍이 제대로 작동하지만 FastAPI 응답에서는 작동하지 않습니다.
대부분 튜토리얼은 OpenAI 모델로 스트리밍을 활성화하는 데 초점을 맞추었지만, 저는 llama.cpp로 로컬 LLM(양자화된 Mistral)을 사용하고 있습니다. 콜백 핸들러를 수정해야 할 것 같지만, 튜토리얼이 작동하지 않았습니다. 제 코드는 다음과 같습니다.
대부분의 튜토리얼은 OpenAI 모델을 사용하여 스트리밍을 활성화하는 방법에 중점을 두고 있지만 저는 llama.cpp와 함께 기본 대규모 언어 모델(양자화된 Mistral)을 사용하고 있습니다. Callbackhandler를 수정해야 한다고 생각하지만 작동하는 튜토리얼을 찾지 못했습니다. 아래는 내 코드입니다.
- from fastapi import FastAPI, Request, Response
- from langchain_community.llms import LlamaCpp
- from langchain.callbacks.manager import CallbackManager
- from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
- import copy
- from langchain.chains import LLMChain
- from langchain.prompts import PromptTemplate
-
- model_path = "../modelle/mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf"
-
- prompt= """
-