2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Значение вопроса:
Потоковая передача локальных моделей большого языка с использованием FastAPI, Llama.cpp и Langchain.
Я настроил FastAPI с Llama.cpp и Langchain. Теперь я хочу включить потоковую передачу в ответах FastAPI. Потоковая передача работает с Llama.cpp в моем терминале, но я не смог реализовать ее с ответом FastAPI.
Я настроил FastAPI, используя Llama.cpp и Langchain. Теперь я хочу включить потоковую передачу в ответе FastAPI. В моем терминале потоковая передача отлично работает с Llama.cpp, но я не могу заставить ее работать с ответом FastAPI.
Большинство руководств были сосредоточены на включении потоковой передачи с помощью модели OpenAI, но я использую локальный LLM (квантованный Mistral) с llama.cpp. Я думаю, что мне нужно изменить Callbackhandler, но ни одно руководство не помогло. Вот мой код:
Большинство руководств посвящено тому, как включить потоковую передачу с использованием моделей OpenAI, но я использую собственную модель большого языка (квантованный Mistral) с llama.cpp. Я думаю, мне нужно изменить обработчик обратного вызова, но я не нашел ни одного работающего руководства. Ниже мой код:
- from fastapi import FastAPI, Request, Response
- from langchain_community.llms import LlamaCpp
- from langchain.callbacks.manager import CallbackManager
- from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
- import copy
- from langchain.chains import LLMChain
- from langchain.prompts import PromptTemplate
-
- model_path = "../modelle/mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf"
-
- prompt= """
-