2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Bedeutung der Frage:
Streaming lokaler großer Sprachmodelle mit FastAPI, Llama.cpp und Langchain
Ich habe FastAPI mit Llama.cpp und Langchain eingerichtet. Jetzt möchte ich Streaming in den FastAPI-Antworten aktivieren. Streaming funktioniert mit Llama.cpp in meinem Terminal, aber ich konnte es nicht mit einer FastAPI-Antwort implementieren.
Ich habe FastAPI mit Llama.cpp und Langchain eingerichtet. Jetzt möchte ich das Streaming in der FastAPI-Antwort aktivieren. In meinem Terminal funktioniert das Streaming mit Llama.cpp einwandfrei, aber ich kann es mit der FastAPI-Antwort nicht zum Laufen bringen.
Die meisten Tutorials konzentrierten sich auf die Aktivierung von Streaming mit einem OpenAI-Modell, aber ich verwende ein lokales LLM (quantisiertes Mistral) mit llama.cpp. Ich glaube, ich muss den Callbackhandler ändern, aber kein Tutorial hat funktioniert. Hier ist mein Code:
Die meisten Tutorials konzentrieren sich darauf, wie man Streaming mit OpenAI-Modellen ermöglicht, aber ich verwende ein natives großes Sprachmodell (quantisiertes Mistral) mit llama.cpp. Ich glaube, ich muss den Callbackhandler ändern, aber ich habe kein Tutorial gefunden, das funktioniert. Unten ist mein Code:
- from fastapi import FastAPI, Request, Response
- from langchain_community.llms import LlamaCpp
- from langchain.callbacks.manager import CallbackManager
- from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
- import copy
- from langchain.chains import LLMChain
- from langchain.prompts import PromptTemplate
-
- model_path = "../modelle/mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf"
-
- prompt= """
-