2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Kysymyksen merkitys:
Paikallisten suurten kielimallien suoratoisto FastAPI:lla, Llama.cpp:llä ja Langchainilla
Olen asentanut FastAPI:n Llama.cpp:n ja Langchainin kanssa. Nyt haluan ottaa suoratoiston käyttöön FastAPI-vastauksissa. Suoratoisto toimii päätelaitteeni Llama.cpp:n kanssa, mutta en pystynyt toteuttamaan sitä FastAPI-vastauksella.
Olen asentanut FastAPI:n Llama.cpp:n ja Langchainin avulla. Nyt haluan ottaa suoratoiston käyttöön FastAPI-vastauksessa. Päätteessäni suoratoisto toimii hyvin Llama.cpp:n kanssa, mutta en saa sitä toimimaan FastAPI-vastauksen kanssa.
Useimmat opetusohjelmat keskittyivät suoratoiston mahdollistamiseen OpenAI-mallilla, mutta käytän paikallista LLM:ää (quantized Mistral) llama.cpp:n kanssa. Luulen, että minun on muutettava Callbackhandleria, mutta mikään opetusohjelma ei toiminut. Tässä on minun koodini:
Useimmat opetusohjelmat keskittyvät suoratoiston mahdollistamiseen OpenAI-malleilla, mutta käytän alkuperäistä isokielimallia (kvantoitu Mistral) llama.cpp:n kanssa. Luulen, että minun on muutettava Callbackhandleria, mutta en löytänyt toimivaa opetusohjelmaa. Alla on koodini:
- from fastapi import FastAPI, Request, Response
- from langchain_community.llms import LlamaCpp
- from langchain.callbacks.manager import CallbackManager
- from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
- import copy
- from langchain.chains import LLMChain
- from langchain.prompts import PromptTemplate
-
- model_path = "../modelle/mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf"
-
- prompt= """
-