Teknologian jakaminen

Paikallisen LLM:n suoratoisto FastAPI:n, Llama.cpp:n ja Langchainin avulla

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kysymyksen merkitys:

Paikallisten suurten kielimallien suoratoisto FastAPI:lla, Llama.cpp:llä ja Langchainilla

Ongelman tausta:

Olen asentanut FastAPI:n Llama.cpp:n ja Langchainin kanssa. Nyt haluan ottaa suoratoiston käyttöön FastAPI-vastauksissa. Suoratoisto toimii päätelaitteeni Llama.cpp:n kanssa, mutta en pystynyt toteuttamaan sitä FastAPI-vastauksella.

Olen asentanut FastAPI:n Llama.cpp:n ja Langchainin avulla. Nyt haluan ottaa suoratoiston käyttöön FastAPI-vastauksessa. Päätteessäni suoratoisto toimii hyvin Llama.cpp:n kanssa, mutta en saa sitä toimimaan FastAPI-vastauksen kanssa.

Useimmat opetusohjelmat keskittyivät suoratoiston mahdollistamiseen OpenAI-mallilla, mutta käytän paikallista LLM:ää (quantized Mistral) llama.cpp:n kanssa. Luulen, että minun on muutettava Callbackhandleria, mutta mikään opetusohjelma ei toiminut. Tässä on minun koodini:

Useimmat opetusohjelmat keskittyvät suoratoiston mahdollistamiseen OpenAI-malleilla, mutta käytän alkuperäistä isokielimallia (kvantoitu Mistral) llama.cpp:n kanssa. Luulen, että minun on muutettava Callbackhandleria, mutta en löytänyt toimivaa opetusohjelmaa. Alla on koodini:

  1. from fastapi import FastAPI, Request, Response
  2. from langchain_community.llms import LlamaCpp
  3. from langchain.callbacks.manager import CallbackManager
  4. from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
  5. import copy
  6. from langchain.chains import LLMChain
  7. from langchain.prompts import PromptTemplate
  8. model_path = "../modelle/mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf"
  9. prompt= """