Spaces:

lpetrl
/

demo-llm

Sleeping

Petro commited on Feb 28, 2024

Commit

3fa3baf

1 Parent(s): 011b7b6

First model version

Files changed (2) hide show

main.py CHANGED Viewed

@@ -1,33 +1,19 @@
-import os
-from langchain.llms import CTransformers
 from fastapi import FastAPI
 from pydantic import BaseModel
 file_name = "zephyr-7b-beta.Q4_K_S.gguf"
-config = {
-    "max_new_token": 10,
-    "repetition_penalty": 1.1,
-    "temperature": 0.5,
-    "top_k": 50,
-    "top_p": 0.9,
-    "stream": False,
-    "threads": 3,
-}
-llm = CTransformers(
-    model=file_name,
-    model_type="mistral",
-    lib="avx2",
-    **config
 )
-print(llm)
 class validation(BaseModel):
     prompt: str
 #Fast API
 app = FastAPI()
 @app.post("/llm_on_cpu")
@@ -36,5 +22,5 @@ async def stream(item: validation):
     E_INST = "</s>"
     user, assistant = "<|user|>", "<|assistant|>"
     prompt = f"{system_prompt}{E_INST}\n{user}\n{item.prompt}{E_INST}\n{assistant}\n"
-    print(prompt)
-    return llm.invoke(prompt)

+from ctransformers import AutoModelForCausalLM
 from fastapi import FastAPI
 from pydantic import BaseModel
 file_name = "zephyr-7b-beta.Q4_K_S.gguf"
+llm = AutoModelForCausalLM.from_pretrained(file_name,
+    model_type='mistral',
+    max_new_tokens = 1096,
+    threads = 3,
 )
+#Pydantic object
 class validation(BaseModel):
     prompt: str
 #Fast API
 app = FastAPI()
 @app.post("/llm_on_cpu")
     E_INST = "</s>"
     user, assistant = "<|user|>", "<|assistant|>"
     prompt = f"{system_prompt}{E_INST}\n{user}\n{item.prompt}{E_INST}\n{assistant}\n"
+    return llm(prompt)

requirements.txt CHANGED Viewed

@@ -5,6 +5,4 @@ uvicorn
 requests
 python-dotenv
 ctransformers
-torch
-langchain==0.1.9
-ctransformers

 requests
 python-dotenv
 ctransformers
+torch