api-test

Runtime error

OjciecTadeusz commited on Nov 14, 2024

Commit

dff7757

verified ·

1 Parent(s): f66db79

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,11 +12,14 @@ app = FastAPI()
 # Load model and tokenizer
 model_name = "Qwen/Qwen2.5-Coder-32B"
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="auto",
     trust_remote_code=True,
-    torch_dtype=torch.float16
 )
 def format_chat_response(response_text, prompt_tokens, completion_tokens):
@@ -91,12 +94,15 @@ def chat_interface(message, history):
     # Add current message
     messages.append({"role": "user", "content": message})
     # Get response
-    response = chat_completion(Request(scope={"type": "http"}, receive=None))
     if isinstance(response, JSONResponse):
-        response_data = response.body.decode()
-        response_json = json.loads(response_data)
-        return response_json["choices"][0]["message"]["content"]
     return "Error generating response"
 interface = gr.ChatInterface(

 # Load model and tokenizer
 model_name = "Qwen/Qwen2.5-Coder-32B"
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+# Configure model loading with specific parameters
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="auto",
     trust_remote_code=True,
+    torch_dtype=torch.float16,
+    low_cpu_mem_usage=True
 )
 def format_chat_response(response_text, prompt_tokens, completion_tokens):
     # Add current message
     messages.append({"role": "user", "content": message})
+    # Create a mock request object with the messages
+    mock_request = Request(scope={"type": "http"}, receive=None)
+    mock_request.json = lambda: {"messages": messages}
     # Get response
+    response = await chat_completion(mock_request)
     if isinstance(response, JSONResponse):
+        response_data = json.loads(response.body.decode())
+        return response_data["choices"][0]["message"]["content"]
     return "Error generating response"
 interface = gr.ChatInterface(