Just

Sleeping

Trigger82 commited on May 31

Commit

65c4e7d

verified ·

1 Parent(s): 222ea30

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,10 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from fastapi import FastAPI
 MODEL_ID = "rasyosef/Phi-1_5-Instruct-v0.1"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(MODEL_ID)
@@ -16,7 +16,7 @@ def chat(query: str):
     GET /chat?query=Your+question
     Returns JSON: {"answer": "...model’s reply..."}
     """
     prompt = (
         "<|im_start|>system\nYou are a helpful assistant.<|im_end|>"
         "<|im_start|>user\n" + query + "<|im_end|>"
@@ -24,7 +24,7 @@ def chat(query: str):
     )
     inputs = tokenizer(prompt, return_tensors="pt")
     outputs = model.generate(**inputs, max_new_tokens=200)
     response = tokenizer.decode(
         outputs[0][inputs.input_ids.shape[-1]:],
         skip_special_tokens=True

 from transformers import AutoModelForCausalLM, AutoTokenizer
 from fastapi import FastAPI
+# Model ID on Hugging Face
 MODEL_ID = "rasyosef/Phi-1_5-Instruct-v0.1"
+# Load tokenizer and model from local cache (pre-downloaded in Docker build)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(MODEL_ID)
     GET /chat?query=Your+question
     Returns JSON: {"answer": "...model’s reply..."}
     """
+    # Build the instruction‐style prompt expected by Phi‐1.5 Instruct
     prompt = (
         "<|im_start|>system\nYou are a helpful assistant.<|im_end|>"
         "<|im_start|>user\n" + query + "<|im_end|>"
     )
     inputs = tokenizer(prompt, return_tensors="pt")
     outputs = model.generate(**inputs, max_new_tokens=200)
+    # Only decode newly generated tokens (skip the “prompt” tokens)
     response = tokenizer.decode(
         outputs[0][inputs.input_ids.shape[-1]:],
         skip_special_tokens=True