strength_weakness-fastapi

Runtime error

App Files Files Community

ManojINaik commited on Nov 16, 2024

Commit

d628814

verified ·

1 Parent(s): 9c76e91

Update main.py

Browse files

Files changed (1) hide show

main.py +80 -48

main.py CHANGED Viewed

@@ -1,59 +1,91 @@
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
-from huggingface_hub import InferenceClient
-app = FastAPI()
-# Use your model
-client = InferenceClient("ManojINaik/codsw")
-class Item(BaseModel):
     prompt: str
-    history: list
-    system_prompt: str
-    temperature: float = 0.0
-    max_new_tokens: int = 1048
-    top_p: float = 0.15
-    repetition_penalty: float = 1.0
-def format_prompt(message, history):
-    prompt = "<s>"
-    for user_prompt, bot_response in history:
-        prompt += f"[INST] {user_prompt} [/INST]"
-        prompt += f" {bot_response}</s> "
-    prompt += f"[INST] {message} [/INST]"
-    return prompt
-def generate(item: Item):
     try:
-        # Ensure valid temperature
-        temperature = max(float(item.temperature), 1e-2)
-        top_p = float(item.top_p)
-        generate_kwargs = {
-            "temperature": temperature,
-            "max_new_tokens": item.max_new_tokens,
-            "top_p": top_p,
-            "repetition_penalty": item.repetition_penalty,
-            "do_sample": True,
-            "seed": 42,
-        }
-        # Format the prompt
-        formatted_prompt = format_prompt(f"{item.system_prompt}, {item.prompt}", item.history)
-        # Call text_generation on your model (correct argument: formatted_prompt)
-        stream = client.text_generation(
-            formatted_prompt,  # Use the formatted prompt directly
-            **generate_kwargs,
-            stream=True,
         )
-        output = "".join([response.token.text for response in stream])
-        return output
     except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Internal error: {str(e)}")
-@app.post("/generate/")
-async def generate_text(item: Item):
-    return {"response": generate(item)}

 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+import torch
+from typing import Optional, List
+app = FastAPI(title="LLM API", description="API for interacting with LLaMA model")
+# Model configuration
+class ModelConfig:
+    model_name = "ManojINaik/Strength_weakness"  # Your fine-tuned model
+    device = "cpu"
+    max_length = 200
+    temperature = 0.7
+# Request/Response models
+class GenerateRequest(BaseModel):
     prompt: str
+    history: Optional[List[str]] = []
+    system_prompt: Optional[str] = "You are a very powerful AI assistant."
+    max_length: Optional[int] = 200
+    temperature: Optional[float] = 0.7
+class GenerateResponse(BaseModel):
+    response: str
+# Global variables for model and tokenizer
+model = None
+tokenizer = None
+generator = None
+@app.on_event("startup")
+async def load_model():
+    global model, tokenizer, generator
     try:
+        print("Loading model and tokenizer...")
+        tokenizer = AutoTokenizer.from_pretrained(ModelConfig.model_name)
+        model = AutoModelForCausalLM.from_pretrained(
+            ModelConfig.model_name,
+            torch_dtype=torch.float32,
+            device_map=ModelConfig.device,
+            low_cpu_mem_usage=True
+        )
+        generator = pipeline(
+            "text-generation",
+            model=model,
+            tokenizer=tokenizer,
+            device=ModelConfig.device
+        )
+        print("Model loaded successfully!")
+    except Exception as e:
+        print(f"Error loading model: {str(e)}")
+        raise e
+@app.post("/generate/", response_model=GenerateResponse)
+async def generate_text(request: GenerateRequest):
+    if generator is None:
+        raise HTTPException(status_code=500, detail="Model not loaded")
+    try:
+        # Format the prompt with system prompt and chat history
+        formatted_prompt = f"{request.system_prompt}\n\n"
+        for msg in request.history:
+            formatted_prompt += f"{msg}\n"
+        formatted_prompt += f"Human: {request.prompt}\nAssistant:"
+        # Generate response
+        outputs = generator(
+            formatted_prompt,
+            max_length=request.max_length,
+            temperature=request.temperature,
+            num_return_sequences=1,
+            do_sample=True,
+            pad_token_id=tokenizer.pad_token_id,
+            eos_token_id=tokenizer.eos_token_id
         )
+        # Extract the generated text
+        generated_text = outputs[0]['generated_text']
+        # Remove the prompt from the response
+        response = generated_text.split("Assistant:")[-1].strip()
+        return {"response": response}
     except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Error generating text: {str(e)}")
+@app.get("/")
+def root():
+    return {"message": "LLM API is running. Use /generate endpoint for text generation."}