Spaces:

waynebruce2110
/

GraveSocialAI

Running

waynebruce2110 commited on about 21 hours ago

Commit

1fa4878

verified ·

1 Parent(s): 8a21366

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import torch
 import uvicorn
@@ -9,19 +9,15 @@ app = FastAPI()
 # Model name (update with your actual model path on Hugging Face)
 model_name = "waynebruce2110/GraveSocialAI"
-# Enable 8-bit quantization for CPU
-quantization_config = BitsAndBytesConfig(
-    load_in_8bit=True,  # Enables 8-bit loading
-    llm_int8_enable_fp32_cpu_offload=True  # Ensures it works on CPU
-)
-# Load the tokenizer and model with 8-bit quantization
 tokenizer = AutoTokenizer.from_pretrained(model_name, local_files_only=False)
 model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    local_files_only=False,
-    device_map="cpu",  # Ensures it loads on CPU
-    quantization_config=quantization_config
 )
 # Define input schema
@@ -34,8 +30,9 @@ def read_root():
 @app.post("/generate/")
 def generate_text(data: PromptInput):
-    inputs = tokenizer(data.prompt, return_tensors="pt")
-    outputs = model.generate(**inputs, max_length=100)
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"generated_text": response}

 from fastapi import FastAPI
 from pydantic import BaseModel
+from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 import uvicorn
 # Model name (update with your actual model path on Hugging Face)
 model_name = "waynebruce2110/GraveSocialAI"
+# Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_name, local_files_only=False)
+# Load model with 8-bit quantization on CPU
 model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    local_files_only=False,
+    torch_dtype=torch.float16,  # Reduces memory usage
+    device_map="cpu"  # Forces model to load on CPU
 )
 # Define input schema
 @app.post("/generate/")
 def generate_text(data: PromptInput):
+    inputs = tokenizer(data.prompt, return_tensors="pt").to("cpu")  # Ensure input is on CPU
+    with torch.no_grad():
+        outputs = model.generate(**inputs, max_length=100)
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"generated_text": response}