Spaces:

davnas
/

provaAncora

Runtime error

davnas commited on Dec 8, 2024

Commit

584e514

verified ·

1 Parent(s): 0ace396

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,14 +2,18 @@ import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-# Load model and tokenizer
 model_name = "davnas/Italian_Cousine_2.1"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    torch_dtype=torch.float32,  # Use float32 for CPU
     low_cpu_mem_usage=True,
-    device_map="auto"
 )
 def respond(message, history, system_message, max_tokens, temperature, top_p):
@@ -30,7 +34,7 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
         tokenize=True,
         add_generation_prompt=True,
         return_tensors="pt"
-    )
     # Generate response
     with torch.no_grad():
@@ -41,7 +45,6 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
             temperature=temperature,
             top_p=top_p,
             pad_token_id=tokenizer.pad_token_id,
-            streaming=True
         )
     # Decode and return the response

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Load model and tokenizer with CPU-compatible settings
 model_name = "davnas/Italian_Cousine_2.1"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    device_map="auto",
+    torch_dtype=torch.float32,
+    load_in_8bit=False,  # Disable quantization
+    load_in_4bit=False,  # Disable quantization
+    quantization_config=None,
+    use_safetensors=True,
     low_cpu_mem_usage=True,
 )
 def respond(message, history, system_message, max_tokens, temperature, top_p):
         tokenize=True,
         add_generation_prompt=True,
         return_tensors="pt"
+    ).to(model.device)
     # Generate response
     with torch.no_grad():
             temperature=temperature,
             top_p=top_p,
             pad_token_id=tokenizer.pad_token_id,
         )
     # Decode and return the response