Spaces:

davnas
/

provaAncora

Runtime error

davnas commited on Dec 8, 2024

Commit

b3990cf

verified ·

1 Parent(s): 584e514

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,17 +1,23 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 # Load model and tokenizer with CPU-compatible settings
 model_name = "davnas/Italian_Cousine_2.1"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    device_map="auto",
     torch_dtype=torch.float32,
-    load_in_8bit=False,  # Disable quantization
-    load_in_4bit=False,  # Disable quantization
-    quantization_config=None,
     use_safetensors=True,
     low_cpu_mem_usage=True,
 )
@@ -34,7 +40,7 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
         tokenize=True,
         add_generation_prompt=True,
         return_tensors="pt"
-    ).to(model.device)
     # Generate response
     with torch.no_grad():

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import torch
 # Load model and tokenizer with CPU-compatible settings
 model_name = "davnas/Italian_Cousine_2.1"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# Configure quantization properly
+quantization_config = BitsAndBytesConfig(
+    load_in_4bit=False,
+    load_in_8bit=False,
+    bnb_4bit_quant_type=None
+)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    device_map="cpu",  # Explicitly set to CPU
     torch_dtype=torch.float32,
+    quantization_config=quantization_config,
     use_safetensors=True,
     low_cpu_mem_usage=True,
 )
         tokenize=True,
         add_generation_prompt=True,
         return_tensors="pt"
+    )
     # Generate response
     with torch.no_grad():