Spaces:

r1208
/

c4ai-command-r-v01-4bit_32r

Sleeping

r1208 commited on Jun 8, 2024

Commit

1b52551

verified ·

1 Parent(s): bb6cfb1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,12 @@ from peft import AutoPeftModelForCausalLM
 from transformers import AutoTokenizer
 import torch
 @spaces.GPU
 def main():
@@ -25,6 +31,8 @@ def main():
         messages = [{"role": "user", "content": prompts}]
         input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
         prompt_padded_len = len(input_ids[0])
         # Generate the translation
@@ -63,6 +71,7 @@ def main():
     model = AutoPeftModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, use_auth_token=hf_token)
     tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=hf_token)
     tokenizer_with_prefix_space = AutoTokenizer.from_pretrained(model_id, add_prefix_space=True, use_auth_token=hf_token)

 from transformers import AutoTokenizer
 import torch
+import torch
+print(f"Is CUDA available: {torch.cuda.is_available()}")
+# True
+print(f"CUDA device: {torch.cuda.get_device_name(torch.cuda.current_device())}")
+# Tesla T4
 @spaces.GPU
 def main():
         messages = [{"role": "user", "content": prompts}]
         input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
+        input_ids = input_ids.to("cuda")
         prompt_padded_len = len(input_ids[0])
         # Generate the translation
     model = AutoPeftModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, use_auth_token=hf_token)
+    model = model.to("cuda")
     tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=hf_token)
     tokenizer_with_prefix_space = AutoTokenizer.from_pretrained(model_id, add_prefix_space=True, use_auth_token=hf_token)