Spaces:

PhantHive
/

Phearion-bigbrain-v0.0.1

Paused

PhantHive commited on Feb 17, 2024

Commit

679bcc5

verified ·

1 Parent(s): 058347f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,31 +3,22 @@ from peft import PeftModel, PeftConfig
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-if torch.cuda.is_available():
-    device = torch.device("cuda")
-    print("GPU is available!")
-else:
-    device = torch.device("cpu")
-    print("GPU is not available, using CPU.")
-# Load the model and config when the script starts
 peft_model_id = "phearion/bigbrain-v0.0.1"
 config = PeftConfig.from_pretrained(peft_model_id)
-model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path)
 tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)
-# Load the Lora model
-model = PeftModel.from_pretrained(model, peft_model_id)
 def greet(text):
-    batch = tokenizer("“aide moi avec les equa diff ” ->: ", return_tensors='pt')
-    with torch.cuda.amp.autocast():
-      output_tokens = model.generate(**batch, max_new_tokens=15)
     return tokenizer.decode(output_tokens[0], skip_special_tokens=True)
-iface = gr.Interface(fn=greet, inputs="text", outputs="text")
-iface.launch()

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Device configuration (prioritize GPU if available)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)  # Move model to the selected device
+# Load models and tokenizer efficiently
 peft_model_id = "phearion/bigbrain-v0.0.1"
 config = PeftConfig.from_pretrained(peft_model_id)
 tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)
+model = PeftModel.from_pretrained(peft_model_id).to(device)
 def greet(text):
+    with torch.no_grad():  # Disable gradient calculation for inference
+        batch = tokenizer(text, return_tensors='pt').to(device)  # Move tensors to device
+        with torch.cuda.amp.autocast():  # Enable mixed-precision if available
+            output_tokens = model.generate(**batch, max_new_tokens=15)
     return tokenizer.decode(output_tokens[0], skip_special_tokens=True)
+iface = gr.Interface(fn=greet, inputs="text", outputs="text", title="PEFT Model for Big Brain", live=True)
+iface.launch(share=True)  # Share directly to Gradio Space