Spaces:

ZennyKenny
/

GRPO_Qwen_3B_ZK_FineTune_LoRA_Demo

Sleeping

ZennyKenny commited on 14 days ago

Commit

f60da4f

verified ·

1 Parent(s): 4e01411

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import gradio as gr
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import torch
 # Load the base model
 base_model = AutoModelForCausalLM.from_pretrained(
@@ -22,14 +23,13 @@ model = PeftModel.from_pretrained(
 # Load the tokenizer
 tokenizer = AutoTokenizer.from_pretrained("unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit")
-@spaces.GPU
 def generate_response(prompt):
     reasoning_prompt = (
         "Answer the following question and explain your reasoning step by step.\n"
         f"Question: {prompt}\nReasoning:"
     )
     inputs = tokenizer(reasoning_prompt, return_tensors="pt").to(model.device)
     # Using TextIteratorStreamer for streaming responses
     streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
@@ -42,7 +42,7 @@ def generate_response(prompt):
         streamer=streamer
     )
-    thread = torch.Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     for new_text in streamer:
@@ -54,7 +54,7 @@ demo = gr.Interface(
     outputs=gr.Textbox(label="Response"),
     title="LoRA Model Reasoning Inference",
     description="Demo your LoRA model with step-by-step reasoning in Hugging Face Gradio.",
-    live=True
 )
 demo.launch(share=True)

 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import torch
+import threading
 # Load the base model
 base_model = AutoModelForCausalLM.from_pretrained(
 # Load the tokenizer
 tokenizer = AutoTokenizer.from_pretrained("unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit")
 def generate_response(prompt):
     reasoning_prompt = (
         "Answer the following question and explain your reasoning step by step.\n"
         f"Question: {prompt}\nReasoning:"
     )
     inputs = tokenizer(reasoning_prompt, return_tensors="pt").to(model.device)
     # Using TextIteratorStreamer for streaming responses
     streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
         streamer=streamer
     )
+    thread = threading.Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     for new_text in streamer:
     outputs=gr.Textbox(label="Response"),
     title="LoRA Model Reasoning Inference",
     description="Demo your LoRA model with step-by-step reasoning in Hugging Face Gradio.",
+    allow_flagging="never"
 )
 demo.launch(share=True)