Spaces:

ZennyKenny
/

GRPO_Qwen_3B_ZK_FineTune_LoRA_Demo

Sleeping

ZennyKenny commited on 17 days ago

Commit

4e01411

verified ·

1 Parent(s): c4c5c31

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,8 @@
 import spaces
 import gradio as gr
 from peft import PeftModel
-from transformers import AutoModelForCausalLM, AutoTokenizer
 # Load the base model
 base_model = AutoModelForCausalLM.from_pretrained(
@@ -29,19 +30,23 @@ def generate_response(prompt):
     )
     inputs = tokenizer(reasoning_prompt, return_tensors="pt").to(model.device)
-    # Streamed response
-    stream = model.generate(
         **inputs,
-        max_new_tokens=300,  # Increased token limit
         do_sample=True,
         temperature=0.8,
         top_p=0.95,
-        stream=True
     )
-    # Yield output tokens in real-time
-    for chunk in stream:
-        yield tokenizer.decode(chunk[0], skip_special_tokens=True)
 demo = gr.Interface(
     fn=generate_response,
@@ -52,4 +57,4 @@ demo = gr.Interface(
     live=True
 )
-demo.launch()

 import spaces
 import gradio as gr
 from peft import PeftModel
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+import torch
 # Load the base model
 base_model = AutoModelForCausalLM.from_pretrained(
     )
     inputs = tokenizer(reasoning_prompt, return_tensors="pt").to(model.device)
+    # Using TextIteratorStreamer for streaming responses
+    streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
+    generation_kwargs = dict(
         **inputs,
+        max_new_tokens=300,
         do_sample=True,
         temperature=0.8,
         top_p=0.95,
+        streamer=streamer
     )
+    thread = torch.Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    for new_text in streamer:
+        yield new_text
 demo = gr.Interface(
     fn=generate_response,
     live=True
 )
+demo.launch(share=True)