Spaces:

Pectics
/

Softie

Sleeping

Pectics commited on Jan 23

Commit

af0c8f0

verified ·

1 Parent(s): a2fc719

Embeded generator

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,9 +18,14 @@ max_pixels = 1280 * 28 * 28
 processor: Qwen2VLProcessor = AutoProcessor.from_pretrained(model_path, min_pixels=min_pixels, max_pixels=max_pixels)
 @GPU
-async def infer(inputs: BatchFeature, **kwargs):
     inputs = inputs.to("cuda")
-    model.generate(**inputs, **kwargs)
 def respond(
     message,
@@ -50,10 +55,7 @@ def respond(
         temperature=temperature,
         top_p=top_p,
     )
-    infer(inputs, **kwargs)
-    response = ""
-    for token in streamer:
-        response += token
         yield response
 app = ChatInterface(

 processor: Qwen2VLProcessor = AutoProcessor.from_pretrained(model_path, min_pixels=min_pixels, max_pixels=max_pixels)
 @GPU
+def infer(inputs: BatchFeature, streamer, kwargs: dict):
     inputs = inputs.to("cuda")
+    thread = Thread(target=model.generate, kwargs={**inputs, **kwargs})
+    thread.start()
+    response = ""
+    for token in streamer:
+        response += token
+        yield response
 def respond(
     message,
         temperature=temperature,
         top_p=top_p,
     )
+    for response in infer(inputs, streamer, kwargs):
         yield response
 app = ChatInterface(