Spaces:

Pectics
/

Softie

Sleeping

Pectics commited on Jan 23

Commit

a2fc719

verified ·

1 Parent(s): aa819ab

asnyc trial

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,9 +18,9 @@ max_pixels = 1280 * 28 * 28
 processor: Qwen2VLProcessor = AutoProcessor.from_pretrained(model_path, min_pixels=min_pixels, max_pixels=max_pixels)
 @GPU
-def infer(inputs: BatchFeature, **kwargs):
     inputs = inputs.to("cuda")
-    Thread(target=model.generate, kwargs=kwargs).start()
 def respond(
     message,
@@ -45,13 +45,12 @@ def respond(
     )
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     kwargs = dict(
-        inputs=inputs,
         streamer=streamer,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
     )
-    infer(**kwargs)
     response = ""
     for token in streamer:
         response += token

 processor: Qwen2VLProcessor = AutoProcessor.from_pretrained(model_path, min_pixels=min_pixels, max_pixels=max_pixels)
 @GPU
+async def infer(inputs: BatchFeature, **kwargs):
     inputs = inputs.to("cuda")
+    model.generate(**inputs, **kwargs)
 def respond(
     message,
     )
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     kwargs = dict(
         streamer=streamer,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
     )
+    infer(inputs, **kwargs)
     response = ""
     for token in streamer:
         response += token