Spaces:

freddyaboulton
/

talk-to-qwen-webrtc

Running on Zero

freddyaboulton HF Staff commited on Oct 30, 2024

Commit

9d561cc

verified ·

1 Parent(s): ae20481

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -48,8 +48,14 @@ else:
     rtc_configuration = None
 @spaces.GPU
-def transcribe(audio: tuple[int, np.ndarray], transformers_convo: list[dict], gradio_convo: list[dict]):
     segment = AudioSegment(audio[1].tobytes(), frame_rate=audio[0], sample_width=audio[1].dtype.itemsize, channels=1)
     name = str(uuid.uuid4()) + ".mp3"
@@ -73,11 +79,10 @@ def transcribe(audio: tuple[int, np.ndarray], transformers_convo: list[dict], gr
     generate_ids = model.generate(**inputs, max_length=256)
     generate_ids = generate_ids[:, inputs["input_ids"].size(1):]
     response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
-    print("response", response)
     transformers_convo.append({"role": "assistant", "content": response})
     gradio_convo.append({"role": "assistant", "content": response})
-    yield AdditionalOutputs(transformers_convo, gradio_convo)
 with gr.Blocks() as demo:
@@ -93,8 +98,8 @@ with gr.Blocks() as demo:
         with gr.Column():
             transcript = gr.Chatbot(label="transcript", type="messages")
-    audio.stream(ReplyOnPause(transcribe), inputs=[audio, transformers_convo, transcript], outputs=[audio])
-    audio.on_additional_outputs(lambda s,a: (s,a), outputs=[transformers_convo, transcript])
 if __name__ == "__main__":
     demo.launch()

     rtc_configuration = None
+def yield_audio(audio: tuple[int, np.ndarray]):
+    yield AdditionalOutputs(audio)
 @spaces.GPU
+def respond(transformers_convo: list[dict], gradio_convo: list[dict], audio: tuple[int, np.ndarray], ):
     segment = AudioSegment(audio[1].tobytes(), frame_rate=audio[0], sample_width=audio[1].dtype.itemsize, channels=1)
     name = str(uuid.uuid4()) + ".mp3"
     generate_ids = model.generate(**inputs, max_length=256)
     generate_ids = generate_ids[:, inputs["input_ids"].size(1):]
     response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
     transformers_convo.append({"role": "assistant", "content": response})
     gradio_convo.append({"role": "assistant", "content": response})
+    yield transformers_convo, gradio_convo
 with gr.Blocks() as demo:
         with gr.Column():
             transcript = gr.Chatbot(label="transcript", type="messages")
+    audio.stream(ReplyOnPause(yield_audio), inputs=[audio], outputs=[audio])
+    audio.on_additional_outputs(respond, outputs=[transformers_convo, transcript])
 if __name__ == "__main__":
     demo.launch()