Spaces:

freddyaboulton
/

talk-to-qwen-webrtc

Running on Zero

App Files Files Community

freddyaboulton HF Staff commited on Oct 30, 2024

Commit

3e40464

verified ·

1 Parent(s): e1218ad

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -19

app.py CHANGED Viewed

@@ -12,23 +12,15 @@ import uuid
 from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor
 import logging
-# Configure the root logger to WARNING to suppress debug messages from other libraries
 logging.basicConfig(level=logging.WARNING)
-# Create a console handler
 console_handler = logging.StreamHandler()
 console_handler.setLevel(logging.DEBUG)
-# Create a formatter
 formatter = logging.Formatter("%(name)s - %(levelname)s - %(message)s")
 console_handler.setFormatter(formatter)
-# Configure the logger for your specific library
 logger = logging.getLogger("gradio_webrtc")
 logger.setLevel(logging.DEBUG)
 logger.addHandler(console_handler)
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct")
 model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct", device_map="auto")
@@ -48,16 +40,9 @@ else:
     rtc_configuration = None
-def yield_audio(audio: tuple[int, np.ndarray]):
-    yield AdditionalOutputs(audio)
 @spaces.GPU
-def respond(transformers_convo: list[dict], gradio_convo: list[dict], audio: tuple[int, np.ndarray], ):
     segment = AudioSegment(audio[1].tobytes(), frame_rate=audio[0], sample_width=audio[1].dtype.itemsize, channels=1)
     name = str(uuid.uuid4()) + ".mp3"
     segment.export(name, format="mp3")
     transformers_convo.append({"role": "user", "content": [{"type": "audio", "audio_url": name}]})
@@ -79,10 +64,11 @@ def respond(transformers_convo: list[dict], gradio_convo: list[dict], audio: tup
     generate_ids = model.generate(**inputs, max_length=256)
     generate_ids = generate_ids[:, inputs["input_ids"].size(1):]
     response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
     transformers_convo.append({"role": "assistant", "content": response})
     gradio_convo.append({"role": "assistant", "content": response})
-    yield transformers_convo, gradio_convo
 with gr.Blocks() as demo:
@@ -98,8 +84,8 @@ with gr.Blocks() as demo:
         with gr.Column():
             transcript = gr.Chatbot(label="transcript", type="messages")
-    audio.stream(ReplyOnPause(yield_audio), inputs=[audio], outputs=[audio])
-    audio.on_additional_outputs(respond, outputs=[transformers_convo, transcript])
 if __name__ == "__main__":
     demo.launch()

 from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor
 import logging
 logging.basicConfig(level=logging.WARNING)
 console_handler = logging.StreamHandler()
 console_handler.setLevel(logging.DEBUG)
 formatter = logging.Formatter("%(name)s - %(levelname)s - %(message)s")
 console_handler.setFormatter(formatter)
 logger = logging.getLogger("gradio_webrtc")
 logger.setLevel(logging.DEBUG)
 logger.addHandler(console_handler)
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct")
 model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct", device_map="auto")
     rtc_configuration = None
 @spaces.GPU
+def transcribe(audio: tuple[int, np.ndarray], transformers_convo: list[dict], gradio_convo: list[dict]):
     segment = AudioSegment(audio[1].tobytes(), frame_rate=audio[0], sample_width=audio[1].dtype.itemsize, channels=1)
     name = str(uuid.uuid4()) + ".mp3"
     segment.export(name, format="mp3")
     transformers_convo.append({"role": "user", "content": [{"type": "audio", "audio_url": name}]})
     generate_ids = model.generate(**inputs, max_length=256)
     generate_ids = generate_ids[:, inputs["input_ids"].size(1):]
     response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+    print("response", response)
     transformers_convo.append({"role": "assistant", "content": response})
     gradio_convo.append({"role": "assistant", "content": response})
+    yield AdditionalOutputs(transformers_convo, gradio_convo)
 with gr.Blocks() as demo:
         with gr.Column():
             transcript = gr.Chatbot(label="transcript", type="messages")
+    audio.stream(ReplyOnPause(transcribe), inputs=[audio, transformers_convo, transcript], outputs=[audio])
+    audio.on_additional_outputs(lambda s,a: (s,a), outputs=[transformers_convo, transcript])
 if __name__ == "__main__":
     demo.launch()