Spaces:

rayl-aoit
/

rayl-gradio-labs

Sleeping

App Files Files Community

rayl-aoit commited on Jun 26, 2024

Commit

f1908d5

verified ·

1 Parent(s): 7af3726

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -1,23 +1,23 @@
 import gradio as gr
 from transformers import pipeline
-from IPython.display import Audio as IPythonAudio
 playground = gr.Blocks()
 image_pipe = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")
 summary_pipe = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")
 ner_pipe = pipeline("ner", model="dslim/bert-base-NER")
-narrator = pipeline("text-to-speech", model="kakao-enterprise/vits-ljs")
-def generate_audio(text):
-    # Generate speech from text
-    narrated_text = narrator(text)
-    audio_data = narrated_text["audio"][0]
-    sampling_rate = narrated_text["sampling_rate"]
-    # Use IPythonAudio to play the audio
-    audio = IPythonAudio(audio_data, rate=sampling_rate)
-    return audio_data, sampling_rate
 def launch_image_pipe(input):
     out = image_pipe(input)
@@ -117,12 +117,12 @@ with playground:
                     img = gr.Image(type='pil')
                 with gr.Column():
                     generated_textbox = gr.Textbox(lines=2, placeholder="", label="Generated Text")
-                    generate_audio_button = gr.Button(value="Generate Audio", variant="primary")
-                    audio_output = gr.Audio(label="Generated Audio")
-                    ITT_Clear_button = gr.ClearButton(components=[img, generated_textbox, audio_output], value="Clear")
             ITT_button.click(launch_image_pipe, inputs=[img], outputs=[generated_textbox])
-            generate_audio_button.click(generate_audio, inputs=[generated_textbox], outputs=[audio_output])
         with gr.TabItem("Text"):
             with gr.Row():

 import gradio as gr
 from transformers import pipeline
+# from IPython.display import Audio as IPythonAudio
 playground = gr.Blocks()
 image_pipe = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")
 summary_pipe = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")
 ner_pipe = pipeline("ner", model="dslim/bert-base-NER")
+# narrator = pipeline("text-to-speech", model="kakao-enterprise/vits-ljs")
+# def generate_audio(text):
+#     # Generate speech from text
+#     narrated_text = narrator(text)
+#     audio_data = narrated_text["audio"][0]
+#     sampling_rate = narrated_text["sampling_rate"]
+#     # Use IPythonAudio to play the audio
+#     audio = IPythonAudio(audio_data, rate=sampling_rate)
+#     return audio_data, sampling_rate
 def launch_image_pipe(input):
     out = image_pipe(input)
                     img = gr.Image(type='pil')
                 with gr.Column():
                     generated_textbox = gr.Textbox(lines=2, placeholder="", label="Generated Text")
+                    # generate_audio_button = gr.Button(value="Generate Audio", variant="primary")
+                    # audio_output = gr.Audio(label="Generated Audio")
+                    ITT_Clear_button = gr.ClearButton(components=[img, generated_textbox], value="Clear")
             ITT_button.click(launch_image_pipe, inputs=[img], outputs=[generated_textbox])
+            # generate_audio_button.click(generate_audio, inputs=[generated_textbox], outputs=[audio_output])
         with gr.TabItem("Text"):
             with gr.Row():