Spaces:

raylcl
/

rayl-gradio-labs

Runtime error

App Files Files Community

Ray Leung commited on Jun 24, 2024

Commit

e1c8796

verified ·

1 Parent(s): a55bcb8

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -5

app.py CHANGED Viewed

@@ -1,17 +1,30 @@
 import gradio as gr
 from transformers import pipeline
 playground = gr.Blocks()
 image_pipe = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")
 summary_pipe = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")
 ner_pipe = pipeline("ner", model="dslim/bert-base-NER")
 def launch_image_pipe(input):
     out = image_pipe(input)
-    return out[0]['generated_text']
 def translate(input_text, source, target):
     try:
       model = f"Helsinki-NLP/opus-mt-{source}-{target}"
@@ -99,16 +112,16 @@ with playground:
                                 """)
                 with gr.Column(scale=1):
                     ITT_button = gr.Button(value="Start Process", variant="primary")
             with gr.Row():
                 with gr.Column():
                     img = gr.Image(type='pil')
                 with gr.Column():
                     generated_textbox = gr.Textbox(lines=2, placeholder="", label="Generated Text")
                     ITT_Clear_button = gr.ClearButton(components=[img, generated_textbox], value="Clear")
-            ITT_button.click(launch_image_pipe, inputs=[img], outputs=[generated_textbox])
         with gr.TabItem("Text"):
             with gr.Row():

 import gradio as gr
 from transformers import pipeline
+from IPython.display import Audio as IPythonAudio
 playground = gr.Blocks()
 image_pipe = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")
 summary_pipe = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")
 ner_pipe = pipeline("ner", model="dslim/bert-base-NER")
+narrator = pipeline("text-to-speech", model="./models/kakao-enterprise/vits-ljs")
+def generate_audio(text):
+    # Generate speech from text
+    narrated_text = narrator(text)
+    audio_data = narrated_text["audio"][0]
+    sampling_rate = narrated_text["sampling_rate"]
+    # Use IPythonAudio to play the audio
+    audio = IPythonAudio(audio_data, rate=sampling_rate)
+    return audio
 def launch_image_pipe(input):
     out = image_pipe(input)
+    text = out[0]['generated_text']
+    audio = generate_audio(text)
+    return text, audio
 def translate(input_text, source, target):
     try:
       model = f"Helsinki-NLP/opus-mt-{source}-{target}"
                                 """)
                 with gr.Column(scale=1):
                     ITT_button = gr.Button(value="Start Process", variant="primary")
             with gr.Row():
                 with gr.Column():
                     img = gr.Image(type='pil')
                 with gr.Column():
                     generated_textbox = gr.Textbox(lines=2, placeholder="", label="Generated Text")
+                    audio_output = gr.Audio(label="Generated Audio")
                     ITT_Clear_button = gr.ClearButton(components=[img, generated_textbox], value="Clear")
+            ITT_button.click(launch_image_pipe, inputs=[img], outputs=[generated_textbox, audio_output])
         with gr.TabItem("Text"):
             with gr.Row():