Spaces:

rathapech
/

object-detection

Sleeping

rathapech commited on Feb 25

Commit

722f574

verified ·

1 Parent(s): 50a2f63

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,32 @@
 import gradio as gr
 from transformers import pipeline
-from IPython.display import Audio as IPythonAudio
-itt_pipe = pipeline("image-to-text",
-                model="Salesforce/blip-image-captioning-base")
 def get_pipeline_prediction(pil_image):
-    pipeline_output = itt_pipe(pil_image)
     processed_image = render_results_in_image(pil_image,
                                             pipeline_output)
-    return processed_image
-text = gr.Interface(
-    fn=get_pipeline_prediction,
-    inputs=gr.Image(label="Input image", type="pil"), outputs=gr.Image(label="Text describe the image", type="pil")
 )
-text.launch()
-print(text)
 #text = itt_pipe(input)

 import gradio as gr
 from transformers import pipeline
+od_pipe = pipeline("object-detection", model="facebook/detr-resnet-50")
+tts_pipe = pipeline("text-to-speech",
+                    model="kakao-enterprise/vits-ljs")
 def get_pipeline_prediction(pil_image):
+    pipeline_output = od_pipe(pil_image)
+    text = summarize_predictions_natural_language(pipeline_output)
+    #text = "Hello, my name is Ratha"
+    gen_audio = tts_pipe(text)
     processed_image = render_results_in_image(pil_image,
                                             pipeline_output)
+    rate= gen_audio["sampling_rate"]
+    return processed_image, text, (rate, gen_audio["audio"][0])
+demo = gr.Interface(
+  fn=get_pipeline_prediction,
+  inputs=gr.Image(label="Input image",
+                  type="pil"),
+  outputs= [
+          gr.Image(label="Output image with predicted instances", type="pil"),
+          gr.Textbox(label="Prediction Summary"),
+          gr.Audio(label="Generated Speech")]
 )
+demo.launch()
 #text = itt_pipe(input)