Spaces:

DGutierrez81
/

CommentImage

Sleeping

DGutierrez81 commited on Nov 17, 2024

Commit

59e1ddd

verified ·

1 Parent(s): 3605d59

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+from transformers import pipeline
+from PIL import Image
+import numpy as np
+from datasets import load_dataset
+import soundfile as sf
+import torch
+image_to_text = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
+synthesiser = pipeline("text-to-speech", "microsoft/speecht5_tts")
+embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+def predict_step(image):
+    if isinstance(image, np.ndarray):
+        image = Image.fromarray(image)
+    result = image_to_text(image)
+    texto = result[0]['generated_text']
+    speech = synthesiser(texto, forward_params={"speaker_embeddings": speaker_embedding})
+    sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
+    return "speech.wav", texto
+demo = gr.Interface(
+    fn=predict_step,
+    inputs="image",
+    outputs=["audio","textbox"],
+    title="Descripción de Imágenes",
+    description="Cargue una imagen y obtenga una descripción generada por IA."
+)
+demo.launch()