Spaces:

DGutierrez81
/

CommentImage

Sleeping

App Files Files Community

DGutierrez81 commited on Nov 24, 2024

Commit

c6eb91a

verified ·

1 Parent(s): e120916

Update app.py

Browse files

Files changed (1) hide show

app.py +89 -18

app.py CHANGED Viewed

@@ -1,35 +1,106 @@
 import gradio as gr
-from transformers import pipeline
 from PIL import Image
-import numpy as np
 from datasets import load_dataset
-import soundfile as sf
 import torch
 image_to_text = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
-synthesiser = pipeline("text-to-speech", "microsoft/speecht5_tts")
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
 speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-def predict_step(image):
-    if isinstance(image, np.ndarray):
-        image = Image.fromarray(image)
     result = image_to_text(image)
-    texto = result[0]['generated_text']
-    speech = synthesiser(texto, forward_params={"speaker_embeddings": speaker_embedding})
     sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
-    return "speech.wav", texto
-demo = gr.Interface(
-    fn=predict_step,
-    inputs="image",
-    outputs=["audio","textbox"],
-    title="Descripción de Imágenes",
-    description="Cargue una imagen y obtenga una descripción generada por IA."
 )
 demo.launch()

 import gradio as gr
+import requests
 from PIL import Image
+from io import BytesIO
+from transformers import pipeline
 from datasets import load_dataset
 import torch
+import soundfile as sf
 image_to_text = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
+synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
 speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+url = "https://www.thecocktaildb.com/api/json/v1/1/search.php?s=margarita"
+response = requests.get(url)
+lista = []
+if response.status_code == 200:
+    datos = response.json()
+    drinks = datos.get("drinks", [])
+    for drink in drinks:
+        lista.append(drink['strDrink'])
+else:
+    print(f"Error: {response.status_code}")
+def change_textbox(choice):
+    cocktail = requests.get(f"https://www.thecocktaildb.com/api/json/v1/1/search.php?s={choice}")
+    data = cocktail.json()
+    dataCocktail = data.get("drinks", [])
+    for i in dataCocktail:
+        if i['strDrink'].lower() == choice.lower():
+            name = i['strDrink']
+            instructions = i['strInstructions']
+            image_url = i['strDrinkThumb']
+            break
+    textInstructions = gr.Textbox(instructions)
+    img_response = requests.get(image_url)
+    image = Image.open(BytesIO(img_response.content)).convert("RGB")
     result = image_to_text(image)
+    descripcion = result[0]['generated_text']
+    speech = synthesiser(instructions, forward_params={"speaker_embeddings": speaker_embedding})
     sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
+    audio_path = "speech.wav"
+    speech2 = synthesiser(descripcion, forward_params={"speaker_embeddings": speaker_embedding})
+    sf.write("speech2.wav", speech2["audio"], samplerate=speech2["sampling_rate"])
+    audio_path2 = "speech2.wav"
+    return name, image,textInstructions,audio_path,descripcion,audio_path2
+with gr.Blocks() as demo:
+    gr.HTML(
+        """
+        <style>
+            /* Cambiar el fondo de toda la página */
+            body {
+                background-color: #000000; /* Fondo negro */
+                color: #ffffff; /* Texto blanco */
+                font-family: Arial, sans-serif; /* Cambiar la fuente global */
+                margin: 0;
+                padding: 0;
+                text-align: center; /* Centrar todo el texto en la página */
+            }
+            /* Cambiar el fondo del contenedor principal */
+            .gradio-container {
+                background-color: #000000; /* Fondo negro */
+                padding: 20px;
+                border-radius: 10px;
+                display: flex;
+                flex-direction: column;
+                align-items: center; /* Centrar los elementos dentro del contenedor */
+                justify-content: center;
+            }
+            /* Centrar el contenido dentro de los bloques */
+            .gradio-container .gradio-radio {
+                display: inline-block;
+                margin: 10px;
+                text-align: center;
+            }
+        </style>
+        """
+    )
+    gr.Markdown(
+    """<h1 style="text-align: center; color: #ffffff;">Cocktails Descriptions</h1>"""
 )
+    radio = gr.Radio(lista, label="Choose your cocktail:")
+    text = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Cocktail Name")
+    imagen = gr.Image(label="Cocktail Image")
+    text2 = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Instructions")
+    audio = gr.Audio(label="Cocktail Instructions Audio")
+    text3 = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Image description")
+    audio2 = gr.Audio(label="Audio image description")
+    radio.change(fn=change_textbox, inputs=radio, outputs=[text, imagen,text2, audio,text3, audio2])
 demo.launch()