Spaces:

DanLeBossDeESGI
/

Musica

Runtime error

App Files Files Community

DanLeBossDeESGI commited on Sep 25, 2023

Commit

5bb0a67

1 Parent(s): 00c92a4

Update app.py

Browse files

Files changed (1) hide show

app.py +76 -42

app.py CHANGED Viewed

@@ -1,4 +1,8 @@
 import streamlit as st
 import torch
 from diffusers import AudioLDMPipeline
 from transformers import AutoProcessor, ClapModel
@@ -24,48 +28,78 @@ generator = torch.Generator(device)
 # Streamlit app setup
 st.set_page_config(
-    page_title="Text to Music",
-    page_icon="🎵",
 )
-text_input = st.text_input("Input text", "A hammer is hitting a wooden surface")
-negative_prompt = st.text_input("Negative prompt", "low quality, average quality")
-st.markdown("### Configuration")
-seed = st.number_input("Seed", value=45)
-duration = st.slider("Duration (seconds)", 2.5, 10.0, 5.0, 2.5)
-guidance_scale = st.slider("Guidance scale", 0.0, 4.0, 2.5, 0.5)
-n_candidates = st.slider("Number waveforms to generate", 1, 3, 3, 1)
-def score_waveforms(text, waveforms):
-    inputs = processor(text=text, audios=list(waveforms), return_tensors="pt", padding=True)
-    inputs = {key: inputs[key].to(device) for key in inputs}
-    with torch.no_grad():
-        logits_per_text = clap_model(**inputs).logits_per_text  # this is the audio-text similarity score
-        probs = logits_per_text.softmax(dim=-1)  # we can take the softmax to get the label probabilities
-        most_probable = torch.argmax(probs)  # and now select the most likely audio waveform
-    waveform = waveforms[most_probable]
-    return waveform
-if st.button("Submit"):
-    if text_input is None:
-        st.error("Please provide a text input.")
-    else:
-        waveforms = pipe(
-            text_input,
-            audio_length_in_s=duration,
-            guidance_scale=guidance_scale,
-            num_inference_steps=100,
-            negative_prompt=negative_prompt,
-            num_waveforms_per_prompt=n_candidates if n_candidates else 1,
-            generator=generator.manual_seed(int(seed)),
-        )["audios"]
-        if waveforms.shape[0] > 1:
-            waveform = score_waveforms(text_input, waveforms)
-        else:
-            waveform = waveforms[0]
-        # Spécifiez le taux d'échantillonnage (sample_rate) et le format audio
-        st.audio(waveform, format="audio/wav", sample_rate=16000)

 import streamlit as st
+import os
+import tempfile
+from moviepy.editor import ImageSequenceClip, concatenate_videoclips
+from PIL import Image
 import torch
 from diffusers import AudioLDMPipeline
 from transformers import AutoProcessor, ClapModel
 # Streamlit app setup
 st.set_page_config(
+    page_title="Text to Media",
+    page_icon="📷 🎵",
 )
+# Créer des onglets pour choisir l'option
+selected_option = st.selectbox("Sélectionnez l'option", ("Générer un diaporama vidéo", "Générer de la musique"))
+if selected_option == "Générer un diaporama vidéo":
+    st.title("Diaporama Vidéo à partir d'Images avec Descriptions")
+    # Sélection de plusieurs fichiers image
+    uploaded_files = st.file_uploader("Sélectionnez des images (PNG, JPG, JPEG)", type=["png", "jpg", "jpeg"], accept_multiple_files=True)
+    # Sélection de la durée d'affichage de chaque image avec une barre horizontale (en secondes)
+    image_duration = st.slider("Sélectionnez la durée d'affichage de chaque image (en secondes)", 1, 10, 4)
+    if uploaded_files:
+        # Créer un répertoire temporaire pour stocker les images
+        temp_dir = tempfile.mkdtemp()
+        # Enregistrez les images téléchargées dans le répertoire temporaire
+        image_paths = []
+        descriptions = []  # Pour stocker les descriptions générées
+        for i, uploaded_file in enumerate(uploaded_files):
+            image_path = os.path.join(temp_dir, uploaded_file.name)
+            with open(image_path, 'wb') as f:
+                f.write(uploaded_file.read())
+            image_paths.append(image_path)
+            # Générer la légende pour chaque image
+            try:
+                image = Image.open(image_path).convert("RGB")
+                inputs = processor(image, return_tensors="pt")
+                out = model.generate(**inputs)
+                caption = processor.decode(out[0], skip_special_tokens=True)
+                descriptions.append(caption)
+            except Exception as e:
+                descriptions.append("Erreur lors de la génération de la légende")
+        # Afficher les images avec leurs descriptions
+        for i, image_path in enumerate(image_paths):
+            st.image(image_path, caption=f"Description : {descriptions[i]}", use_column_width=True)
+        # Créer une vidéo à partir des images
+        if image_paths:
+            output_video_path = os.path.join(temp_dir, "slideshow.mp4")
+            # Débit d'images par seconde (calculé en fonction de la durée de chaque image)
+            frame_rate = 1 / image_duration
+            image_clips = [ImageSequenceClip([image_path], fps=frame_rate, durations=[image_duration]) for image_path in image_paths]
+            final_clip = concatenate_videoclips(image_clips, method="compose")
+            final_clip.write_videofile(output_video_path, codec='libx264', fps=frame_rate)
+            # Afficher la vidéo
+            st.video(open(output_video_path, 'rb').read())
+            # Supprimer le répertoire temporaire
+            for image_path in image_paths:
+                os.remove(image_path)
+            os.remove(output_video_path)
+            os.rmdir(temp_dir)
+elif selected_option == "Générer de la musique":
+    st.title("Générateur de Musique à partir de Texte")
+    text_input = st.text_input("Input text", "A hammer is hitting a wooden surface")
+    negative_prompt = st.text_input("Negative prompt", "low quality, average quality")
+    st.markdown("### Configuration")
+    seed = st.number_input("Seed", value=45)
+    duration = st.slider("Duration (seconds)", 2