Spaces:

DanLeBossDeESGI
/

Musica

Runtime error

File size: 5,782 Bytes

0c6352e
5bb0a67
 
baa52ab
5bb0a67
0767df8
27ab8aa
8389523
0c6352e
0ce2084
0c6352e
 
 
 
 
 
 
0ce2084
27ab8aa
 
 
0c6352e
0ce2084
15b3fd6
1915b8d
0c6352e
27ab8aa
0c6352e
0ce2084
42e6944
 
 
0ce2084
27ab8aa
5bb0a67
 
27ab8aa
0c6352e
0ce2084
701788b
 
 
 
 
42e6944
701788b
 
 
 
 
 
 
 
 
 
 
5bb0a67
42e6944
701788b
 
1915b8d
 
 
701788b
 
 
 
42e6944
1915b8d
 
 
42e6944
0ce2084
c6ed4ca
42e6944
 
c6ed4ca
42e6944
 
c6ed4ca
42e6944
c6ed4ca
42e6944
c6ed4ca
42e6944
 
c6ed4ca
701788b
 
 
 
 
 
 
 
5bb0a67
42e6944
701788b
42e6944
701788b
 
1915b8d
e056e32
 
0ce2084
 
 
e056e32
 
 
 
 
 
42e6944
e056e32
 
 
 
 
 
 
 
 
 
 
0ce2084
760fd7c
0ce2084

import streamlit as st
import os
import tempfile
from moviepy.editor import ImageSequenceClip, concatenate_videoclips
from PIL import Image
import torch
from diffusers import AudioLDMPipeline
from transformers import AutoProcessor, ClapModel, BlipProcessor, BlipForConditionalGeneration

# Vérifier si une carte GPU est disponible
if torch.cuda.is_available():
    device = "cuda"
    torch_dtype = torch.float16
else:
    device = "cpu"
    torch_dtype = torch.float32

# Charger le modèle AudioLDMPipeline
repo_id = "cvssp/audioldm-m-full"
pipe = AudioLDMPipeline.from_pretrained(repo_id, torch_dtype=torch_dtype).to(device)
pipe.unet = torch.compile(pipe.unet)

# Charger le modèle CLAP pour la similarité audio-texte
clap_model = ClapModel.from_pretrained("sanchit-gandhi/clap-htsat-unfused-m-full").to(device)
processor = AutoProcessor.from_pretrained("sanchit-gandhi/clap-htsat-unfused-m-full")

generator = torch.Generator(device)

# Charger le modèle Blip pour la description d'images
image_caption_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
image_caption_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")

# Configuration de l'application Streamlit
st.set_page_config(
    page_title="Text to Media",
    page_icon="📷 🎵",
)

st.title("Générateur de Diaporama Vidéo avec Musique")

# Sélectionnez les images
uploaded_files = st.file_uploader("Sélectionnez des images (PNG, JPG, JPEG)", type=["png", "jpg", "jpeg"], accept_multiple_files=True)

if uploaded_files:
    # Créez un répertoire temporaire pour stocker les images
    temp_dir = tempfile.mkdtemp()
    
    # Enregistrez les images téléchargées dans le répertoire temporaire
    image_paths = []
    descriptions = []  # Pour stocker les descriptions générées
    
    for i, uploaded_file in enumerate(uploaded_files):
        image_path = os.path.join(temp_dir, uploaded_file.name)
        with open(image_path, 'wb') as f:
            f.write(uploaded_file.read())
        image_paths.append(image_path)
        
        # Générez la légende pour chaque image
        try:
            image = Image.open(image_path).convert("RGB")
            inputs = image_caption_processor(image, return_tensors="pt")
            out = image_caption_model.generate(**inputs)
            caption = image_caption_processor.decode(out[0], skip_special_tokens=True)
            descriptions.append(caption)
        except Exception as e:
            descriptions.append("Erreur lors de la génération de la légende")

    # Affichez les images avec leurs descriptions
    for i, image_path in enumerate(image_paths):
        st.image(image_path, caption=f"Description : {descriptions[i]}", use_column_width=True)

    # Créez une vidéo à partir des images
    st.header("Création d'une Diapositive Vidéo avec Musique")

    # Sélectionnez la durée d'affichage de chaque image avec une barre horizontale (en secondes)
    image_duration = st.slider("Sélectionnez la durée d'affichage de chaque image (en secondes)", 1, 10, 4)

    # Débit d'images par seconde (calculé en fonction de la durée de chaque image)
    frame_rate = 1 / image_duration

    image_clips = [ImageSequenceClip([image_path], fps=frame_rate, durations=[image_duration]) for image_path in image_paths]

    final_clip = concatenate_videoclips(image_clips, method="compose")

    final_clip_path = os.path.join(temp_dir, "slideshow.mp4")
    final_clip.write_videofile(final_clip_path, codec='libx264', fps=frame_rate)

    # Générez de la musique à partir des descriptions
    st.header("Génération de Musique à partir des Descriptions")

    # Utilisez les descriptions générées pour la musique
    music_input = "\n".join(descriptions)
    st.text_area("Descriptions pour la musique", music_input, height=200)

    # Configuration de la musique
    seed = st.number_input("Seed", value=45)
    duration = st.slider("Duration (seconds)", 2.5, 10.0, 5.0, 2.5)
    guidance_scale = st.slider("Guidance scale", 0.0, 4.0, 2.5, 0.5)
    n_candidates = st.slider("Number waveforms to generate", 1, 3, 3, 1)

    def score_waveforms(text, waveforms):
        inputs = processor(text=text, audios=list(waveforms), return_tensors="pt", padding=True)
        inputs = {key: inputs[key].to(device) for key in inputs}
        with torch.no_grad():
            logits_per_text = clap_model(**inputs).logits_per_text  # il s'agit du score de similarité audio-texte
            probs = logits_per_text.softmax(dim=-1)  # nous pouvons prendre le softmax pour obtenir les probabilités des étiquettes
            most_probable = torch.argmax(probs)  # et maintenant sélectionner l'onde audio la plus probable
        waveform = waveforms[most_probable]
        return waveform

    if st.button("Générer de la musique"):
        waveforms = pipe(
            music_input,
            audio_length_in_s=duration,
            guidance_scale=guidance_scale,
            num_inference_steps=100,
            num_waveforms_per_prompt=n_candidates if n_candidates else 1,
            generator=generator.manual_seed(int(seed)),
        )["audios"]

        if waveforms.shape[0] > 1:
            waveform = score_waveforms(music_input, waveforms)
        else:
            waveform = waveforms[0]

        # Intégrer la musique dans la vidéo
        final_clip = final_clip.set_audio(waveform)

        # Afficher la vidéo mise à jour avec la musique
        st.header("Vidéo avec Musique Générée")
        video_with_music_path = os.path.join(temp_dir, "slideshow_with_music.mp4")
        final_clip.write_videofile(video_with_music_path, codec='libx264', fps=frame_rate)

        st.video(open(video_with_music_path, 'rb').read())