Spaces:

Felguk
/

Decraft

Running

Felguk commited on Jan 25

Commit

4e611fb

verified ·

1 Parent(s): 1c3ad73

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ import imageio_ffmpeg
 import gradio as gr
 import torch
 from PIL import Image
-from transformers import pipeline, AutoProcessor, MusicgenForConditionalGeneration, AutoModelForCausalLM, AutoTokenizer
 import torchaudio
 import numpy as np
 from datetime import datetime, timedelta
@@ -29,7 +29,21 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 # Load MusicGen model for music generation
 processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
-musicgen_model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
 # Chatbot models
 CHATBOT_MODELS = {
@@ -82,9 +96,9 @@ def generate_music_function(prompt, length, genre, custom_genre, lyrics):
         padding=True,
         return_tensors="pt",
     )
-    audio_values = musicgen_model.generate(**inputs, max_new_tokens=int(length * 50))
     output_file = "generated_music.wav"
-    sampling_rate = musicgen_model.config.audio_encoder.sampling_rate
     torchaudio.save(output_file, audio_values[0].cpu(), sampling_rate)
     return output_file

 import gradio as gr
 import torch
 from PIL import Image
+from transformers import pipeline, AutoProcessor, MusicgenForCausalLM, AutoModelForCausalLM, AutoTokenizer
 import torchaudio
 import numpy as np
 from datetime import datetime, timedelta
 # Load MusicGen model for music generation
 processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
+model = MusicgenForCausalLM.from_pretrained("facebook/musicgen-small")
+# Explicitly set configurations to avoid conflicts
+model.config.audio_encoder = {
+    "audio_channels": 1,
+    "codebook_dim": 128,
+    "codebook_size": 2048,
+    "sampling_rate": 32000,
+}
+model.config.decoder = {
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "attention_dropout": 0.0,
+}
 # Chatbot models
 CHATBOT_MODELS = {
         padding=True,
         return_tensors="pt",
     )
+    audio_values = model.generate(**inputs, max_new_tokens=int(length * 50))
     output_file = "generated_music.wav"
+    sampling_rate = model.config.audio_encoder["sampling_rate"]
     torchaudio.save(output_file, audio_values[0].cpu(), sampling_rate)
     return output_file