Spaces:

capradeepgujaran
/

VoiceOversV3

Running

App Files Files Community

capradeepgujaran commited on Oct 8, 2024

Commit

4882c44

verified ·

1 Parent(s): 7497985

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -38

app.py CHANGED Viewed

@@ -1,30 +1,10 @@
 import gradio as gr
-import torch
-import torchaudio
-from torch import nn
 import numpy as np
 import tempfile
 import os
 from gtts import gTTS
 from pydub import AudioSegment
-# Placeholder functions for emotion evaluation
-# These are simplified versions and may not provide accurate results
-def emo2vec_sim(ref_paths, gen_paths):
-    # Placeholder implementation
-    return [(ref, gen, np.random.random(), np.random.random()) for ref, gen in zip(ref_paths, gen_paths)]
-def arousal_valence_sim(ref_paths, gen_paths):
-    # Placeholder implementation
-    return [(ref, gen, np.random.random(), np.random.random()) for ref, gen in zip(ref_paths, gen_paths)]
-class SimpleWaveformGenerator(nn.Module):
-    def __init__(self):
-        super().__init__()
-        self.frequency = nn.Parameter(torch.tensor(440.0))
-    def forward(self, t):
-        return torch.sin(2 * np.pi * self.frequency * t)
 def text_to_speech_with_emotion(text, lang, emotion):
     try:
@@ -37,9 +17,9 @@ def text_to_speech_with_emotion(text, lang, emotion):
             audio = AudioSegment.from_mp3(fp.name)
             if emotion == "Happy":
-                audio = audio.pitch_shift(semitones=1).speedup(playback_speed=1.1)
             elif emotion == "Sad":
-                audio = audio.pitch_shift(semitones=-1).speedup(playback_speed=0.9)
             elif emotion == "Angry":
                 audio = audio + 5  # Increase volume
                 audio = audio.compress_dynamic_range(threshold=-15.0, ratio=3.0, attack=5.0, release=50.0)
@@ -52,25 +32,42 @@ def text_to_speech_with_emotion(text, lang, emotion):
 def generate_sound_effect(description, duration):
     try:
         sample_rate = 44100
-        t = torch.linspace(0, duration, int(sample_rate * duration))
-        generator = SimpleWaveformGenerator()
-        if "high" in description.lower():
-            generator.frequency.data = torch.tensor(880.0)
-        elif "low" in description.lower():
-            generator.frequency.data = torch.tensor(220.0)
-        with torch.no_grad():
-            audio = generator(t)
-        audio = audio / audio.abs().max()
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as fp:
-            torchaudio.save(fp.name, audio.unsqueeze(0), sample_rate)
-            return fp.name, "Sound effect generated successfully"
     except Exception as e:
         return None, f"Error in sound effect generation: {str(e)}"
 def evaluate_emotion(ref_audio, gen_audio, uttwise_score=False):
     try:
         ref_paths = [ref_audio]
@@ -110,7 +107,7 @@ def evaluate_emotion(ref_audio, gen_audio, uttwise_score=False):
 # Gradio interface
 with gr.Blocks() as iface:
-    gr.Markdown("# Integrated TTS, Sound Generation, and Emotion Evaluation Tool")
     with gr.Tab("Text-to-Speech"):
         text_input = gr.Textbox(label="Enter text for speech generation")
@@ -121,7 +118,7 @@ with gr.Blocks() as iface:
         speech_message = gr.Textbox(label="Message")
     with gr.Tab("Sound Effect Generation"):
-        sfx_input = gr.Textbox(label="Enter description for sound effect (e.g., 'high', 'low', or leave blank for middle)")
         sfx_duration = gr.Slider(minimum=1, maximum=10, value=3, label="Duration (seconds)")
         sfx_button = gr.Button("Generate Sound Effect")
         sfx_output = gr.Audio(label="Generated Sound Effect")

 import gradio as gr
 import numpy as np
 import tempfile
 import os
 from gtts import gTTS
 from pydub import AudioSegment
+from pydub.generators import WhiteNoise, Sine
 def text_to_speech_with_emotion(text, lang, emotion):
     try:
             audio = AudioSegment.from_mp3(fp.name)
             if emotion == "Happy":
+                audio = audio.speedup(playback_speed=1.1)
             elif emotion == "Sad":
+                audio = audio.speedup(playback_speed=0.9)
             elif emotion == "Angry":
                 audio = audio + 5  # Increase volume
                 audio = audio.compress_dynamic_range(threshold=-15.0, ratio=3.0, attack=5.0, release=50.0)
 def generate_sound_effect(description, duration):
     try:
         sample_rate = 44100
+        channels = 2
+        duration_ms = int(duration * 1000)
+        if "rain" in description.lower():
+            sound = WhiteNoise().to_audio_segment(duration=duration_ms)
+            sound = sound.apply_gain(-10)  # Make it softer
+        elif "car horn" in description.lower():
+            sound = Sine(440).to_audio_segment(duration=100)  # Short beep
+            sound = sound.append(AudioSegment.silent(duration=50), crossfade=25)
+            sound = sound * 3  # Repeat the beep
+        elif "wind" in description.lower():
+            sound = WhiteNoise().to_audio_segment(duration=duration_ms)
+            sound = sound.apply_gain(-15)  # Make it softer
+            sound = sound.low_pass_filter(1000)  # Remove high frequencies
+        elif "bird" in description.lower():
+            sound = Sine(1000).to_audio_segment(duration=100)
+            sound = sound.append(Sine(1200).to_audio_segment(duration=100), crossfade=25)
+            sound = sound.append(AudioSegment.silent(duration=200))
+            sound = sound * int(duration * 2)  # Repeat chirps
+        else:
+            # Default to a simple tone
+            sound = Sine(440).to_audio_segment(duration=duration_ms)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as fp:
+            sound.export(fp.name, format="wav")
+            return fp.name, f"Sound effect generated for '{description}'"
     except Exception as e:
         return None, f"Error in sound effect generation: {str(e)}"
+# Placeholder functions for emotion evaluation
+def emo2vec_sim(ref_paths, gen_paths):
+    return [(ref, gen, np.random.random(), np.random.random()) for ref, gen in zip(ref_paths, gen_paths)]
+def arousal_valence_sim(ref_paths, gen_paths):
+    return [(ref, gen, np.random.random(), np.random.random()) for ref, gen in zip(ref_paths, gen_paths)]
 def evaluate_emotion(ref_audio, gen_audio, uttwise_score=False):
     try:
         ref_paths = [ref_audio]
 # Gradio interface
 with gr.Blocks() as iface:
+    gr.Markdown("# Improved TTS and Sound Generation Tool")
     with gr.Tab("Text-to-Speech"):
         text_input = gr.Textbox(label="Enter text for speech generation")
         speech_message = gr.Textbox(label="Message")
     with gr.Tab("Sound Effect Generation"):
+        sfx_input = gr.Textbox(label="Enter description for sound effect (e.g., 'rain', 'car horn', 'wind', 'bird')")
         sfx_duration = gr.Slider(minimum=1, maximum=10, value=3, label="Duration (seconds)")
         sfx_button = gr.Button("Generate Sound Effect")
         sfx_output = gr.Audio(label="Generated Sound Effect")