Spaces:

capradeepgujaran
/

VoiceOversV3

Sleeping

App Files Files Community

capradeepgujaran commited on Oct 7, 2024

Commit

91c5e4d

verified ·

1 Parent(s): a4db718

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -23

app.py CHANGED Viewed

@@ -2,44 +2,77 @@ import gradio as gr
 from gtts import gTTS
 import numpy as np
 import io
-import base64
 import os
 def text_to_speech(text, language='en'):
     tts = gTTS(text=text, lang=language)
-    fp = io.BytesIO()
-    tts.write_to_fp(fp)
-    fp.seek(0)
-    return fp
-def generate_sound(frequency, duration):
-    # Generate a simple sine wave
-    t = np.linspace(0, duration, int(44100 * duration), False)
     audio = np.sin(2 * np.pi * frequency * t)
-    return (44100, audio.astype(np.float32))
-def generate_voiceover(text, language):
-    audio_fp = text_to_speech(text, language)
-    return audio_fp
-def generate_sound_effect(frequency, duration):
-    return generate_sound(frequency, duration)
 # Gradio interface
 iface = gr.Interface(
-    fn=[generate_voiceover, generate_sound_effect],
     inputs=[
         gr.Textbox(label="Enter text for speech generation"),
         gr.Dropdown(choices=["en", "es", "fr", "de", "it"], label="Select Language", value="en"),
-        gr.Number(label="Frequency (Hz)", value=440),
-        gr.Number(label="Duration (seconds)", value=1)
     ],
-    outputs=[
-        gr.Audio(label="Generated Speech"),
-        gr.Audio(label="Generated Sound Effect")
-    ],
-    title="Simple Text-to-Speech and Sound Generation Tool",
-    description="Generate speech from text and create simple sound effects."
 )
 iface.launch()

 from gtts import gTTS
 import numpy as np
 import io
+import librosa
+import soundfile as sf
+from pydub import AudioSegment
+import tempfile
 import os
 def text_to_speech(text, language='en'):
     tts = gTTS(text=text, lang=language)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
+        tts.save(fp.name)
+        return fp.name
+def generate_sound(frequency, duration, effect):
+    # Generate a simple waveform
+    t = np.linspace(0, duration, int(22050 * duration), False)
     audio = np.sin(2 * np.pi * frequency * t)
+    # Apply effects
+    if effect == "Reverb":
+        audio = librosa.effects.remix(audio, intervals=librosa.effects.split(audio, top_db=20))
+    elif effect == "Pitch Shift":
+        audio = librosa.effects.pitch_shift(audio, sr=22050, n_steps=4)
+    elif effect == "Time Stretch":
+        audio = librosa.effects.time_stretch(audio, rate=0.8)
+    # Normalize audio
+    audio = librosa.util.normalize(audio)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as fp:
+        sf.write(fp.name, audio, 22050)
+        return fp.name
+def combine_audio(speech_file, sound_file):
+    speech = AudioSegment.from_file(speech_file)
+    sound = AudioSegment.from_file(sound_file)
+    # Adjust volumes
+    speech = speech - 3  # Reduce speech volume by 3dB
+    sound = sound - 6  # Reduce sound volume by 6dB
+    # Overlay sound onto speech
+    combined = speech.overlay(sound, position=0)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
+        combined.export(fp.name, format="mp3")
+        return fp.name
+def generate_audio(text, language, frequency, duration, effect):
+    speech_file = text_to_speech(text, language)
+    sound_file = generate_sound(frequency, duration, effect)
+    combined_file = combine_audio(speech_file, sound_file)
+    # Clean up temporary files
+    os.unlink(speech_file)
+    os.unlink(sound_file)
+    return combined_file
 # Gradio interface
 iface = gr.Interface(
+    fn=generate_audio,
     inputs=[
         gr.Textbox(label="Enter text for speech generation"),
         gr.Dropdown(choices=["en", "es", "fr", "de", "it"], label="Select Language", value="en"),
+        gr.Slider(minimum=20, maximum=2000, value=440, label="Frequency (Hz)"),
+        gr.Slider(minimum=0.1, maximum=5, value=1, label="Duration (seconds)"),
+        gr.Dropdown(choices=["None", "Reverb", "Pitch Shift", "Time Stretch"], label="Sound Effect", value="None")
     ],
+    outputs=gr.Audio(label="Generated Audio"),
+    title="Enhanced Audio Generation Tool",
+    description="Generate speech from text and combine it with customizable sound effects."
 )
 iface.launch()