speech

Paused

antfraia commited on Aug 30, 2023

Commit

f0afc12

1 Parent(s): 1e717a6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,42 +1,45 @@
-import gradio as gr
-import numpy as np
-from elevenlabs import voices, generate, set_api_key, UnauthenticatedRateLimitError
-def pad_buffer(audio):
-    buffer_size = len(audio)
-    element_size = np.dtype(np.int16).itemsize
-    if buffer_size % element_size != 0:
-        audio = audio + b'\0' * (element_size - (buffer_size % element_size))
-    return audio
-def generate_voice(text, voice_name):
-    model_name = "eleven_multilingual_v1"
     try:
-        audio = generate(
-            text[:250],
-            voice=voice_name,
-            model=model_name
-        )
-        return (44100, np.frombuffer(pad_buffer(audio), dtype=np.int16))
-    except UnauthenticatedRateLimitError as e:
-        raise gr.Error("Thanks for trying out ElevenLabs TTS! You've reached the free tier limit. Please provide an API key to continue.")
-    except Exception as e:
-        raise gr.Error(str(e))
-all_voices = voices()
-desired_voices = ["Antonio"]
-filtered_voices = [voice.name for voice in all_voices if voice.name in desired_voices]
 input_text = gr.Textbox(label="Input Text", lines=2)
-input_voice = gr.Dropdown(choices=filtered_voices, default="Antonio", label="Voice")
-out_audio = gr.Audio(label="Generated Voice", type="numpy")
 iface = gr.Interface(
-    fn=generate_voice,
-    inputs=[input_text, input_voice],
-    outputs=out_audio,
     theme="Monochrome",
-    live=True
 )
 iface.launch()

+import gradio as gr
+import numpy as np
+from elevenlabs import clone, generate, set_api_key
+from pydub import AudioSegment
+# Set up ElevenLabs API Key
+set_api_key("73bb17b223e2b0f90a403eaeaa3b4d35")
+# Function to convert MP3 to NumPy array
+def mp3_to_numpy(file_path):
+    audio = AudioSegment.from_mp3(file_path)
+    samples = np.array(audio.get_array_of_samples())
+    return audio.frame_rate, samples
+# Load and clone voice
+voice = clone(
+    name="Voice Name",
+    description="An old American male voice with a slight hoarseness in his throat. Perfect for news.",
+    files=["./sample1.mp3", "./sample2.mp3"],
+)
+def generate_voice_output(text):
     try:
+        # Generate audio for the provided text
+        audio = generate(text=text, voice=voice)
+        # Convert audio for Gradio
+        audio_numpy = (44100, np.frombuffer(audio, dtype=np.int16))
+        return audio_numpy
+    except Exception as e:
+        return str(e)
+# Set up Gradio components and interface
 input_text = gr.Textbox(label="Input Text", lines=2)
+output_audio = gr.Audio(label="Generated Voice", type="numpy")
 iface = gr.Interface(
+    fn=generate_voice_output,
+    inputs=input_text,
+    outputs=output_audio,
     theme="Monochrome",
 )
+# Launch Gradio app
 iface.launch()