11Labs-TTS-Free-VC-NEW

Sleeping

App Files Files Community

kevinwang676 commited on May 22, 2024

Commit

aba1e24

verified ·

1 Parent(s): 4a95bb6

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -25

app.py CHANGED Viewed

@@ -55,7 +55,9 @@ import ffmpeg
 import random
 import numpy as np
-from elevenlabs import voices, generate, set_api_key, UnauthenticatedRateLimitError
 def pad_buffer(audio):
     # Pad buffer to multiple of 2 bytes
@@ -65,21 +67,15 @@ def pad_buffer(audio):
         audio = audio + b'\0' * (element_size - (buffer_size % element_size))
     return audio
-def generate_voice(text, voice_name):
-    try:
-        audio = generate(
-            text[:250], # Limit to 250 characters
-            voice=voice_name,
-            model="eleven_multilingual_v2"
-        )
-        with open("output" + ".mp3", mode='wb') as f:
-          f.write(audio)
-        return "output.mp3"
-    except UnauthenticatedRateLimitError as e:
-        raise gr.Error("Thanks for trying out ElevenLabs TTS! You've reached the free tier limit. Please provide an API key to continue.")
-    except Exception as e:
-        raise gr.Error(e)
 html_denoise = """
 <html>
@@ -105,7 +101,7 @@ html_denoise = """
 </html>
 """
-def convert(api_key, text, tgt, voice, save_path):
     model = "FreeVC (24kHz)"
     with torch.no_grad():
         # tgt
@@ -127,8 +123,6 @@ def convert(api_key, text, tgt, voice, save_path):
                 hps.data.mel_fmax
             )
         # src
-        os.environ["ELEVEN_API_KEY"] = api_key
         src = generate_voice(text, voice)
         wav_src, _ = librosa.load(src, sr=hps.data.sampling_rate)
         wav_src = torch.from_numpy(wav_src).unsqueeze(0).to(device)
@@ -308,7 +302,11 @@ def merge_audios(folder_path):
 import shutil
-def convert_from_srt(apikey, filename, audio_full, voice, multilingual):
     subtitle_list = read_srt(filename)
     #audio_data, sr = librosa.load(audio_full, sr=44100)
@@ -324,7 +322,7 @@ def convert_from_srt(apikey, filename, audio_full, voice, multilingual):
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text}")
-                convert(apikey, i.text, f"sliced_audio_{i.index}_0.wav", voice, i.text + " " + str(i.index))
             except Exception:
                 pass
     else:
@@ -334,7 +332,7 @@ def convert_from_srt(apikey, filename, audio_full, voice, multilingual):
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text.splitlines()[1]}")
-                convert(apikey, i.text.splitlines()[1], f"sliced_audio_{i.index}_0.wav", voice, i.text.splitlines()[1] + " " + str(i.index))
             except Exception:
                 pass
     merge_audios("output")
@@ -345,8 +343,6 @@ restart_markdown = ("""
 ### 若此页面无法正常显示，请点击[此链接](https://openxlab.org.cn/apps/detail/Kevin676/OpenAI-TTS)唤醒该程序！谢谢🍻
 """)
-all_voices = voices()
 import ffmpeg
 def denoise(video_full):
@@ -376,7 +372,7 @@ with gr.Blocks() as app:
                 inp1 = gr.File(file_count="single", label="请上传一集视频对应的SRT文件")
                 inp2 = gr.Audio(label="请上传一集视频的配音文件", type="filepath")
-                inp3 = gr.Dropdown(choices=[ voice.name for voice in all_voices ], label='请选择一个说话人提供基础音色', info="试听音色链接：https://huggingface.co/spaces/elevenlabs/tts", value='Rachel')
                 #inp4 = gr.Dropdown(label="请选择用于分离伴奏的模型", info="UVR-HP5去除背景音乐效果更好，但会对人声造成一定的损伤", choices=["UVR-HP2", "UVR-HP5"], value="UVR-HP5")
                 inp4 = gr.Checkbox(label="SRT文件是否为双语字幕", info="若为双语字幕，请打勾选择（SRT文件中需要先出现中文字幕，后英文字幕；中英字幕各占一行）")
                 btn = gr.Button("一键开启AI配音吧💕", variant="primary")

 import random
 import numpy as np
+from elevenlabs.client import ElevenLabs
 def pad_buffer(audio):
     # Pad buffer to multiple of 2 bytes
         audio = audio + b'\0' * (element_size - (buffer_size % element_size))
     return audio
+def generate_voice(text, voice):
+    audio = client.generate(text=text, voice=voice) #response.voices[0]
+    audio = b"".join(audio)
+    with open("output.mp3", "wb") as f:
+        f.write(audio)
+    return "output.mp3"
 html_denoise = """
 <html>
 </html>
 """
+def convert(text, tgt, voice, save_path):
     model = "FreeVC (24kHz)"
     with torch.no_grad():
         # tgt
                 hps.data.mel_fmax
             )
         # src
         src = generate_voice(text, voice)
         wav_src, _ = librosa.load(src, sr=hps.data.sampling_rate)
         wav_src = torch.from_numpy(wav_src).unsqueeze(0).to(device)
 import shutil
+def convert_from_srt(api_key, filename, audio_full, voice, multilingual):
+    client = ElevenLabs(
+        api_key=api_key, # Defaults to ELEVEN_API_KEY
+    )
     subtitle_list = read_srt(filename)
     #audio_data, sr = librosa.load(audio_full, sr=44100)
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text}")
+                convert(i.text, f"sliced_audio_{i.index}_0.wav", voice, i.text + " " + str(i.index))
             except Exception:
                 pass
     else:
                 trim_audio([[i.start_time, i.end_time]], audio_full, f"sliced_audio_{i.index}")
                 print(f"正在合成第{i.index}条语音")
                 print(f"语音内容：{i.text.splitlines()[1]}")
+                convert(i.text.splitlines()[1], f"sliced_audio_{i.index}_0.wav", voice, i.text.splitlines()[1] + " " + str(i.index))
             except Exception:
                 pass
     merge_audios("output")
 ### 若此页面无法正常显示，请点击[此链接](https://openxlab.org.cn/apps/detail/Kevin676/OpenAI-TTS)唤醒该程序！谢谢🍻
 """)
 import ffmpeg
 def denoise(video_full):
                 inp1 = gr.File(file_count="single", label="请上传一集视频对应的SRT文件")
                 inp2 = gr.Audio(label="请上传一集视频的配音文件", type="filepath")
+                inp3 = gr.Dropdown(choices=["Rachel", "Alice", "Chris", "Adam"], label='请选择一个说话人提供基础音色', info="试听音色链接：https://elevenlabs.io/app/speech-synthesis", value='Chris')
                 #inp4 = gr.Dropdown(label="请选择用于分离伴奏的模型", info="UVR-HP5去除背景音乐效果更好，但会对人声造成一定的损伤", choices=["UVR-HP2", "UVR-HP5"], value="UVR-HP5")
                 inp4 = gr.Checkbox(label="SRT文件是否为双语字幕", info="若为双语字幕，请打勾选择（SRT文件中需要先出现中文字幕，后英文字幕；中英字幕各占一行）")
                 btn = gr.Button("一键开启AI配音吧💕", variant="primary")