Spaces:

Shamik3
/

tts

Paused

App Files Files Community

Shamik88 commited on Oct 19, 2024

Commit

0f307eb

2 Parent(s): 0913f3e 92604a3

Resolved merge conflicts

Browse files

Files changed (3) hide show

.DS_Store +0 -0
.gitignore +3 -0
app.py +65 -0

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

.gitignore CHANGED Viewed

@@ -4,6 +4,7 @@
 # Python cache files
 __pycache__/
 *.pyc
 echo "demo_audio/notebookllm_starhealth_demo.wav" >> .gitignore
@@ -11,3 +12,5 @@ echo "demo_audio/notebookllm_starhealth_demo.wav" >> .gitignore
 echo "demo_audio/" >> .gitignore
 demo_audio/

 # Python cache files
 __pycache__/
 *.pyc
+<<<<<<< HEAD
 echo "demo_audio/notebookllm_starhealth_demo.wav" >> .gitignore
 echo "demo_audio/" >> .gitignore
 demo_audio/
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5

app.py CHANGED Viewed

@@ -386,6 +386,17 @@ def update_speed(new_speed):
 def process_audio(ref_audio_path):
     return ref_audio_path
 with gr.Blocks(theme='gstaff/sketch') as app_tts:
     gr.Markdown("# Batched TTS")
     ref_audio_input = gr.Audio(label="Reference Audio", type="filepath")
@@ -508,9 +519,12 @@ def parse_emotional_text(gen_text):
     return segments
 def get_audio_file(audio_path):
     return audio_path
 with gr.Blocks() as app_emotional:
     # New section for emotional generation
     gr.Markdown(
@@ -521,7 +535,11 @@ with gr.Blocks() as app_emotional:
     **Example Input:**
     (Regular) Hello, I'd like to order a sandwich please. (Surprised) What do you mean you're out of bread? (Sad) I really wanted a sandwich though... (Angry) You know what, fuck you and your little shop, you suck! (Whisper) I'll just go back home and cry now. (Shouting) Why me?!
     """
     )
@@ -532,6 +550,7 @@ with gr.Blocks() as app_emotional:
         regular_name = gr.Textbox(value='Regular', label='Speech Type Name', interactive=False)
         regular_audio = gr.Audio(label='Regular Reference Audio', type='filepath')
         regular_ref_text = gr.Textbox(label='Reference Text (Regular)', lines=2)
         download_regular_audio = gr.File(label="Download Regular Reference Audio")
     regular_audio.change(
@@ -539,6 +558,8 @@ with gr.Blocks() as app_emotional:
         inputs=regular_audio,
         outputs=download_regular_audio
     )
     # Additional speech types (up to 99 more)
     max_speech_types = 100
@@ -546,7 +567,10 @@ with gr.Blocks() as app_emotional:
     speech_type_audios = []
     speech_type_ref_texts = []
     speech_type_delete_btns = []
     download_speech_type_audios = []
     for i in range(max_speech_types - 1):
         with gr.Row():
@@ -554,11 +578,15 @@ with gr.Blocks() as app_emotional:
             audio_input = gr.Audio(label='Reference Audio', type='filepath', visible=False)
             ref_text_input = gr.Textbox(label='Reference Text', lines=2, visible=False)
             delete_btn = gr.Button("Delete", variant="secondary", visible=False)
             download_audio_input = gr.File(label="Download Reference Audio", visible=False)
         speech_type_names.append(name_input)
         speech_type_audios.append(audio_input)
         speech_type_ref_texts.append(ref_text_input)
         speech_type_delete_btns.append(delete_btn)
         download_speech_type_audios.append(download_audio_input)
         audio_input.change(
@@ -566,6 +594,8 @@ with gr.Blocks() as app_emotional:
             inputs=audio_input,
             outputs=download_audio_input
         )
     # Button to add speech type
     add_speech_type_btn = gr.Button("Add Speech Type")
@@ -582,20 +612,29 @@ with gr.Blocks() as app_emotional:
             audio_updates = []
             ref_text_updates = []
             delete_btn_updates = []
             download_btn_updates = []
             for i in range(max_speech_types - 1):
                 if i < speech_type_count:
                     name_updates.append(gr.update(visible=True))
                     audio_updates.append(gr.update(visible=True))
                     ref_text_updates.append(gr.update(visible=True))
                     delete_btn_updates.append(gr.update(visible=True))
                     download_btn_updates.append(gr.update(visible=True))
                 else:
                     name_updates.append(gr.update())
                     audio_updates.append(gr.update())
                     ref_text_updates.append(gr.update())
                     delete_btn_updates.append(gr.update())
                     download_btn_updates.append(gr.update())
         else:
             # Optionally, show a warning
             # gr.Warning("Maximum number of speech types reached.")
@@ -603,13 +642,21 @@ with gr.Blocks() as app_emotional:
             audio_updates = [gr.update() for _ in range(max_speech_types - 1)]
             ref_text_updates = [gr.update() for _ in range(max_speech_types - 1)]
             delete_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
             download_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
         return [speech_type_count] + name_updates + audio_updates + ref_text_updates + delete_btn_updates + download_btn_updates
     add_speech_type_btn.click(
         add_speech_type_fn,
         inputs=speech_type_count,
         outputs=[speech_type_count] + speech_type_names + speech_type_audios + speech_type_ref_texts + speech_type_delete_btns + download_speech_type_audios
     )
     # Function to delete a speech type
@@ -770,6 +817,7 @@ with gr.Blocks() as app_emotional:
         inputs=[gen_text_input_emotional, regular_name] + speech_type_names,
         outputs=generate_emotional_btn
     )
 with gr.Blocks() as app:
     gr.Markdown(
@@ -777,6 +825,23 @@ with gr.Blocks() as app:
 # TTS
 This is a local web UI for TTS with advanced batch processing support. This app supports the following TTS models:
 """
     )
     gr.TabbedInterface([app_tts, app_podcast, app_emotional], ["TTS", "Podcast", "Multi-Style"])

 def process_audio(ref_audio_path):
     return ref_audio_path
+<<<<<<< HEAD
+=======
+with gr.Blocks() as app_credits:
+    gr.Markdown("""
+# Credits
+* [mrfakename](https://github.com/fakerybakery) for the original [online demo](https://huggingface.co/spaces/mrfakename/E2-F5-TTS)
+* [RootingInLoad](https://github.com/RootingInLoad) for the podcast generation
+* [jpgallegoar](https://github.com/jpgallegoar) for multiple speech-type generation
+""")
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
 with gr.Blocks(theme='gstaff/sketch') as app_tts:
     gr.Markdown("# Batched TTS")
     ref_audio_input = gr.Audio(label="Reference Audio", type="filepath")
     return segments
+<<<<<<< HEAD
 def get_audio_file(audio_path):
     return audio_path
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
 with gr.Blocks() as app_emotional:
     # New section for emotional generation
     gr.Markdown(
     **Example Input:**
+<<<<<<< HEAD
     (Regular) Hello, I'd like to order a sandwich please. (Surprised) What do you mean you're out of bread? (Sad) I really wanted a sandwich though... (Angry) You know what, fuck you and your little shop, you suck! (Whisper) I'll just go back home and cry now. (Shouting) Why me?!
+=======
+    (Regular) Hello, I'd like to order a sandwich please. (Surprised) What do you mean you're out of bread? (Sad) I really wanted a sandwich though... (Angry) You know what, darn you and your little shop, you suck! (Whisper) I'll just go back home and cry now. (Shouting) Why me?!
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     """
     )
         regular_name = gr.Textbox(value='Regular', label='Speech Type Name', interactive=False)
         regular_audio = gr.Audio(label='Regular Reference Audio', type='filepath')
         regular_ref_text = gr.Textbox(label='Reference Text (Regular)', lines=2)
+<<<<<<< HEAD
         download_regular_audio = gr.File(label="Download Regular Reference Audio")
     regular_audio.change(
         inputs=regular_audio,
         outputs=download_regular_audio
     )
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     # Additional speech types (up to 99 more)
     max_speech_types = 100
     speech_type_audios = []
     speech_type_ref_texts = []
     speech_type_delete_btns = []
+<<<<<<< HEAD
     download_speech_type_audios = []
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     for i in range(max_speech_types - 1):
         with gr.Row():
             audio_input = gr.Audio(label='Reference Audio', type='filepath', visible=False)
             ref_text_input = gr.Textbox(label='Reference Text', lines=2, visible=False)
             delete_btn = gr.Button("Delete", variant="secondary", visible=False)
+<<<<<<< HEAD
             download_audio_input = gr.File(label="Download Reference Audio", visible=False)
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
         speech_type_names.append(name_input)
         speech_type_audios.append(audio_input)
         speech_type_ref_texts.append(ref_text_input)
         speech_type_delete_btns.append(delete_btn)
+<<<<<<< HEAD
         download_speech_type_audios.append(download_audio_input)
         audio_input.change(
             inputs=audio_input,
             outputs=download_audio_input
         )
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     # Button to add speech type
     add_speech_type_btn = gr.Button("Add Speech Type")
             audio_updates = []
             ref_text_updates = []
             delete_btn_updates = []
+<<<<<<< HEAD
             download_btn_updates = []
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
             for i in range(max_speech_types - 1):
                 if i < speech_type_count:
                     name_updates.append(gr.update(visible=True))
                     audio_updates.append(gr.update(visible=True))
                     ref_text_updates.append(gr.update(visible=True))
                     delete_btn_updates.append(gr.update(visible=True))
+<<<<<<< HEAD
                     download_btn_updates.append(gr.update(visible=True))
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
                 else:
                     name_updates.append(gr.update())
                     audio_updates.append(gr.update())
                     ref_text_updates.append(gr.update())
                     delete_btn_updates.append(gr.update())
+<<<<<<< HEAD
                     download_btn_updates.append(gr.update())
+=======
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
         else:
             # Optionally, show a warning
             # gr.Warning("Maximum number of speech types reached.")
             audio_updates = [gr.update() for _ in range(max_speech_types - 1)]
             ref_text_updates = [gr.update() for _ in range(max_speech_types - 1)]
             delete_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
+<<<<<<< HEAD
             download_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
         return [speech_type_count] + name_updates + audio_updates + ref_text_updates + delete_btn_updates + download_btn_updates
+=======
+        return [speech_type_count] + name_updates + audio_updates + ref_text_updates + delete_btn_updates
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     add_speech_type_btn.click(
         add_speech_type_fn,
         inputs=speech_type_count,
+<<<<<<< HEAD
         outputs=[speech_type_count] + speech_type_names + speech_type_audios + speech_type_ref_texts + speech_type_delete_btns + download_speech_type_audios
+=======
+        outputs=[speech_type_count] + speech_type_names + speech_type_audios + speech_type_ref_texts + speech_type_delete_btns
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     )
     # Function to delete a speech type
         inputs=[gen_text_input_emotional, regular_name] + speech_type_names,
         outputs=generate_emotional_btn
     )
+<<<<<<< HEAD
 with gr.Blocks() as app:
     gr.Markdown(
 # TTS
 This is a local web UI for TTS with advanced batch processing support. This app supports the following TTS models:
+=======
+with gr.Blocks() as app:
+    gr.Markdown(
+        """
+# E2/F5 TTS
+This is a local web UI for F5 TTS with advanced batch processing support. This app supports the following TTS models:
+* [F5-TTS](https://arxiv.org/abs/2410.06885) (A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching)
+* [E2 TTS](https://arxiv.org/abs/2406.18009) (Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS)
+The checkpoints support English and Chinese.
+If you're having issues, try converting your reference audio to WAV or MP3, clipping it to 15s, and shortening your prompt.
+**NOTE: Reference text will be automatically transcribed with Whisper if not provided. For best results, keep your reference clips short (<15s). Ensure the audio is fully uploaded before generating.**
+>>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
 """
     )
     gr.TabbedInterface([app_tts, app_podcast, app_emotional], ["TTS", "Podcast", "Multi-Style"])