Spaces:

Shamik3
/

tts

Paused

App Files Files Community

Shamik88 commited on Oct 19, 2024

Commit

8850539

1 Parent(s): 9ec61b3

test fix

Browse files

Files changed (2) hide show

.DS_Store +0 -0
app.py +0 -65

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

app.py CHANGED Viewed

@@ -386,17 +386,6 @@ def update_speed(new_speed):
 def process_audio(ref_audio_path):
     return ref_audio_path
-<<<<<<< HEAD
-=======
-with gr.Blocks() as app_credits:
-    gr.Markdown("""
-# Credits
-* [mrfakename](https://github.com/fakerybakery) for the original [online demo](https://huggingface.co/spaces/mrfakename/E2-F5-TTS)
-* [RootingInLoad](https://github.com/RootingInLoad) for the podcast generation
-* [jpgallegoar](https://github.com/jpgallegoar) for multiple speech-type generation
-""")
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
 with gr.Blocks(theme='gstaff/sketch') as app_tts:
     gr.Markdown("# Batched TTS")
     ref_audio_input = gr.Audio(label="Reference Audio", type="filepath")
@@ -519,12 +508,9 @@ def parse_emotional_text(gen_text):
     return segments
-<<<<<<< HEAD
 def get_audio_file(audio_path):
     return audio_path
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
 with gr.Blocks() as app_emotional:
     # New section for emotional generation
     gr.Markdown(
@@ -535,11 +521,7 @@ with gr.Blocks() as app_emotional:
     **Example Input:**
-<<<<<<< HEAD
     (Regular) Hello, I'd like to order a sandwich please. (Surprised) What do you mean you're out of bread? (Sad) I really wanted a sandwich though... (Angry) You know what, fuck you and your little shop, you suck! (Whisper) I'll just go back home and cry now. (Shouting) Why me?!
-=======
-    (Regular) Hello, I'd like to order a sandwich please. (Surprised) What do you mean you're out of bread? (Sad) I really wanted a sandwich though... (Angry) You know what, darn you and your little shop, you suck! (Whisper) I'll just go back home and cry now. (Shouting) Why me?!
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     """
     )
@@ -550,7 +532,6 @@ with gr.Blocks() as app_emotional:
         regular_name = gr.Textbox(value='Regular', label='Speech Type Name', interactive=False)
         regular_audio = gr.Audio(label='Regular Reference Audio', type='filepath')
         regular_ref_text = gr.Textbox(label='Reference Text (Regular)', lines=2)
-<<<<<<< HEAD
         download_regular_audio = gr.File(label="Download Regular Reference Audio")
     regular_audio.change(
@@ -558,8 +539,6 @@ with gr.Blocks() as app_emotional:
         inputs=regular_audio,
         outputs=download_regular_audio
     )
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     # Additional speech types (up to 99 more)
     max_speech_types = 100
@@ -567,10 +546,7 @@ with gr.Blocks() as app_emotional:
     speech_type_audios = []
     speech_type_ref_texts = []
     speech_type_delete_btns = []
-<<<<<<< HEAD
     download_speech_type_audios = []
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     for i in range(max_speech_types - 1):
         with gr.Row():
@@ -578,15 +554,11 @@ with gr.Blocks() as app_emotional:
             audio_input = gr.Audio(label='Reference Audio', type='filepath', visible=False)
             ref_text_input = gr.Textbox(label='Reference Text', lines=2, visible=False)
             delete_btn = gr.Button("Delete", variant="secondary", visible=False)
-<<<<<<< HEAD
             download_audio_input = gr.File(label="Download Reference Audio", visible=False)
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
         speech_type_names.append(name_input)
         speech_type_audios.append(audio_input)
         speech_type_ref_texts.append(ref_text_input)
         speech_type_delete_btns.append(delete_btn)
-<<<<<<< HEAD
         download_speech_type_audios.append(download_audio_input)
         audio_input.change(
@@ -594,8 +566,6 @@ with gr.Blocks() as app_emotional:
             inputs=audio_input,
             outputs=download_audio_input
         )
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     # Button to add speech type
     add_speech_type_btn = gr.Button("Add Speech Type")
@@ -612,29 +582,20 @@ with gr.Blocks() as app_emotional:
             audio_updates = []
             ref_text_updates = []
             delete_btn_updates = []
-<<<<<<< HEAD
             download_btn_updates = []
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
             for i in range(max_speech_types - 1):
                 if i < speech_type_count:
                     name_updates.append(gr.update(visible=True))
                     audio_updates.append(gr.update(visible=True))
                     ref_text_updates.append(gr.update(visible=True))
                     delete_btn_updates.append(gr.update(visible=True))
-<<<<<<< HEAD
                     download_btn_updates.append(gr.update(visible=True))
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
                 else:
                     name_updates.append(gr.update())
                     audio_updates.append(gr.update())
                     ref_text_updates.append(gr.update())
                     delete_btn_updates.append(gr.update())
-<<<<<<< HEAD
                     download_btn_updates.append(gr.update())
-=======
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
         else:
             # Optionally, show a warning
             # gr.Warning("Maximum number of speech types reached.")
@@ -642,21 +603,13 @@ with gr.Blocks() as app_emotional:
             audio_updates = [gr.update() for _ in range(max_speech_types - 1)]
             ref_text_updates = [gr.update() for _ in range(max_speech_types - 1)]
             delete_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
-<<<<<<< HEAD
             download_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
         return [speech_type_count] + name_updates + audio_updates + ref_text_updates + delete_btn_updates + download_btn_updates
-=======
-        return [speech_type_count] + name_updates + audio_updates + ref_text_updates + delete_btn_updates
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     add_speech_type_btn.click(
         add_speech_type_fn,
         inputs=speech_type_count,
-<<<<<<< HEAD
         outputs=[speech_type_count] + speech_type_names + speech_type_audios + speech_type_ref_texts + speech_type_delete_btns + download_speech_type_audios
-=======
-        outputs=[speech_type_count] + speech_type_names + speech_type_audios + speech_type_ref_texts + speech_type_delete_btns
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
     )
     # Function to delete a speech type
@@ -817,7 +770,6 @@ with gr.Blocks() as app_emotional:
         inputs=[gen_text_input_emotional, regular_name] + speech_type_names,
         outputs=generate_emotional_btn
     )
-<<<<<<< HEAD
 with gr.Blocks() as app:
     gr.Markdown(
@@ -825,23 +777,6 @@ with gr.Blocks() as app:
 # TTS
 This is a local web UI for TTS with advanced batch processing support. This app supports the following TTS models:
-=======
-with gr.Blocks() as app:
-    gr.Markdown(
-        """
-# E2/F5 TTS
-This is a local web UI for F5 TTS with advanced batch processing support. This app supports the following TTS models:
-* [F5-TTS](https://arxiv.org/abs/2410.06885) (A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching)
-* [E2 TTS](https://arxiv.org/abs/2406.18009) (Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS)
-The checkpoints support English and Chinese.
-If you're having issues, try converting your reference audio to WAV or MP3, clipping it to 15s, and shortening your prompt.
-**NOTE: Reference text will be automatically transcribed with Whisper if not provided. For best results, keep your reference clips short (<15s). Ensure the audio is fully uploaded before generating.**
->>>>>>> 92604a33e28acd02c841d163fca3c8b802cf15e5
 """
     )
     gr.TabbedInterface([app_tts, app_podcast, app_emotional], ["TTS", "Podcast", "Multi-Style"])

 def process_audio(ref_audio_path):
     return ref_audio_path
 with gr.Blocks(theme='gstaff/sketch') as app_tts:
     gr.Markdown("# Batched TTS")
     ref_audio_input = gr.Audio(label="Reference Audio", type="filepath")
     return segments
 def get_audio_file(audio_path):
     return audio_path
 with gr.Blocks() as app_emotional:
     # New section for emotional generation
     gr.Markdown(
     **Example Input:**
     (Regular) Hello, I'd like to order a sandwich please. (Surprised) What do you mean you're out of bread? (Sad) I really wanted a sandwich though... (Angry) You know what, fuck you and your little shop, you suck! (Whisper) I'll just go back home and cry now. (Shouting) Why me?!
     """
     )
         regular_name = gr.Textbox(value='Regular', label='Speech Type Name', interactive=False)
         regular_audio = gr.Audio(label='Regular Reference Audio', type='filepath')
         regular_ref_text = gr.Textbox(label='Reference Text (Regular)', lines=2)
         download_regular_audio = gr.File(label="Download Regular Reference Audio")
     regular_audio.change(
         inputs=regular_audio,
         outputs=download_regular_audio
     )
     # Additional speech types (up to 99 more)
     max_speech_types = 100
     speech_type_audios = []
     speech_type_ref_texts = []
     speech_type_delete_btns = []
     download_speech_type_audios = []
     for i in range(max_speech_types - 1):
         with gr.Row():
             audio_input = gr.Audio(label='Reference Audio', type='filepath', visible=False)
             ref_text_input = gr.Textbox(label='Reference Text', lines=2, visible=False)
             delete_btn = gr.Button("Delete", variant="secondary", visible=False)
             download_audio_input = gr.File(label="Download Reference Audio", visible=False)
         speech_type_names.append(name_input)
         speech_type_audios.append(audio_input)
         speech_type_ref_texts.append(ref_text_input)
         speech_type_delete_btns.append(delete_btn)
         download_speech_type_audios.append(download_audio_input)
         audio_input.change(
             inputs=audio_input,
             outputs=download_audio_input
         )
     # Button to add speech type
     add_speech_type_btn = gr.Button("Add Speech Type")
             audio_updates = []
             ref_text_updates = []
             delete_btn_updates = []
             download_btn_updates = []
             for i in range(max_speech_types - 1):
                 if i < speech_type_count:
                     name_updates.append(gr.update(visible=True))
                     audio_updates.append(gr.update(visible=True))
                     ref_text_updates.append(gr.update(visible=True))
                     delete_btn_updates.append(gr.update(visible=True))
                     download_btn_updates.append(gr.update(visible=True))
                 else:
                     name_updates.append(gr.update())
                     audio_updates.append(gr.update())
                     ref_text_updates.append(gr.update())
                     delete_btn_updates.append(gr.update())
                     download_btn_updates.append(gr.update())
         else:
             # Optionally, show a warning
             # gr.Warning("Maximum number of speech types reached.")
             audio_updates = [gr.update() for _ in range(max_speech_types - 1)]
             ref_text_updates = [gr.update() for _ in range(max_speech_types - 1)]
             delete_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
             download_btn_updates = [gr.update() for _ in range(max_speech_types - 1)]
         return [speech_type_count] + name_updates + audio_updates + ref_text_updates + delete_btn_updates + download_btn_updates
     add_speech_type_btn.click(
         add_speech_type_fn,
         inputs=speech_type_count,
         outputs=[speech_type_count] + speech_type_names + speech_type_audios + speech_type_ref_texts + speech_type_delete_btns + download_speech_type_audios
     )
     # Function to delete a speech type
         inputs=[gen_text_input_emotional, regular_name] + speech_type_names,
         outputs=generate_emotional_btn
     )
 with gr.Blocks() as app:
     gr.Markdown(
 # TTS
 This is a local web UI for TTS with advanced batch processing support. This app supports the following TTS models:
 """
     )
     gr.TabbedInterface([app_tts, app_podcast, app_emotional], ["TTS", "Podcast", "Multi-Style"])