WhisperSpeech

Running on T4

App Files Files Community

Tonic commited on Jan 20

Commit

9d5b6f7

•

1 Parent(s): 13a19c6

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -13

app.py CHANGED Viewed

@@ -22,14 +22,11 @@ Join us : 🌟TeamTonic🌟 is always making cool demos! Join our active builder
 @spaces.GPU
 def whisper_speech_demo(text, lang, speaker_audio, mix_lang, mix_text):
     pipe = Pipeline()
-    speaker_url = None
-    if speaker_audio is not None:
-        speaker_url = speaker_audio
-    if mix_lang and mix_text:
-        mixed_langs = lang.split(',') + mix_lang.split(',')
-        mixed_texts = [text] + mix_text.split(',')
         stoks = pipe.t2s.generate(mixed_texts, lang=mixed_langs)
         audio_data = pipe.generate(stoks, speaker_url, lang=mixed_langs[0])
     else:
@@ -39,10 +36,9 @@ def whisper_speech_demo(text, lang, speaker_audio, mix_lang, mix_text):
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
     # Normalize audio
-    audio_np = audio_data.cpu().numpy()
     audio_np = audio_np / np.max(np.abs(audio_np))
-    # Save to a temporary WAV file
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
         sf.write(tmp_file.name, audio_np, 24000, 'PCM_16')
     return tmp_file.name
@@ -56,8 +52,8 @@ with gr.Blocks() as demo:
                 text_input_standard = gr.Textbox(label="Enter text")
                 lang_input_standard = gr.Dropdown(choices=list(LANGUAGES.keys()), label="Language")
                 speaker_input_standard = gr.Audio(label="Upload or Record Speaker Audio (optional)", sources=["upload", "microphone"], type="filepath")
-                placeholder_mix_lang = gr.Textbox(visible=False)  # Placeholder, hidden
-                placeholder_mix_text = gr.Textbox(visible=False)  # Placeholder, hidden
                 generate_button_standard = gr.Button("Generate Speech")
             output_audio_standard = gr.Audio(label="🌬️💬📝WhisperSpeech")
@@ -69,8 +65,8 @@ with gr.Blocks() as demo:
         with gr.TabItem("🌬️💬📝Mixed Language TTS"):
             with gr.Row():
-                placeholder_text_input = gr.Textbox(visible=False)  # Placeholder, hidden
-                placeholder_lang_input = gr.Dropdown(choices=[], visible=False)  # Placeholder, hidden
                 placeholder_speaker_input = gr.Audio(visible=False)
                 mix_lang_input_mixed = gr.CheckboxGroup(choices=list(LANGUAGES.keys()), label="Select Languages")
                 mix_text_input_mixed = gr.Textbox(label="Enter mixed language text", placeholder="e.g., Hello, Cześć")

 @spaces.GPU
 def whisper_speech_demo(text, lang, speaker_audio, mix_lang, mix_text):
     pipe = Pipeline()
+    speaker_url = speaker_audio if speaker_audio is not None else None
+   if mix_lang and mix_text:
+        mixed_langs = mix_lang
+        mixed_texts = mix_text.split(',')
         stoks = pipe.t2s.generate(mixed_texts, lang=mixed_langs)
         audio_data = pipe.generate(stoks, speaker_url, lang=mixed_langs[0])
     else:
     audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
     # Normalize audio
+    audio_np = audio_data_resampled.cpu().numpy()
     audio_np = audio_np / np.max(np.abs(audio_np))
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
         sf.write(tmp_file.name, audio_np, 24000, 'PCM_16')
     return tmp_file.name
                 text_input_standard = gr.Textbox(label="Enter text")
                 lang_input_standard = gr.Dropdown(choices=list(LANGUAGES.keys()), label="Language")
                 speaker_input_standard = gr.Audio(label="Upload or Record Speaker Audio (optional)", sources=["upload", "microphone"], type="filepath")
+                placeholder_mix_lang = gr.Textbox(visible=False)
+                placeholder_mix_text = gr.Textbox(visible=False)
                 generate_button_standard = gr.Button("Generate Speech")
             output_audio_standard = gr.Audio(label="🌬️💬📝WhisperSpeech")
         with gr.TabItem("🌬️💬📝Mixed Language TTS"):
             with gr.Row():
+                placeholder_text_input = gr.Textbox(visible=False)
+                placeholder_lang_input = gr.Dropdown(choices=[], visible=False)
                 placeholder_speaker_input = gr.Audio(visible=False)
                 mix_lang_input_mixed = gr.CheckboxGroup(choices=list(LANGUAGES.keys()), label="Select Languages")
                 mix_text_input_mixed = gr.Textbox(label="Enter mixed language text", placeholder="e.g., Hello, Cześć")