laion-whisper

Paused

App Files Files Community

Tonic commited on Jan 20

Commit

8b6e3fd

•

1 Parent(s): e27c13f

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -19

app.py CHANGED Viewed

@@ -33,34 +33,50 @@ def whisper_speech_demo(text, lang, speaker_audio=None, mix_lang=None, mix_text=
     else:
         audio_data = pipe.generate(text, speaker_url, lang)
     with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
         tmp_file_name = tmp_file.name
-        audio_np = audio_data.cpu().numpy()
         if audio_np.max() > 1.0 or audio_np.min() < -1.0:
             audio_np = audio_np / np.max(np.abs(audio_np))
-        sf.write(tmp_file_name, audio_np, 24000)
     return tmp_file_name
 with gr.Blocks() as demo:
     gr.Markdown(title)
-    with gr.Row():
-        text_input = gr.Textbox(label="Enter text")
-        lang_input = gr.Dropdown(choices=list(LANGUAGES.keys()), label="Language")
-        speaker_input = gr.Audio(label="Upload or Record Speaker Audio (optional)", sources=["upload", "microphone"], type="filepath")
-    with gr.Row():
-        mix_lang_input = gr.CheckboxGroup(choices=list(LANGUAGES.keys()), label="Mixed Languages (optional)")
-        mix_text_input = gr.Textbox(label="Mixed Texts (optional, for mixed languages)", placeholder="e.g., Hello, Cześć")
-    with gr.Row():
-        submit_button = gr.Button("Generate Speech")
-    output_audio = gr.Audio(label="🌬️💬📝WhisperSpeech")
-    submit_button.click(
-        whisper_speech_demo,
-        inputs=[text_input, lang_input, speaker_input, mix_lang_input, mix_text_input],
-        outputs=output_audio
-    )
 demo.launch()

     else:
         audio_data = pipe.generate(text, speaker_url, lang)
+    resample_audio = resampler(newsr=24000)
+    audio_data_resampled = next(resample_audio([{'sample_rate': 22050, 'samples': audio_data.cpu()}]))['samples_24k']
+    # Normalize
     with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
         tmp_file_name = tmp_file.name
+        audio_np = audio_data_resampled.numpy()  # Convert to numpy array
         if audio_np.max() > 1.0 or audio_np.min() < -1.0:
             audio_np = audio_np / np.max(np.abs(audio_np))
+        sf.write(tmp_file_name, audio_np, 24000, 'PCM_24')  # Write with a sample rate of 24000 Hz
     return tmp_file_name
 with gr.Blocks() as demo:
     gr.Markdown(title)
+    with gr.Tabs():
+        with gr.TabItem("Standard TTS"):
+            with gr.Row():
+                text_input = gr.Textbox(label="Enter text")
+                lang_input = gr.Dropdown(choices=list(LANGUAGES.keys()), label="Language")
+                speaker_input = gr.Audio(label="Upload or Record Speaker Audio (optional)", sources=["upload", "microphone"], type="filepath")
+                generate_button = gr.Button("Generate Speech")
+            output_audio_standard = gr.Audio(label="🌬️💬📝WhisperSpeech")
+            generate_button.click(
+                whisper_speech_demo,
+                inputs=[text_input, lang_input, speaker_input, None, None],
+                outputs=output_audio_standard
+            )
+        with gr.TabItem("Mixed Language TTS"):
+            with gr.Row():
+                mix_text_input = gr.Textbox(label="Enter mixed language text", placeholder="e.g., Hello, Cześć")
+                mix_lang_input = gr.CheckboxGroup(choices=list(LANGUAGES.keys()), label="Select Languages")
+                mix_generate_button = gr.Button("Generate Mixed Speech")
+            output_audio_mixed = gr.Audio(label="🌬️💬📝WhisperSpeech Mixed")
+            mix_generate_button.click(
+                whisper_speech_demo,
+                inputs=[mix_text_input, None, None, mix_lang_input, mix_text_input],
+                outputs=output_audio_mixed
+            )
 demo.launch()