whisperspeech

Paused

Tonic commited on Jan 25, 2024

Commit

68c37fe

verified ·

1 Parent(s): bc5ae86

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,7 +37,6 @@ def parse_multilingual_text(input_text):
 def generate_segment_audio(text, lang, speaker_url, pipe):
     if not isinstance(text, str):
         text = text.decode("utf-8") if isinstance(text, bytes) else str(text)
     stoks = pipe.t2s.generate([text], lang=[lang])
     audio_data = pipe.generate(stoks, speaker_url, lang)
     resample_audio = resampler(newsr=24000)
@@ -63,7 +62,8 @@ def whisper_speech_demo(multilingual_text, speaker_audio):
     audio_segments = []
     for lang, text in segments:
-        audio_np = generate_segment_audio(text, lang, speaker_url, pipe)
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
@@ -74,7 +74,6 @@ def whisper_speech_demo(multilingual_text, speaker_audio):
         sf.write(tmp_file.name, audio_stereo, 24000, format='WAV', subtype='PCM_16')
         return tmp_file.name
 with gr.Blocks() as demo:
     gr.Markdown(title)
     output_audio = gr.Audio(label="Generated Speech")

 def generate_segment_audio(text, lang, speaker_url, pipe):
     if not isinstance(text, str):
         text = text.decode("utf-8") if isinstance(text, bytes) else str(text)
     stoks = pipe.t2s.generate([text], lang=[lang])
     audio_data = pipe.generate(stoks, speaker_url, lang)
     resample_audio = resampler(newsr=24000)
     audio_segments = []
     for lang, text in segments:
+        text_str = text if isinstance(text, str) else str(text)
+        audio_np = generate_segment_audio(text_str, lang, speaker_url, pipe)
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
         sf.write(tmp_file.name, audio_stereo, 24000, format='WAV', subtype='PCM_16')
         return tmp_file.name
 with gr.Blocks() as demo:
     gr.Markdown(title)
     output_audio = gr.Audio(label="Generated Speech")