whisperspeech

Paused

Tonic commited on Jan 25, 2024

Commit

af0a5f1

verified ·

1 Parent(s): 556511e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -81,25 +81,18 @@ def whisper_speech_demo(multilingual_text, speaker_audio):
     segments = parse_multilingual_text(multilingual_text)
     if not segments:
         return None, "No valid language segments found. Please use the format: <lang> text"
     pipe = Pipeline()
     speaker_url = speaker_audio if speaker_audio is not None else None
     audio_segments = []
     for lang, text in segments:
         text_str = text if isinstance(text, str) else str(text)
         audio_np = generate_segment_audio(text_str, lang, speaker_url, pipe)
         print("Audio segment shape:", audio_np.shape)  # Debug statement
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
     print("Final concatenated audio shape:", concatenated_audio.shape)  # Debug statement
-    # Normalize the concatenated audio
     concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
-    # Return the concatenated audio as a NumPy array
-    return concatenated_audio
 with gr.Blocks() as demo:
     gr.Markdown(title)

     segments = parse_multilingual_text(multilingual_text)
     if not segments:
         return None, "No valid language segments found. Please use the format: <lang> text"
     pipe = Pipeline()
     speaker_url = speaker_audio if speaker_audio is not None else None
     audio_segments = []
     for lang, text in segments:
         text_str = text if isinstance(text, str) else str(text)
         audio_np = generate_segment_audio(text_str, lang, speaker_url, pipe)
         print("Audio segment shape:", audio_np.shape)  # Debug statement
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
     print("Final concatenated audio shape:", concatenated_audio.shape)  # Debug statement
     concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
+    return concatenated_audio[0]
 with gr.Blocks() as demo:
     gr.Markdown(title)