WhisperSpeech

Runtime error

Tonic commited on Jan 25, 2024

Commit

084c0d1

verified ·

1 Parent(s): c4b4e50

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,14 +47,17 @@ def generate_segment_audio(text, lang, speaker_url, pipe):
     audio_np = audio_data_resampled.cpu().numpy()
     return audio_np
-# this function pads each segment to the length of the longest segment which is not optimal
 def concatenate_audio_segments(segments):
-    mono_segments = [seg[:, 0] if seg.ndim > 1 else seg for seg in segments]
-    max_len = max(seg.shape[0] for seg in mono_segments)
-    padded_segments = [np.pad(seg, (0, max_len - seg.shape[0]), 'constant') for seg in mono_segments]
-    concatenated_audio = np.concatenate(padded_segments, axis=0)
     concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
-    return np.asarray(concatenated_audio, dtype=np.float32)
 @spaces.GPU
 def whisper_speech_demo(multilingual_text, speaker_audio):

     audio_np = audio_data_resampled.cpu().numpy()
     return audio_np
+# Function to concatenate audio segments in stereo
 def concatenate_audio_segments(segments):
+    total_length = sum(seg.shape[0] for seg in segments)
+    concatenated_audio = np.zeros((total_length, 2), dtype=np.float32)
+    current_index = 0
+    for seg in segments:
+        end_index = current_index + seg.shape[0]
+        concatenated_audio[current_index:end_index, :] = seg
+        current_index = end_index
     concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
+    return concatenated_audio
 @spaces.GPU
 def whisper_speech_demo(multilingual_text, speaker_audio):