NGHIA_Test_Edge_TTS_transcript_w_timestamp

Sleeping

App Files Files Community

cnph001 commited on May 12

Commit

d4701b9

verified ·

1 Parent(s): ef0691e

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -0

app.py CHANGED Viewed

@@ -317,10 +317,32 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch, speed_adjust
     if not timed_audio_segments:
         return None, "No processable audio segments found."
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
     combined_audio_path = tempfile.mktemp(suffix=".mp3")
     final_audio.export(combined_audio_path, format="mp3")
     return combined_audio_path, None

     if not timed_audio_segments:
         return None, "No processable audio segments found."
+    oldx= '''
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
+    '''
+    final_audio = AudioSegment.silent(duration=int(max_end_time_ms * 1000 + 500), frame_rate=24000)
+    for segment in timed_audio_segments:
+        start_position_ms = int(segment['start'] * 1000)
+        audio_to_overlay = segment['audio']
+        if start_position_ms + len(audio_to_overlay) > len(final_audio):
+            padding_needed = (start_position_ms + len(audio_to_overlay)) - len(final_audio)
+            final_audio += AudioSegment.silent(duration=padding_needed + 100, frame_rate=final_audio.frame_rate)
+        try:
+            final_audio = final_audio.overlay(audio_to_overlay, position=start_position_ms)
+        except Exception as e:
+            print(f"Error during overlay: {e}")
+            print(f"  - Start position (ms): {start_position_ms}")
+            print(f"  - Length of audio to overlay (ms): {len(audio_to_overlay)}")
+            print(f"  - Length of final_audio (ms): {len(final_audio)}")
+            # Consider adding logic here to handle the error, e.g., truncating audio_to_overlay
+            # or skipping the overlay if it consistently fails.
     combined_audio_path = tempfile.mktemp(suffix=".mp3")
     final_audio.export(combined_audio_path, format="mp3")
     return combined_audio_path, None