Spaces:

LAP-DEV
/

Demo

Running

App Files Files Community

LAP-DEV commited on Jun 18

Commit

b9fa8bc

verified ·

1 Parent(s): 3e596a4

Update modules/utils/subtitle_manager.py

Browse files

Files changed (1) hide show

modules/utils/subtitle_manager.py +51 -9

modules/utils/subtitle_manager.py CHANGED Viewed

@@ -80,22 +80,64 @@ def get_vtt(segments):
     return output
 def get_txt(segments):
     output = ""
     for i, segment in enumerate(segments):
-        if segment['text'].startswith(' '):
-            segment['text'] = segment['text'][1:]
-        #output += f"{segment['text']}\n"
-        output += f"{timeformat_txt(segment['start'])}\t{segment['text']}\n"
-    return output
 def get_plaintext(segments):
     output = ""
     for i, segment in enumerate(segments):
-        if segment['text'].startswith(' '):
-            segment['text'] = segment['text'][1:]
-        output += f"{segment['text']}\n"
-    return output
 def parse_srt(file_path):
     """Reads SRT file and returns as dict"""

     return output
+#def get_txt(segments):
+#    output = ""
+#    for i, segment in enumerate(segments):
+#        if segment['text'].startswith(' '):
+#            segment['text'] = segment['text'][1:]
+#        #output += f"{segment['text']}\n"
+#        output += f"{timeformat_txt(segment['start'])}\t{segment['text']}\n"
+#    return output
+#def get_plaintext(segments):
+#    output = ""
+#    for i, segment in enumerate(segments):
+#        if segment['text'].startswith(' '):
+#            segment['text'] = segment['text'][1:]
+#        output += f"{segment['text']}\n"
+#    return output
 def get_txt(segments):
+    bDiarization = False
     output = ""
+    # Check if speakers are identified
     for i, segment in enumerate(segments):
+        if re.search(r'SPEAKER [0-9][0-9]: ',segment['text']) != None:
+            bDiarization = True
+            break
+    for i, segment in enumerate(segments):
+        if bDiarization:
+            speaker_id = ((segment['text']).split(":", 1)[0]).strip()
+            speaker_text = ((segment['text']).split(":", 1)[1]).strip()
+            output += f"{timeformat_txt(segment['start'])}\t{speaker_id}\t{speaker_text}\n"
+        else:
+            speaker_text = (segment['text']).strip()
+            output += f"{timeformat_txt(segment['start'])}\t{speaker_text}\n"
+    return output.rstrip("\n")
 def get_plaintext(segments):
+    bDiarization = False
     output = ""
+    # Check if speakers are identified
     for i, segment in enumerate(segments):
+        if re.search(r'SPEAKER [0-9][0-9]: ',segment['text']) != None:
+            bDiarization = True
+            break
+    for i, segment in enumerate(segments):
+        if bDiarization:
+            speaker_id = ((segment['text']).split(":", 1)[0]).strip()
+            speaker_text = ((segment['text']).split(":", 1)[1]).strip()
+            output += f"{timeformat_txt({speaker_id}\t{speaker_text}\n"
+        else:
+            speaker_text = (segment['text']).strip()
+            output += f"{speaker_text}\n"
+    return output.rstrip("\n")
 def parse_srt(file_path):
     """Reads SRT file and returns as dict"""