caspr

Paused

artificialguybr commited on Oct 12, 2023

Commit

6acbc07

1 Parent(s): 43c56bd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -76,14 +76,18 @@ def process_video(Video, target_language):
         # Translating the SRT from Whisper with NLLB.
         flores_code = lang_codes.get(target_language, "eng_Latn")
         for line in f:
             if line.strip().isnumeric() or "-->" in line:
                 translated_lines.append(line)
             elif line.strip() != "":
-                inputs = tokenizer(line.strip(), return_tensors="pt")
-                translated_tokens = model.generate(**inputs, forced_bos_token_id=tokenizer.lang_code_to_id[flores_code], max_length=100)
-                translated_text = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
-                translated_lines.append(translated_text + "\n")
             else:
                 translated_lines.append("\n")

         # Translating the SRT from Whisper with NLLB.
         flores_code = lang_codes.get(target_language, "eng_Latn")
+        paragraph = ""
         for line in f:
             if line.strip().isnumeric() or "-->" in line:
+                if paragraph:
+                    inputs = tokenizer(paragraph, return_tensors="pt")
+                    translated_tokens = model.generate(**inputs, forced_bos_token_id=tokenizer.lang_code_to_id[flores_code], max_length=100)
+                    translated_text = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
+                    translated_lines.append(translated_text + "\n")
+                    paragraph = ""
                 translated_lines.append(line)
             elif line.strip() != "":
+                paragraph += " " + line.strip()
             else:
                 translated_lines.append("\n")