Spaces:

AriNubar
/

hyw-en-demo

Running

App Files Files Community

AriNubar commited on Mar 8, 2024

Commit

068f983

verified ·

1 Parent(s): 2f130e3

Didnt work, reverting

Browse files

Files changed (1) hide show

translation.py +13 -31

translation.py CHANGED Viewed

@@ -120,10 +120,9 @@ class Translator:
         self.hyw_splitter = pysbd.Segmenter(language="hy", clean=False)
         self.eng_splitter = pysbd.Segmenter(language="en", clean=False)
         self.languages = LANGUAGES
-        self.BATCH_SIZE = 8
-    def translate_batch(
         self,
         text,
         src_lang,
@@ -135,7 +134,7 @@ class Translator:
     ):
         self.tokenizer.src_lang = src_lang
         encoded = self.tokenizer(
-            text, return_tensors="pt", truncation=True, max_length=256, padding=True,
         )
         if max_length == "auto":
             max_length = int(32 + 2.0 * encoded.input_ids.shape[1])
@@ -164,42 +163,25 @@ class Translator:
         if by_sentence:
             if src_lang =="eng_Latn":
-                # sents, fillers = sentenize_with_fillers(text, self.eng_splitter, ignore_errors=True)
-                sentences = self.eng_splitter.segment(text)
             elif src_lang == "hyw_Armn":
-                # sents, fillers = sentenize_with_fillers(text, self.hyw_splitter, ignore_errors=True)
-                sentences = self.hyw_splitter.segment(text)
         else:
-            sentences = [text]
-            # fillers = ["", ""]
         if clean:
-            sentences = [clean_text(sent, src_lang) for sent in sentences]
-        num_batches = len(sentences) // self.BATCH_SIZE
-        if len(sentences) % self.BATCH_SIZE != 0:
-            num_batches += 1
         results = []
-        for batch_num in range(num_batches):
-            start = batch_num * self.BATCH_SIZE
-            end = start + self.BATCH_SIZE
-            batch = sentences[start:end]
-            translated = self.translate_batch(batch, src_lang, tgt_lang)
-            results.extend(translated)
-            return " ".join(results).strip()
-        # for sent, sep in zip(sents, fillers):
-        #     results.append(sep)
-        #     results.append(self.translate_batch(sent, src_lang, tgt_lang, max_length, num_beams, **kwargs))
-        # results.append(fillers[-1])
-        # return " ".join(results)
 if __name__ == "__main__":
     print("Initializing translator...")

         self.hyw_splitter = pysbd.Segmenter(language="hy", clean=False)
         self.eng_splitter = pysbd.Segmenter(language="en", clean=False)
         self.languages = LANGUAGES
+    def translate_single(
         self,
         text,
         src_lang,
     ):
         self.tokenizer.src_lang = src_lang
         encoded = self.tokenizer(
+            text, return_tensors="pt", truncation=True, max_length=256
         )
         if max_length == "auto":
             max_length = int(32 + 2.0 * encoded.input_ids.shape[1])
         if by_sentence:
             if src_lang =="eng_Latn":
+                sents, fillers = sentenize_with_fillers(text, self.eng_splitter, ignore_errors=True)
             elif src_lang == "hyw_Armn":
+                sents, fillers = sentenize_with_fillers(text, self.hyw_splitter, ignore_errors=True)
         else:
+            sents = [text]
+            fillers = ["", ""]
         if clean:
+            sents = [clean_text(sent, src_lang) for sent in sents]
         results = []
+        for sent, sep in zip(sents, fillers):
+            results.append(sep)
+            results.append(self.translate_single(sent, src_lang, tgt_lang, max_length, num_beams, **kwargs))
+        results.append(fillers[-1])
+        return " ".join(results)
 if __name__ == "__main__":
     print("Initializing translator...")