Spaces:

TSjB
/

Qarachay-Malqar_translator

Running

TSjB commited on Sep 11, 2024

Commit

f3fcd73

verified ·

1 Parent(s): e8cb8c1

Add supporting several sentences

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from transformers import AutoModelForSeq2SeqLM, NllbTokenizer
 import pandas as pd
 import random
 import string
 # 2. Constants
 # Translation
@@ -56,7 +57,7 @@ dictionary_ru = dictionary[dictionary.til == "rus"]
 # Tranlation
 tokenizer = NllbTokenizer.from_pretrained(MODEL_TRANSLATE_PATH)
 model_translate = AutoModelForSeq2SeqLM.from_pretrained(MODEL_TRANSLATE_PATH)
 # TTS
 model_tts, _  = torch.hub.load(repo_or_dir = REPO_TTS_PATH,
                                      model = MODEL_TTS_PATH,
@@ -376,14 +377,14 @@ def translatePy(text, src_lang='rus_Cyrl', tgt_lang='krc_Cyrl',
         text, return_tensors='pt', padding=True, truncation=True,
         max_length=max_input_length
     )
-    model_translate.eval() # turn off training mode
     result = model_translate.generate(
         **inputs.to(model_translate.device),
         forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang),
         max_new_tokens=int(a + b * inputs.input_ids.shape[1]),
         num_beams=num_beams, **kwargs
     )
-    return tokenizer.batch_decode(result, skip_special_tokens=True)[0]
 def translateDisp(text, from_, to, dialect):
@@ -405,8 +406,11 @@ def translateDisp(text, from_, to, dialect):
   if from_ == 'krc_Cyrl':
     text = toModel(text)
   str_ = translatePy(text, src_lang = from_, tgt_lang = to)
   if to == 'krc_Cyrl':
     str_ = fromModel(str_, dialect = dialect)

 import pandas as pd
 import random
 import string
+import re
 # 2. Constants
 # Translation
 # Tranlation
 tokenizer = NllbTokenizer.from_pretrained(MODEL_TRANSLATE_PATH)
 model_translate = AutoModelForSeq2SeqLM.from_pretrained(MODEL_TRANSLATE_PATH)
+model_translate.eval() # turn off training mode
 # TTS
 model_tts, _  = torch.hub.load(repo_or_dir = REPO_TTS_PATH,
                                      model = MODEL_TTS_PATH,
         text, return_tensors='pt', padding=True, truncation=True,
         max_length=max_input_length
     )
     result = model_translate.generate(
         **inputs.to(model_translate.device),
         forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang),
         max_new_tokens=int(a + b * inputs.input_ids.shape[1]),
         num_beams=num_beams, **kwargs
     )
+    return tokenizer.batch_decode(result, skip_special_tokens=True)
 def translateDisp(text, from_, to, dialect):
   if from_ == 'krc_Cyrl':
     text = toModel(text)
+  # Разбиваем текст на предложения, сохраняя знаки препинания
+  text = re.findall(r'.+?[.!?\n](?:\s|$)', text)
   str_ = translatePy(text, src_lang = from_, tgt_lang = to)
+  str_ = ' '.join(str_).strip()
   if to == 'krc_Cyrl':
     str_ = fromModel(str_, dialect = dialect)