Spaces:

vishwask
/

rag

Sleeping

vishwask commited on Mar 4, 2024

Commit

4c32e5c

verified ·

1 Parent(s): c411529

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,21 +35,28 @@ def intitalize_lang(language):
     print("intitalize_lang"+lang_global)
 def english_to_indian(sentence):
-    print ("english_to_indian"+lang_global)
     translation_tokenizer.src_lang = "en_xx"
-    encoded_hi = translation_tokenizer(sentence, return_tensors="pt")
-    generated_tokens = translation_model.generate(**encoded_hi,
-                                                  forced_bos_token_id=translation_tokenizer.lang_code_to_id[lang_global] )
-    return (translation_tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))
 def indian_to_english(sentence):
     translation_tokenizer.src_lang = lang_global
-    encoded_hi = translation_tokenizer(sentence, return_tensors="pt")
-    generated_tokens = translation_model.generate(**encoded_hi,
-                                                  forced_bos_token_id=translation_tokenizer.lang_code_to_id["en_XX"] )
-    return (translation_tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))
 llm_model = "mistralai/Mistral-7B-Instruct-v0.2"

     print("intitalize_lang"+lang_global)
 def english_to_indian(sentence):
+    #print ("english_to_indian"+lang_global)
+    translated_sentence  = ''
     translation_tokenizer.src_lang = "en_xx"
+    chunks = [sentence[i:i+500] for i in range(0, len(sentence), 500)]
+    for chunk in chunks:
+        encoded_hi = translation_tokenizer(chunk, return_tensors="pt")
+        generated_tokens = translation_model.generate(**encoded_hi,
+                                                      forced_bos_token_id=translation_tokenizer.lang_code_to_id[lang_global] )
+        x = translation_tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
+        translated_sentence = translated_sentence + x
+    return translated_sentence
 def indian_to_english(sentence):
+    translated_sentence  = ''
     translation_tokenizer.src_lang = lang_global
+    chunks = [sentence[i:i+500] for i in range(0, len(sentence), 500)]
+    for chunk in chunks:
+        encoded_hi = translation_tokenizer(chunk, return_tensors="pt")
+        generated_tokens = translation_model.generate(**encoded_hi, forced_bos_token_id=translation_tokenizer.lang_code_to_id["en_XX"] )
+        x = translation_tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
+        translated_sentence = translated_sentence + x
+    return translated_sentence
 llm_model = "mistralai/Mistral-7B-Instruct-v0.2"