test_gradio

Sleeping

Pranjal12345 commited on Oct 7, 2023

Commit

33a55a6

1 Parent(s): 7ce1960

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,12 +2,12 @@ import gradio as gr
 from transformers import pipeline
 from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
 from utils import lang_ids
-import nltk
-nltk.download('punkt')
 MODEL_NAME = "Pranjal12345/pranjal_whisper_medium"
 BATCH_SIZE = 8
-FILE_LIMIT_MB = 1000
 pipe = pipeline(
     task="automatic-speech-recognition",
@@ -18,6 +18,11 @@ pipe = pipeline(
 lang_list = list(lang_ids.keys())
 def translate_audio(inputs,target_language):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
@@ -30,11 +35,8 @@ def translate_audio(inputs,target_language):
          return text
     else:
-        model = MBartForConditionalGeneration.from_pretrained("sanjitaa/mbart-many-to-many")
-        tokenizer = MBart50TokenizerFast.from_pretrained("sanjitaa/mbart-many-to-many")
         tokenizer.src_lang = "en_XX"
-        chunks = nltk.tokenize.sent_tokenize(text)
         translated_text = ''
         for segment in chunks:

 from transformers import pipeline
 from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
 from utils import lang_ids
 MODEL_NAME = "Pranjal12345/pranjal_whisper_medium"
 BATCH_SIZE = 8
+model = MBartForConditionalGeneration.from_pretrained("sanjitaa/mbart-many-to-many")
+tokenizer = MBart50TokenizerFast.from_pretrained("sanjitaa/mbart-many-to-many")
 pipe = pipeline(
     task="automatic-speech-recognition",
 lang_list = list(lang_ids.keys())
+def split_into_sentences(text):
+    sentences = text.replace('?', '.').replace('!', '.').split('.')
+    return [sentence.strip() for sentence in sentences if sentence]
 def translate_audio(inputs,target_language):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
          return text
     else:
         tokenizer.src_lang = "en_XX"
+        chunks = split_into_sentences(text)
         translated_text = ''
         for segment in chunks: