Spaces:

vsrinivas
/

Multi_Language_Video_Conference

Sleeping

App Files Files Community

vsrinivas commited on Oct 11, 2024

Commit

0f1372a

verified ·

1 Parent(s): 2438345

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -8

app.py CHANGED Viewed

@@ -14,15 +14,17 @@ import gradio as gr
 import concurrent.futures
 import assemblyai as aai
-aai.settings.api_key = "d5b107f34d534b4ebdfbd869f8408f92"
-transcriber = aai.Transcriber()
 AI71_API_KEY = os.getenv('AI71_API_KEY')
 XI_API_KEY = os.getenv('ELEVEN_LABS_API_KEY')
 client = ElevenLabs(api_key=XI_API_KEY)
-model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
 tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
 # transcriber = whisper.load_model("turbo")
 language_codes = {"English":"en", "Hindi":"hi", "Portuguese":"pt", "Chinese":"zh", "Spanish":"es",
@@ -162,10 +164,13 @@ def summarize(meeting_texts=meeting_texts):
 # Placeholder function for speech to text conversion
 def speech_to_text(video):
     print('Started transcribing')
-    # audio = AudioSegment.from_file(video)
-    # audio.export('temp.mp3', format="mp3")
-    # transcript= transcriber.transcribe('temp.mp3')['text']
-    transcript = transcriber.transcribe(video).text
     print('transcript:', transcript)
     return transcript
@@ -173,7 +178,7 @@ def speech_to_text(video):
 def translate_text(text, source_language,target_language):
     tokenizer.src_lang = source_language
     encoded_ln = tokenizer(text, return_tensors="pt")
-    generated_tokens = model.generate(**encoded_ln, forced_bos_token_id=tokenizer.get_lang_id(target_language))
     translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
     print('translated_text:', translated_text)
     return translated_text

 import concurrent.futures
 import assemblyai as aai
+# aai.settings.api_key = "d5b107f34d534b4ebdfbd869f8408f92"
+# transcriber = aai.Transcriber()
 AI71_API_KEY = os.getenv('AI71_API_KEY')
 XI_API_KEY = os.getenv('ELEVEN_LABS_API_KEY')
 client = ElevenLabs(api_key=XI_API_KEY)
+translator = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
 tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
+transcriber = gr.load("models/openai/whisper-large-v3-turbo")
 # transcriber = whisper.load_model("turbo")
 language_codes = {"English":"en", "Hindi":"hi", "Portuguese":"pt", "Chinese":"zh", "Spanish":"es",
 # Placeholder function for speech to text conversion
 def speech_to_text(video):
     print('Started transcribing')
+    audio = AudioSegment.from_file(video, format="mp4")
+    audio.export('temp.wav', format="wav")
+    # transcript = transcriber.transcribe(video).text
+    # transcript = transcriber.transcribe(video).text
+    transcript = transcriber("temp.wav").split("'")[1].strip()
     print('transcript:', transcript)
     return transcript
 def translate_text(text, source_language,target_language):
     tokenizer.src_lang = source_language
     encoded_ln = tokenizer(text, return_tensors="pt")
+    generated_tokens = translator.generate(**encoded_ln, forced_bos_token_id=tokenizer.get_lang_id(target_language))
     translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
     print('translated_text:', translated_text)
     return translated_text