Spaces:

benjolo
/

InterpreTalk

Paused

benjolo commited on Apr 13, 2024

Commit

af26aa4

verified ·

1 Parent(s): ce8203a

changing processor to use gpu

Files changed (1) hide show

backend/main.py CHANGED Viewed

@@ -297,13 +297,13 @@ async def incoming_audio(sid, data, call_id):
                 tgt_sid = next(id for id in rooms[call_id] if id != sid)
                 tgt_lang = clients[tgt_sid].target_language
                 # following example from https://github.com/facebookresearch/seamless_communication/blob/main/docs/m4t/README.md#transformers-usage
-                output_tokens = processor(audios=resampled_audio, src_lang=src_lang, return_tensors="pt")
                 model_output = model.generate(**output_tokens, tgt_lang=src_lang, generate_speech=False)[0].tolist()[0]
                 asr_text = processor.decode(model_output, skip_special_tokens=True)
                 print(f"ASR TEXT = {asr_text}")
                 # ASR TEXT => ORIGINAL TEXT
-                t2t_tokens = processor(text=asr_text, src_lang=src_lang, tgt_lang=tgt_lang, return_tensors="pt")
                 print(f"FIRST TYPE = {type(output_tokens)}, SECOND TYPE = {type(t2t_tokens)}")
                 translated_data = model.generate(**t2t_tokens, tgt_lang=tgt_lang, generate_speech=False)[0].tolist()[0]
                 translated_text = processor.decode(translated_data, skip_special_tokens=True)
@@ -339,7 +339,7 @@ def send_captions(client_id, original_text, translated_text, call_id):
 app.mount("/", socketio_app)
 if __name__ == '__main__':
-    uvicorn.run("main:app", host='127.0.0.1', port=8080, log_level="info")
 # Running in Docker Container
 if __name__ != "__main__":

                 tgt_sid = next(id for id in rooms[call_id] if id != sid)
                 tgt_lang = clients[tgt_sid].target_language
                 # following example from https://github.com/facebookresearch/seamless_communication/blob/main/docs/m4t/README.md#transformers-usage
+                output_tokens = processor(audios=resampled_audio, src_lang=src_lang, return_tensors="pt").to(device)
                 model_output = model.generate(**output_tokens, tgt_lang=src_lang, generate_speech=False)[0].tolist()[0]
                 asr_text = processor.decode(model_output, skip_special_tokens=True)
                 print(f"ASR TEXT = {asr_text}")
                 # ASR TEXT => ORIGINAL TEXT
+                t2t_tokens = processor(text=asr_text, src_lang=src_lang, tgt_lang=tgt_lang, return_tensors="pt").to(device)
                 print(f"FIRST TYPE = {type(output_tokens)}, SECOND TYPE = {type(t2t_tokens)}")
                 translated_data = model.generate(**t2t_tokens, tgt_lang=tgt_lang, generate_speech=False)[0].tolist()[0]
                 translated_text = processor.decode(translated_data, skip_special_tokens=True)
 app.mount("/", socketio_app)
 if __name__ == '__main__':
+    uvicorn.run("main:app", host='0.0.0.0', port=7860, log_level="info")
 # Running in Docker Container
 if __name__ != "__main__":