Spaces:

kotoba-tech
/

seamless_m4t-large-v2

Runtime error

alan commited on Jul 25, 2024

Commit

cb5b6f4

1 Parent(s): a2f3b4f

Update speaker

Files changed (1) hide show

app.py CHANGED Viewed

@@ -39,7 +39,8 @@ MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "French"
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large").to(device)
 # processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
@@ -82,7 +83,8 @@ def predict(
     if task_name in ["S2TT", "T2TT"]:
         tokens_ids = model.generate(**input_data, generate_speech=False, tgt_lang=target_language_code, num_beams=5, do_sample=True)[0].cpu().squeeze().detach().tolist()
     else:
-        output = model.generate(**input_data, return_intermediate_token_ids=True, tgt_lang=target_language_code, speaker_id=LANG_TO_SPKR_ID[target_language_code], num_beams=5, do_sample=True)
         waveform = output.waveform.cpu().squeeze().detach().numpy()
         tokens_ids = output.sequences.cpu().squeeze().detach().tolist()

 DEFAULT_TARGET_LANGUAGE = "French"
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+# if torch.backends.mps.is_available():
+#     device = torch.device("mps")
 processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large").to(device)
 # processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
     if task_name in ["S2TT", "T2TT"]:
         tokens_ids = model.generate(**input_data, generate_speech=False, tgt_lang=target_language_code, num_beams=5, do_sample=True)[0].cpu().squeeze().detach().tolist()
     else:
+        print(input_data.input_features.shape)
+        output = model.generate(**input_data, return_intermediate_token_ids=True, tgt_lang=target_language_code, speaker_id=LANG_TO_SPKR_ID[target_language_code][0], num_beams=5, do_sample=True)
         waveform = output.waveform.cpu().squeeze().detach().numpy()
         tokens_ids = output.sequences.cpu().squeeze().detach().tolist()