Spaces:

FunAudioLLM
/

InspireMusic

Running on Zero

chong.zhang commited on Feb 6

Commit

9c6a7bd

1 Parent(s): 6a854fa

update

Files changed (2) hide show

inspiremusic/cli/inference.py CHANGED Viewed

@@ -247,7 +247,7 @@ def get_args():
     parser.add_argument('--min_generate_audio_seconds', type=float, default=10.0,
                         help='Minimum generated audio length in seconds')
-    parser.add_argument('--max_generate_audio_seconds', type=float, default=30.0,
                         help='Maximum generated audio length in seconds')
     parser.add_argument('--fp16', type=bool, default=True,

     parser.add_argument('--min_generate_audio_seconds', type=float, default=10.0,
                         help='Minimum generated audio length in seconds')
+    parser.add_argument('--max_generate_audio_seconds', type=float, default=300.0,
                         help='Maximum generated audio length in seconds')
     parser.add_argument('--fp16', type=bool, default=True,

inspiremusic/llm/llm.py CHANGED Viewed

@@ -290,7 +290,7 @@ class LLM(torch.nn.Module):
             prompt_audio_token: torch.Tensor,
             prompt_audio_token_len: torch.Tensor,
             embeddings: List,
-            duration_to_gen: float = 30,
             task: str = "continuation",
             token_rate: int = 75,
             limit_audio_prompt_len: int = 5,
@@ -387,6 +387,10 @@ class LLM(torch.nn.Module):
             logp = logits.log_softmax(dim=-1)
             logp = logp.squeeze(dim=0)
             top_ids = self.sampling_ids(logp, out_tokens, ignore_eos=i < min_len).item()
             if top_ids == self.audio_token_size:

             prompt_audio_token: torch.Tensor,
             prompt_audio_token_len: torch.Tensor,
             embeddings: List,
+            duration_to_gen: float = 300,
             task: str = "continuation",
             token_rate: int = 75,
             limit_audio_prompt_len: int = 5,
             logp = logits.log_softmax(dim=-1)
             logp = logp.squeeze(dim=0)
+            if i < int(min_len):
+                logp[self.audio_token_size] = torch.tensor(float('-inf'), dtype=torch.float16)
             top_ids = self.sampling_ids(logp, out_tokens, ignore_eos=i < min_len).item()
             if top_ids == self.audio_token_size: