Spaces:

megatrump
/

test-FunAudioLLM

Running

megatrump commited on Mar 6

Commit

bc343c9

1 Parent(s): 08ef38f

对其了输入长度

Files changed (1) hide show

api.py CHANGED Viewed

@@ -215,6 +215,15 @@ async def process_audio(audio_data: bytes, language: str = "auto") -> str:
             resampler = torchaudio.transforms.Resample(sample_rate, 16000)
             input_wav = resampler(torch.from_numpy(input_wav)[None, :])[0, :].numpy()
         # Model inference
         text = model.generate(
             input=input_wav,
@@ -222,7 +231,7 @@ async def process_audio(audio_data: bytes, language: str = "auto") -> str:
             language=language,
             use_itn=True,
             batch_size_s=500,
-            # merge_vad=True
         )
         # Format result

             resampler = torchaudio.transforms.Resample(sample_rate, 16000)
             input_wav = resampler(torch.from_numpy(input_wav)[None, :])[0, :].numpy()
+        target_length = 90 * sample_rate
+        current_length = input_wav.shape[0]
+        if current_length < target_length:
+            padding_length = target_length - current_length
+            padding = np.zeros(padding_length, dtype=np.float32)
+            input_wav = np.concatenate((input_wav, padding))
+        elif current_length > target_length:
+            input_wav = input_wav[:target_length]
         # Model inference
         text = model.generate(
             input=input_wav,
             language=language,
             use_itn=True,
             batch_size_s=500,
+            merge_vad=True
         )
         # Format result