Spaces:

megatrump
/

test-FunAudioLLM

Running

megatrump commited on Mar 7

Commit

373e485

1 Parent(s): 4a1f483

添加了统一的推理入口

Files changed (1) hide show

api.py CHANGED Viewed

@@ -196,6 +196,30 @@ def format_text_advanced(text: str) -> str:
     return formatted_text.strip()
 async def process_audio(audio_data: bytes, language: str = "auto") -> str:
     """Process audio data and return transcription result"""
     try:
@@ -203,33 +227,7 @@ async def process_audio(audio_data: bytes, language: str = "auto") -> str:
         audio_buffer = BytesIO(audio_data)
         waveform, sample_rate = torchaudio.load(audio_buffer)
-        # Convert to mono channel
-        if waveform.shape[0] > 1:
-            waveform = waveform.mean(dim=0)
-        else:
-            waveform = np.squeeze(waveform)
-        # Convert to numpy array and normalize
-        input_wav = waveform.numpy().astype(np.float32)
-        # Resample to 16kHz if needed
-        if sample_rate != 16000:
-            resampler = torchaudio.transforms.Resample(sample_rate, 16000)
-            input_wav = resampler(torch.from_numpy(input_wav)[None, :])[0, :].numpy()
-        # Model inference
-        text = model.generate(
-            input=input_wav,
-            cache={},
-            language=language,
-            use_itn=True,
-            batch_size_s=500,
-            merge_vad=True
-        )
-        # Format result
-        result = text[0]["text"]
-        result = format_text_advanced(result)
         return result

     return formatted_text.strip()
+async def audio_stt(audio: np.ndarray, sample_rate: int, language: str = "auto") -> str:
+    # Step 01. Normalize & Resample
+    input_wav = audio.astype(np.float32) / np.iinfo(np.int16).max
+    # Step 02. Convert audio to mono channel
+    if len(input_wav.shape) > 1:
+        input_wav = input_wav.mean(-1)
+    # Step 03. Resample to 16kHz
+    resampler = torchaudio.transforms.Resample(sample_rate, 16000)
+    input_wav_tensor = torch.from_numpy(input_wav).to(torch.float32)
+    input_wav = resampler(input_wav_tensor[None, :])[0, :].numpy()
+    # Step 04. Model Inference
+    text = model.generate(
+        input=input_wav,
+        cache={},
+        language=language,
+        use_itn=True,
+        batch_size_s=500,
+        merge_vad=True
+    )
+    # Step 05. Format Result
+    result = text[0]["text"]
+    result = format_text_advanced(result)
+    return result
 async def process_audio(audio_data: bytes, language: str = "auto") -> str:
     """Process audio data and return transcription result"""
     try:
         audio_buffer = BytesIO(audio_data)
         waveform, sample_rate = torchaudio.load(audio_buffer)
+        result = audio_stt(waveform, sample_rate, language)
         return result