Spaces:

megatrump
/

test-FunAudioLLM

Running

App Files Files Community

Chenhao commited on Mar 7

Commit

5899d37

1 Parent(s): 373e485

使用了统一的推理入口

Browse files

Files changed (3) hide show

Dockerfile +2 -15
api.py +21 -32
build.sh +1 -1

Dockerfile CHANGED Viewed

@@ -1,5 +1,4 @@
-# 构建阶段
-FROM python:3.12-slim as builder
 # 设置工作目录
 WORKDIR /app
@@ -16,22 +15,10 @@ COPY requirements.txt .
 # 安装Python依赖
 RUN pip install --no-cache-dir -r requirements.txt
-# 运行阶段
-FROM python:3.12-slim
-# 安装ffmpeg
-RUN apt-get update && apt-get install -y --no-install-recommends \
-    ffmpeg \
-    && rm -rf /var/lib/apt/lists/*
 # 创建非特权用户
 RUN useradd -m -s /bin/bash app
-# 设置工作目录
-WORKDIR /app
-# 复制应用代码和依赖
-COPY --from=builder /usr/local/lib/python3.12/site-packages /usr/local/lib/python3.12/site-packages
 COPY . .
 # 设置权限

+FROM python:3.12-slim
 # 设置工作目录
 WORKDIR /app
 # 安装Python依赖
 RUN pip install --no-cache-dir -r requirements.txt
 # 创建非特权用户
 RUN useradd -m -s /bin/bash app
+# 复制应用代码
 COPY . .
 # 设置权限

api.py CHANGED Viewed

@@ -4,6 +4,7 @@ from io import BytesIO
 from typing import Optional, Dict, Any, List, Set, Union, Tuple
 import os
 import time
 # Third-party imports
 from fastapi import FastAPI, File, UploadFile, HTTPException, Depends
@@ -196,16 +197,20 @@ def format_text_advanced(text: str) -> str:
     return formatted_text.strip()
-async def audio_stt(audio: np.ndarray, sample_rate: int, language: str = "auto") -> str:
-    # Step 01. Normalize & Resample
-    input_wav = audio.astype(np.float32) / np.iinfo(np.int16).max
     # Step 02. Convert audio to mono channel
     if len(input_wav.shape) > 1:
-        input_wav = input_wav.mean(-1)
     # Step 03. Resample to 16kHz
-    resampler = torchaudio.transforms.Resample(sample_rate, 16000)
-    input_wav_tensor = torch.from_numpy(input_wav).to(torch.float32)
-    input_wav = resampler(input_wav_tensor[None, :])[0, :].numpy()
     # Step 04. Model Inference
     text = model.generate(
         input=input_wav,
@@ -225,9 +230,13 @@ async def process_audio(audio_data: bytes, language: str = "auto") -> str:
     try:
         # Convert bytes to numpy array
         audio_buffer = BytesIO(audio_data)
-        waveform, sample_rate = torchaudio.load(audio_buffer)
-        result = audio_stt(waveform, sample_rate, language)
         return result
@@ -332,29 +341,9 @@ def transcribe_audio_gradio(audio: Optional[Tuple[int, np.ndarray]], language: s
         # Normalize audio
         input_wav = input_wav.astype(np.float32) / np.iinfo(np.int16).max
-        # Convert to mono
-        if len(input_wav.shape) > 1:
-            input_wav = input_wav.mean(-1)
-        # Resample to 16kHz if needed
-        if sample_rate != 16000:
-            resampler = torchaudio.transforms.Resample(sample_rate, 16000)
-            input_wav_tensor = torch.from_numpy(input_wav).to(torch.float32)
-            input_wav = resampler(input_wav_tensor[None, :])[0, :].numpy()
-        # Model inference
-        text = model.generate(
-            input=input_wav,
-            cache={},
-            language=language,
-            use_itn=True,
-            batch_size_s=500,
-            merge_vad=True
-        )
-        # Format result
-        result = text[0]["text"]
-        result = format_text_advanced(result)
         return result
     except Exception as e:

 from typing import Optional, Dict, Any, List, Set, Union, Tuple
 import os
 import time
+import asyncio
 # Third-party imports
 from fastapi import FastAPI, File, UploadFile, HTTPException, Depends
     return formatted_text.strip()
+async def audio_stt(audio: torch.Tensor, sample_rate: int, language: str = "auto") -> str:
+    """ Audio as an already normalized Float32 Tensor
+    """
+    # Step 01. Normalize
+    input_wav = audio.to(torch.float32)
     # Step 02. Convert audio to mono channel
     if len(input_wav.shape) > 1:
+        input_wav = input_wav.mean(dim=0)
+    input_wav = input_wav.squeeze()
     # Step 03. Resample to 16kHz
+    if sample_rate != 16000:
+        resampler = torchaudio.transforms.Resample(sample_rate, 16000)
+        input_wav = resampler(input_wav[None, :])[0, :].numpy()
     # Step 04. Model Inference
     text = model.generate(
         input=input_wav,
     try:
         # Convert bytes to numpy array
         audio_buffer = BytesIO(audio_data)
+        waveform, sample_rate = torchaudio.load(
+            uri             = audio_buffer,
+            normalize       = True,
+            channels_first  = True,
+        )
+        result = await audio_stt(waveform, sample_rate, language)
         return result
         # Normalize audio
         input_wav = input_wav.astype(np.float32) / np.iinfo(np.int16).max
+        input_wav = torch.from_numpy(input_wav)
+        result = asyncio.run(audio_stt(input_wav, sample_rate, language))
         return result
     except Exception as e:

build.sh CHANGED Viewed

@@ -22,7 +22,7 @@ docker build -t $IMAGE_NAME .
 echo "启动容器..."
 docker run -d \
     --name $CONTAINER_NAME \
-    -p $PORT:8000 \
     -e API_TOKEN="your-secret-token-here" \
     -e PYTHONUNBUFFERED=1 \
     $IMAGE_NAME

 echo "启动容器..."
 docker run -d \
     --name $CONTAINER_NAME \
+    -p $PORT:7860 \
     -e API_TOKEN="your-secret-token-here" \
     -e PYTHONUNBUFFERED=1 \
     $IMAGE_NAME