Spaces:

minhpng
/

test_python

Running

minhpng commited on Oct 10, 2024

Commit

417e147

1 Parent(s): 669dcca

add convert to audio

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -1,6 +1,10 @@
 # Use the official Python 3.10.9 image
 FROM python:3.12.1
 WORKDIR /app
 # Copy the current directory contents into the container at .

 # Use the official Python 3.10.9 image
 FROM python:3.12.1
+RUN apt-get update -qq && apt-get install ffmpeg -y
 WORKDIR /app
 # Copy the current directory contents into the container at .

libs/convert_to_audio.py ADDED Viewed

+import os
+import subprocess
+def convert_to_audio(input_file, output_file):
+    ffmpeg_command = [
+        "ffmpeg",
+        "-i", input_file,
+        "-vn",
+        "-acodec", "libmp3lame",
+        "-ab", "96k",
+        "-ar", "44100",
+        "-y",
+        output_file
+                      ]
+    try:
+        subprocess.run(ffmpeg_command, check=True)
+    except subprocess.CalledProcessError as e:
+        print("Error: failed to convert audio")

routers/get_transcript.py CHANGED Viewed

@@ -2,6 +2,9 @@ import time
 from fastapi import APIRouter, Depends, HTTPException, status
 from faster_whisper import WhisperModel
 from libs.header_api_auth import get_api_key
 router = APIRouter(prefix="/get-transcript", tags=["transcript"])
@@ -23,18 +26,29 @@ def get_transcript(audio_path: str, model_size: str = "distil-large-v3", api_key
     print(f"model>>>: {model_size}")
     st = time.time()
     try:
         model_run = WhisperModel(model_size, device="cpu", compute_type="int8")
         segments, info = model_run.transcribe(
-            audio_path,
             beam_size=16,
             language="en",
             condition_on_previous_text=False,
         )
     except Exception as error:
         raise HTTPException(status_code=status.HTTP_403_FORBIDDEN, detail=f"error>>>: {error}")
     text = ""
@@ -49,11 +63,13 @@ def get_transcript(audio_path: str, model_size: str = "distil-large-v3", api_key
             "text": segment.text
         })
     et = time.time()
     elapsed_time = et - st
     return {"text": text,
-            'list_sentence':  listSentences
             }
 #     time.sleep(5)

 from fastapi import APIRouter, Depends, HTTPException, status
 from faster_whisper import WhisperModel
+import os
+from libs.convert_to_audio import convert_to_audio
 from libs.header_api_auth import get_api_key
 router = APIRouter(prefix="/get-transcript", tags=["transcript"])
     print(f"model>>>: {model_size}")
+    output_audio_folder = f"./cached/audio"
+    if not os.path.exists(output_audio_folder):
+        os.makedirs(output_audio_folder)
+    output_file = f"{output_audio_folder}/{audio_path.split('/')[-1].split(".")[0]}.mp3"
     st = time.time()
+    convert_to_audio(audio_path.strip(), output_file)
     try:
         model_run = WhisperModel(model_size, device="cpu", compute_type="int8")
         segments, info = model_run.transcribe(
+            output_file,
             beam_size=16,
             language="en",
             condition_on_previous_text=False,
         )
+        os.remove(output_file)
     except Exception as error:
+        if os.path.exists(output_file):
+            os.remove(output_file)
         raise HTTPException(status_code=status.HTTP_403_FORBIDDEN, detail=f"error>>>: {error}")
     text = ""
             "text": segment.text
         })
     et = time.time()
     elapsed_time = et - st
     return {"text": text,
+            'list_sentence':  listSentences,
+            'elapsed_time': round(elapsed_time, 2)
             }
 #     time.sleep(5)