Spaces:

ProzisTech
/

translate

Sleeping

Hugo Rodrigues commited on Feb 5, 2024

Commit

6db451f

1 Parent(s): 357cae7

transcribe-audio

Files changed (1) hide show

main.py CHANGED Viewed

@@ -1,10 +1,14 @@
 import time
 from scipy.io.wavfile import write
 # from typing import Union
 # from pydantic import BaseModel
-from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import FileResponse
@@ -93,3 +97,23 @@ async def audio(inputs, src_lang="eng", tgt_lang="por", speaker_id=5):
           audio_array_from_text)
     return FileResponse(f"/tmp/output{start_time}.wav", media_type="audio/mpeg")

 import time
 from scipy.io.wavfile import write
+import torchaudio
+import numpy as np
 # from typing import Union
 # from pydantic import BaseModel
+from fastapi import FastAPI, UploadFile
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import FileResponse
           audio_array_from_text)
     return FileResponse(f"/tmp/output{start_time}.wav", media_type="audio/mpeg")
+@app.post("/transcribe-audio")
+async def transcribe_audio(soundFile: UploadFile, tgt_lang='eng'):
+    start_time = time.time()
+    # process input
+    inputFile = soundFile.file.read()
+    audio_data = np.frombuffer(inputFile, dtype=np.int16)
+    audio_inputs = processor(
+        audios=audio_data, return_tensors="pt").to(device)
+    audio_array_from_audio = model.generate(
+        **audio_inputs, tgt_lang=tgt_lang)[0].cpu().numpy().squeeze()
+    write(f"/tmp/output{start_time}.wav", model.config.sampling_rate,
+          audio_array_from_audio)
+    return FileResponse(f"/tmp/output{start_time}.wav", media_type="audio/wav")