stts

Running on TPU v5e

App Files Files Community

Edmond7 commited on Sep 26

Commit

cd03801

•

1 Parent(s): 2300584

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -11

app.py CHANGED Viewed

@@ -3,10 +3,11 @@ import math
 import time
 import base64
 import io
 from typing import Dict, Any
 from functools import wraps
-from fastapi import FastAPI, Depends, HTTPException
 from fastapi.encoders import jsonable_encoder
 from pydantic import BaseModel
 import jax.numpy as jnp
@@ -50,7 +51,7 @@ compile_time = time.time() - start
 logger.debug(f"Compiled in {compile_time}s")
 class TranscribeAudioRequest(BaseModel):
-    audio_base64: str
     task: str = "transcribe"
     return_timestamps: bool = False
@@ -68,23 +69,39 @@ def timeit(func):
         return result
     return wrapper
 @app.post("/transcribe_audio")
 @timeit
 async def transcribe_chunked_audio(
-    request: TranscribeAudioRequest
 ) -> Dict[str, Any]:
     logger.debug("Starting transcribe_chunked_audio function")
-    logger.debug(f"Received parameters - task: {request.task}, return_timestamps: {request.return_timestamps}")
     try:
-        # Decode base64 audio data
-        audio_data = base64.b64decode(request.audio_base64)
-        file_size = len(audio_data)
         file_size_mb = file_size / (1024 * 1024)
-        logger.debug(f"Decoded audio data size: {file_size} bytes ({file_size_mb:.2f}MB)")
     except Exception as e:
-        logger.error(f"Error decoding base64 audio data: {str(e)}", exc_info=True)
-        raise HTTPException(status_code=400, detail=f"Error decoding base64 audio data: {str(e)}")
     if file_size_mb > FILE_LIMIT_MB:
         logger.warning(f"Max file size exceeded: {file_size_mb:.2f}MB > {FILE_LIMIT_MB}MB")
@@ -101,7 +118,9 @@ async def transcribe_chunked_audio(
     logger.debug("Calling tqdm_generate to transcribe audio")
     try:
-        text, runtime, timing_info = tqdm_generate(inputs, task=request.task, return_timestamps=request.return_timestamps)
         logger.debug(f"Transcription completed. Runtime: {runtime:.2f}s")
     except Exception as e:
         logger.error(f"Error in tqdm_generate: {str(e)}", exc_info=True)

 import time
 import base64
 import io
+import os
 from typing import Dict, Any
 from functools import wraps
+from fastapi import FastAPI, Depends, HTTPException, File, UploadFile
 from fastapi.encoders import jsonable_encoder
 from pydantic import BaseModel
 import jax.numpy as jnp
 logger.debug(f"Compiled in {compile_time}s")
 class TranscribeAudioRequest(BaseModel):
+    audio_base64: str = None
     task: str = "transcribe"
     return_timestamps: bool = False
         return result
     return wrapper
+def check_api_key():
+    api_key = os.environ.get("WHISPER_API_KEY")
+    if not api_key:
+        raise HTTPException(status_code=401, detail="API key not found in environment variables")
+    return api_key
 @app.post("/transcribe_audio")
 @timeit
 async def transcribe_chunked_audio(
+    request: TranscribeAudioRequest = None,
+    file: UploadFile = File(None),
+    api_key: str = Depends(check_api_key)
 ) -> Dict[str, Any]:
     logger.debug("Starting transcribe_chunked_audio function")
+    logger.debug(f"Received parameters - task: {request.task if request else 'transcribe'}, return_timestamps: {request.return_timestamps if request else False}")
     try:
+        if file:
+            logger.debug("Processing uploaded file")
+            audio_data = await file.read()
+            file_size = len(audio_data)
+        elif request and request.audio_base64:
+            logger.debug("Processing base64 encoded audio")
+            audio_data = base64.b64decode(request.audio_base64)
+            file_size = len(audio_data)
+        else:
+            raise HTTPException(status_code=400, detail="No audio data provided")
         file_size_mb = file_size / (1024 * 1024)
+        logger.debug(f"Audio data size: {file_size} bytes ({file_size_mb:.2f}MB)")
     except Exception as e:
+        logger.error(f"Error processing audio data: {str(e)}", exc_info=True)
+        raise HTTPException(status_code=400, detail=f"Error processing audio data: {str(e)}")
     if file_size_mb > FILE_LIMIT_MB:
         logger.warning(f"Max file size exceeded: {file_size_mb:.2f}MB > {FILE_LIMIT_MB}MB")
     logger.debug("Calling tqdm_generate to transcribe audio")
     try:
+        task = request.task if request else "transcribe"
+        return_timestamps = request.return_timestamps if request else False
+        text, runtime, timing_info = tqdm_generate(inputs, task=task, return_timestamps=return_timestamps)
         logger.debug(f"Transcription completed. Runtime: {runtime:.2f}s")
     except Exception as e:
         logger.error(f"Error in tqdm_generate: {str(e)}", exc_info=True)