Spaces:

WajeehAzeemX
/

TashkeelAPI

Sleeping

App Files Files Community

WajeehAzeemX commited on Sep 22, 2024

Commit

2debb03

1 Parent(s): 57a0bba

update

Browse files

Files changed (3) hide show

Dockerfile +13 -0
app.py +74 -0
requirements.txt +10 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,13 @@

+FROM python:3.10
+RUN useradd -m -u 1000 user
+USER user
+ENV PATH="/home/user/.local/bin:$PATH"
+WORKDIR /app
+COPY --chown=user ./requirements.txt requirements.txt
+RUN pip install --no-cache-dir --upgrade -r requirements.txt
+COPY --chown=user . /app
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,74 @@

+from fastapi import FastAPI, Request, HTTPException
+import torch
+import torchaudio
+from transformers import AutoProcessor, pipeline
+import io
+from pydub import AudioSegment
+from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
+import numpy as np
+import uvicorn
+app = FastAPI()
+# Device configuration
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(device)
+torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+# Load the model and processor
+model_id = "WajeehAzeemX/whisper-small-ar2_onnx"
+model = ORTModelForSpeechSeq2Seq.from_pretrained(
+    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
+)
+processor = AutoProcessor.from_pretrained(model_id)
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    torch_dtype=torch_dtype,
+)
+@app.post("/transcribe/")
+async def transcribe_audio(request: Request):
+    try:
+        # Read binary data from the request
+        audio_data = await request.body()
+        # Convert binary data to a file-like object
+        audio_file = io.BytesIO(audio_data)
+        # Load the audio file using pydub
+        try:
+            audio_segment = AudioSegment.from_file(audio_file, format="wav")
+        except Exception as e:
+            raise HTTPException(status_code=400, detail=f"Error loading audio file: {str(e)}")
+        # Convert to mono if the audio is stereo (multi-channel)
+        if audio_segment.channels > 1:
+            audio_segment = audio_segment.set_channels(1)
+        # Resample the audio to 16kHz
+        target_sample_rate = 16000
+        if audio_segment.frame_rate != target_sample_rate:
+            audio_segment = audio_segment.set_frame_rate(target_sample_rate)
+        # Convert audio to numpy array
+        audio_array = np.array(audio_segment.get_array_of_samples())
+        if audio_segment.sample_width == 2:
+            audio_array = audio_array.astype(np.float32) / 32768.0
+        else:
+            raise HTTPException(status_code=400, detail="Unsupported sample width")
+        # Convert to the format expected by the model
+        inputs = processor(audio_array, sampling_rate=target_sample_rate, return_tensors="pt")
+        inputs = inputs.to(device)
+        # Get the transcription result
+        result = pipe(audio_array)
+        transcription = result["text"]
+        return {"transcription": transcription}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+fastapi
+uvicorn
+torch
+torchaudio
+transformers
+datasets[audio]
+accelerate
+pydub
+numpy
+onnx