Spaces:

WajeehAzeemX
/

TashkeelAPI

Sleeping

App Files Files Community

WajeehAzeemX commited on Sep 27, 2024

Commit

eae5b83

1 Parent(s): 327ec66

tiny model

Browse files

Files changed (2) hide show

app.py +19 -41
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -1,26 +1,21 @@
 from fastapi import FastAPI, Request, HTTPException
-import torch
-import torchaudio
-from transformers import AutoProcessor, pipeline
 import io
-from pydub import AudioSegment
-# from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
-import numpy as np
-import uvicorn
-import time
-app = FastAPI()
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
 # Device configuration
-device = "cuda" if torch.cuda.is_available() else "cpu"
-print(device)
 # Load the model and processor
-model_id = "whitefox123/whisper-small-ar2"
 model = WhisperForConditionalGeneration.from_pretrained(
     model_id
 )
-processor = WhisperProcessor.from_pretrained(model_id)
 pipe = pipeline(
@@ -40,38 +35,21 @@ async def transcribe_audio(request: Request):
         audio_file = io.BytesIO(audio_data)
         # Load the audio file using pydub
-        try:
-            audio_segment = AudioSegment.from_file(audio_file, format="wav")
-        except Exception as e:
-            raise HTTPException(status_code=400, detail=f"Error loading audio file: {str(e)}")
-        # Convert to mono if the audio is stereo (multi-channel)
-        if audio_segment.channels > 1:
-            audio_segment = audio_segment.set_channels(1)
-        # Resample the audio to 16kHz
-        target_sample_rate = 16000
-        if audio_segment.frame_rate != target_sample_rate:
-            audio_segment = audio_segment.set_frame_rate(target_sample_rate)
-        # Convert audio to numpy array
-        audio_array = np.array(audio_segment.get_array_of_samples())
-        if audio_segment.sample_width == 2:
-            audio_array = audio_array.astype(np.float32) / 32768.0
-        else:
-            raise HTTPException(status_code=400, detail="Unsupported sample width")
-        start_time = time.time()
-        # Convert to the format expected by the model
-        inputs = processor(audio_array, sampling_rate=target_sample_rate, return_tensors="pt")
-        inputs = inputs.to(device)
-        # Get the transcription result
-        result = pipe(audio_array)
-        # Calculate time taken
-        time_taken = time.time() - start_time
-        transcription = result["text"]
-        return {"transcription": transcription, "time_taken": time_taken}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))

 from fastapi import FastAPI, Request, HTTPException
+from transformers import pipeline
 import io
+import librosa
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
+app = FastAPI()
 # Device configuration
 # Load the model and processor
+model_id = "WajeehAzeemX/whisper-tiny-ar-tashkeel"
 model = WhisperForConditionalGeneration.from_pretrained(
     model_id
 )
+processor = WhisperProcessor.from_pretrained('openai/whisper-tiny')
+model.config.forced_decoder_ids = None
+forced_decoder_ids = processor.get_decoder_prompt_ids(language="arabic", task="transcribe")
 pipe = pipeline(
         audio_file = io.BytesIO(audio_data)
         # Load the audio file using pydub
+        audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
+        # Process the audio array
+        input_features = processor(audio_array, sampling_rate=sampling_rate, return_tensors="pt").input_features
+        # Generate token ids
+        predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
+        # Decode token ids to text
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+        # Print the transcription
+        print(transcription[0])  # Display the transcriptiontry:
+        return {"transcription": transcription[0]}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))

requirements.txt CHANGED Viewed

@@ -10,4 +10,5 @@ numpy
 onnx
 optimum
 onnxruntime
-faster_whisper

 onnx
 optimum
 onnxruntime
+faster_whisper
+librosa