Spaces:

WajeehAzeemX
/

TashkeelAPI

Sleeping

App Files Files Community

WajeehAzeemX commited on Oct 18, 2024

Commit

1006f74

verified ·

1 Parent(s): 64e4b92

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -9

app.py CHANGED Viewed

@@ -1,11 +1,33 @@
-import torch
-from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
-from datasets import load_dataset
 from fastapi import FastAPI, Request, HTTPException
-import librosa
 import io
-whisper = pipeline("automatic-speech-recognition", "WajeehAzeemX/openai-whispersmall-finetuned-2000", torch_dtype=torch.float16, device="cpu")
 app = FastAPI()
 @app.post("/transcribe/")
 async def transcribe_audio(request: Request):
@@ -19,13 +41,18 @@ async def transcribe_audio(request: Request):
         # Load the audio file using pydub
         audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
-        # Decode token ids to text
-        transcription = whisper(audio_array)
         # Print the transcription
-        print(transcription['text'])  # Display the transcriptiontry:
-        return {"transcription": transcription['text']}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))

 from fastapi import FastAPI, Request, HTTPException
+from transformers import pipeline
 import io
+import librosa
+from transformers import WhisperForConditionalGeneration, WhisperProcessor
 app = FastAPI()
+# Device configuration
+# Load the model and processor
+model_id = "WajeehAzeemX/openai-whispersmall-finetuned-2000"
+model = WhisperForConditionalGeneration.from_pretrained(
+    model_id
+)
+import torch
+processor = WhisperProcessor.from_pretrained('WajeehAzeemX/openai-whispersmall-finetuned-2000')
+model.config.forced_decoder_ids = None
+forced_decoder_ids = processor.get_decoder_prompt_ids(language="Arabic", task="transcribe")
+model.generation_config.cache_implementation = "static"
+from transformers import GenerationConfig, WhisperForConditionalGeneration
+generation_config = GenerationConfig.from_pretrained("openai/whisper-small") # if you are using a multilingual model
+model.generation_config = generation_config
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+)
 @app.post("/transcribe/")
 async def transcribe_audio(request: Request):
         # Load the audio file using pydub
         audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
+        # Process the audio array
+        input_features = processor(audio_array, sampling_rate=sampling_rate, return_tensors="pt").input_features
+        # Generate token ids
+        predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids, return_timestamps=True)
+        # Decode token ids to text
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
         # Print the transcription
+        print(transcription[0])  # Display the transcriptiontry:
+        return {"transcription": transcription[0]}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))