Spaces:

WajeehAzeemX
/

TashkeelAPI

Sleeping

App Files Files Community

WajeehAzeemX commited on Oct 16, 2024

Commit

e942829

verified ·

1 Parent(s): 273575f

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -20

app.py CHANGED Viewed

@@ -3,49 +3,56 @@ from transformers import pipeline
 import io
 import librosa
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
-from faster_whisper import WhisperModel
-import multiprocessing
 app = FastAPI()
 # Device configuration
 # Load the model and processor
-import torch
 model_id = "WajeehAzeemX/whisper-smal-ar-testing-kale-5000"
 model = WhisperForConditionalGeneration.from_pretrained(
     model_id
 )
-processor = WhisperProcessor.from_pretrained(model_id)
 pipe = pipeline(
     "automatic-speech-recognition",
     model=model,
     tokenizer=processor.tokenizer,
-    feature_extractor=processor.feature_extractor
 )
 @app.post("/transcribe/")
 async def transcribe_audio(request: Request):
     try:
         # Read binary data from the request
         audio_data = await request.body()
         # Convert binary data to a file-like object
         audio_file = io.BytesIO(audio_data)
-        # # Load the audio file using pydub
         audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
-        # # Process the audio array
-        # input_features = processor(audio_array, sampling_rate=sampling_rate, return_tensors="pt").input_features
-        # # Generate token ids
-        # predicted_ids = model.generate(input_features)
-        # # Decode token ids to text
-        # transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-        transcription = pipe(audio_array)
         # Print the transcription
-        print(transcription)
         print(transcription[0])  # Display the transcriptiontry:
         return {"transcription": transcription[0]}
     except Exception as e:
-        raise HTTPException(status_code=500, detail=str(e))

 import io
 import librosa
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
 app = FastAPI()
 # Device configuration
 # Load the model and processor
 model_id = "WajeehAzeemX/whisper-smal-ar-testing-kale-5000"
 model = WhisperForConditionalGeneration.from_pretrained(
     model_id
 )
+import torch
+processor = WhisperProcessor.from_pretrained('WajeehAzeemX/whisper-smal-ar-testing-kale-5000')
+model.config.forced_decoder_ids = None
+forced_decoder_ids = processor.get_decoder_prompt_ids(language="Arabic", task="transcribe")
+model.generation_config.cache_implementation = "static"
+from transformers import GenerationConfig, WhisperForConditionalGeneration
+generation_config = GenerationConfig.from_pretrained("openai/whisper-small") # if you are using a multilingual model
+model.generation_config = generation_config
 pipe = pipeline(
     "automatic-speech-recognition",
     model=model,
     tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
 )
 @app.post("/transcribe/")
 async def transcribe_audio(request: Request):
     try:
         # Read binary data from the request
         audio_data = await request.body()
         # Convert binary data to a file-like object
         audio_file = io.BytesIO(audio_data)
+        # Load the audio file using pydub
         audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
+        # Process the audio array
+        input_features = processor(audio_array, sampling_rate=sampling_rate, return_tensors="pt").input_features
+        # Generate token ids
+        predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids, return_timestamps=True)
+        # Decode token ids to text
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
         # Print the transcription
         print(transcription[0])  # Display the transcriptiontry:
         return {"transcription": transcription[0]}
     except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))