Spaces:

EnDevSols
/

Arabic-ASR-Flask

Building

App Files Files Community

muzammil-eds commited on Sep 7, 2024

Commit

1bead67

1 Parent(s): bb0a58d

Files added

Browse files

Files changed (1) hide show

app.py +17 -26

app.py CHANGED Viewed

@@ -1,29 +1,23 @@
 import os
-# Append /usr/bin to PATH
-os.environ["PATH"] += os.pathsep + "/usr/bin"
 from flask import Flask, request, jsonify, render_template
-import librosa
-import torch
-import Levenshtein
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-from io import BytesIO
 from flask_cors import CORS
-from pydub import AudioSegment  # NEW
 AudioSegment.converter = "/usr/bin/ffmpeg"
 AudioSegment.ffprobe = "/usr/bin/ffprobe"
 os.environ['HF_HOME'] = '/tmp/.cache'
 app = Flask(__name__)
 CORS(app)
-MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
-processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
-model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
 def convert_to_wav(audio_bytes):
@@ -39,19 +33,16 @@ def convert_to_wav(audio_bytes):
         return None
-def transcribe_audio_hf(audio_bytes):
-    """Transcribes the audio using a pretrained Wav2Vec2 model."""
-    wav_io = convert_to_wav(audio_bytes)  # Convert to wav
     if wav_io is None:
         raise Exception("Could not convert audio to WAV format")
-    speech_array, sampling_rate = librosa.load(wav_io, sr=16000)
-    input_values = processor(speech_array, sampling_rate=sampling_rate, return_tensors="pt", padding=True).input_values
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0].strip()
-    return transcription
 def levenshtein_similarity(transcription1, transcription2):
@@ -74,8 +65,8 @@ def transcribe():
     user_audio_bytes = user_audio.read()
     try:
-        transcription_original = transcribe_audio_hf(original_audio_bytes)
-        transcription_user = transcribe_audio_hf(user_audio_bytes)
     except Exception as e:
         return jsonify({"error": str(e)}), 500

 import os
 from flask import Flask, request, jsonify, render_template
+from transformers import pipeline
 from flask_cors import CORS
+from pydub import AudioSegment
+from io import BytesIO
+import Levenshtein
+# Set the FFmpeg paths explicitly
 AudioSegment.converter = "/usr/bin/ffmpeg"
 AudioSegment.ffprobe = "/usr/bin/ffprobe"
+# Set Hugging Face cache directory to avoid permission issues
 os.environ['HF_HOME'] = '/tmp/.cache'
 app = Flask(__name__)
 CORS(app)
+# Use Hugging Face ASR pipeline for automatic speech recognition
+asr_pipeline = pipeline("automatic-speech-recognition", model="jonatasgrosman/wav2vec2-large-xlsr-53-arabic")
 def convert_to_wav(audio_bytes):
         return None
+def transcribe_audio(audio_bytes):
+    """Transcribes the audio using the Hugging Face ASR pipeline."""
+    wav_io = convert_to_wav(audio_bytes)
     if wav_io is None:
         raise Exception("Could not convert audio to WAV format")
+    # Read the audio file into bytes for the ASR pipeline
+    wav_io.seek(0)
+    transcription = asr_pipeline(wav_io)["text"]
+    return transcription.strip()
 def levenshtein_similarity(transcription1, transcription2):
     user_audio_bytes = user_audio.read()
     try:
+        transcription_original = transcribe_audio(original_audio_bytes)
+        transcription_user = transcribe_audio(user_audio_bytes)
     except Exception as e:
         return jsonify({"error": str(e)}), 500