Spaces:

maher13
/

arabic-asr

Runtime error

App Files Files Community

maher13 commited on Jan 7, 2022

Commit

97433fd

1 Parent(s): e377670

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -27

app.py CHANGED Viewed

@@ -1,21 +1,22 @@
-import gradio as gr
-import librosa
 import torch
-import torchaudio
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-import numpy as np
 processor = Wav2Vec2Processor.from_pretrained("maher13/arabic-iti")
 model = Wav2Vec2ForCTC.from_pretrained("maher13/arabic-iti").eval()
-def asr_transcript(audio_file, audio_file2):
-    transcript = ""
-    if audio_file :
-      wav, sr = librosa.load(audio_file.name, sr=16000)
-      input_values = processor(wav, sampling_rate=16000, return_tensors="pt", padding=True).input_values
-      logits = model(input_values).logits
       with torch.no_grad():
         predicted_ids = torch.argmax(logits, dim=-1)
@@ -23,11 +24,9 @@ def asr_transcript(audio_file, audio_file2):
       transcription1 = processor.tokenizer.batch_decode(predicted_ids)[0]
     else:
       transcription1 = "N/A"
-    if audio_file2 :
-      wav, sr = librosa.load(audio_file2.name, sr=16000)
-      input_values = processor(wav, sampling_rate=16000, return_tensors="pt", padding=True).input_values
       logits = model(input_values).logits
       with torch.no_grad():
@@ -36,9 +35,11 @@ def asr_transcript(audio_file, audio_file2):
       transcription2 = processor.tokenizer.batch_decode(predicted_ids)[0]
     else :
       transcription2 = "N/A"
-    return transcription1, transcription2
 gradio_ui = gr.Interface(
     fn=asr_transcript,
     title="Speech to Text Graduation project \n sponsored by TensorGraph",
@@ -52,9 +53,4 @@ gradio_ui = gr.Interface(
              gr.outputs.Textbox(label="Auto-Transcript")
              ],
 )
-#gradio_ui.launch(share=True)
-gradio_ui.launch(share=True)

+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import soundfile as sf
 import torch
+import gradio as gr
+# load model and processor
 processor = Wav2Vec2Processor.from_pretrained("maher13/arabic-iti")
 model = Wav2Vec2ForCTC.from_pretrained("maher13/arabic-iti").eval()
+# define function to read in sound file
+def map_to_array(file):
+   speech, _ = sf.read(file)
+   return speech
+# tokenize
+def inference(audio_file, audio_file2):
+   if audio_file:
+     input_values = processor(map_to_array(audio_file.name), return_tensors="pt", padding="longest").input_values  # Batch size 1
+     logits = model(input_values).logits
       with torch.no_grad():
         predicted_ids = torch.argmax(logits, dim=-1)
       transcription1 = processor.tokenizer.batch_decode(predicted_ids)[0]
     else:
       transcription1 = "N/A"
+    if audio_file2:
+      input_values = processor(map_to_array(audio_file2.name), return_tensors="pt", padding="longest").input_values  # Batch size 1
       logits = model(input_values).logits
       with torch.no_grad():
       transcription2 = processor.tokenizer.batch_decode(predicted_ids)[0]
     else :
       transcription2 = "N/A"
+     return transcription1, transcription2
 gradio_ui = gr.Interface(
     fn=asr_transcript,
     title="Speech to Text Graduation project \n sponsored by TensorGraph",
              gr.outputs.Textbox(label="Auto-Transcript")
              ],
 )
+gradio_ui.launch(share=True)