Spaces:

akadriu
/

shqip_whisper

Sleeping

App Files Files Community

akadriu commited on Aug 19, 2024

Commit

eda98d9

verified ·

1 Parent(s): 642de66

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -9

app.py CHANGED Viewed

@@ -1,30 +1,43 @@
-from transformers import pipeline
 import gradio as gr
 import librosa
 import numpy as np
-import os
-from transformers import WhisperProcessor, WhisperForConditionalGeneration, pipeline
 hf_token = os.getenv("HUGGINGFACE_HUB_TOKEN")
 processor = WhisperProcessor.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
 model = WhisperForConditionalGeneration.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
 def transcribe(audio):
-    audio_input, _ = librosa.load(audio, sr=16000)
     input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-    text = transcription
-    return text
 iface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(type="numpy"),
     outputs="text",
     title="Whisper Medium Shqip",
     description="Realtime demo for Sq speech recognition using a fine-tuned Whisper medium model.",
 )
-iface.launch(share=True)

+import os
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import gradio as gr
 import librosa
 import numpy as np
+# Fetch the token from the environment
 hf_token = os.getenv("HUGGINGFACE_HUB_TOKEN")
+# Load the processor and model using the token for authentication
 processor = WhisperProcessor.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
 model = WhisperForConditionalGeneration.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
 def transcribe(audio):
+    if isinstance(audio, tuple):
+        # Gradio provides audio as (sample_rate, data) when using the microphone
+        sr, audio_input = audio
+    else:
+        # Load the file if it's a filepath
+        audio_input, sr = librosa.load(audio, sr=16000)
+    # Resample if the sample rate is not 16000
+    if sr != 16000:
+        audio_input = librosa.resample(audio_input, orig_sr=sr, target_sr=16000)
+    # Process and transcribe the audio
     input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]  # Decode returns a list
+# Create the Gradio interface
 iface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(),
     outputs="text",
     title="Whisper Medium Shqip",
     description="Realtime demo for Sq speech recognition using a fine-tuned Whisper medium model.",
 )
+iface.launch(share=True)