Spaces:

akadriu
/

shqip_whisper

Sleeping

akadriu commited on Aug 19, 2024

Commit

0d320bd

verified ·

1 Parent(s): bca79ec

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,12 @@
-from transformers import pipeline
 import gradio as gr
 import librosa
-import numpy as np
-import os
-from transformers import WhisperProcessor, WhisperForConditionalGeneration, pipeline
 hf_token = os.getenv("HUGGINGFACE_HUB_TOKEN")
 processor = WhisperProcessor.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
 model = WhisperForConditionalGeneration.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
@@ -15,15 +15,16 @@ def transcribe(audio):
     input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-    text = transcription
     return text
 iface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(source="microphone", type="filepath", label="Record your voice"),
     outputs="text",
     title="Whisper Medium Shqip",
     description="Realtime demo for Sq speech recognition using a fine-tuned Whisper medium model.",
 )
-iface.launch(share=True)

+import os
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import gradio as gr
 import librosa
+# Fetch the token from the environment
 hf_token = os.getenv("HUGGINGFACE_HUB_TOKEN")
+# Load the processor and model using the token for authentication
 processor = WhisperProcessor.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
 model = WhisperForConditionalGeneration.from_pretrained("akadriu/whisper-medium-sq", token=hf_token)
     input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    text = transcription[0]  # Decode returns a list
     return text
+# Updated interface without the 'source' argument
 iface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="filepath", label="Record your voice"),  # Removed 'source' argument
     outputs="text",
     title="Whisper Medium Shqip",
     description="Realtime demo for Sq speech recognition using a fine-tuned Whisper medium model.",
 )
+iface.launch(share=True)