Spaces:

tacab
/

tacab_asr

Sleeping

zakihassan04 commited on May 20

Commit

9a3ce46

verified ·

1 Parent(s): 072c374

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,14 @@
-import streamlit as st
 import torchaudio
 import torch
-from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 # Load model and processor
-@st.cache_resource
-def load_model():
-    processor = Wav2Vec2Processor.from_pretrained("Mustafaa4a/ASR-Somali")
-    model = Wav2Vec2ForCTC.from_pretrained("Mustafaa4a/ASR-Somali")
-    return processor, model
-processor, model = load_model()
-st.title("Somali Speech-to-Text App")
-st.write("Upload a Somali audio file (WAV, mono, 16kHz) and get the transcription.")
-uploaded_file = st.file_uploader("Choose a .wav audio file", type="wav")
-if uploaded_file is not None:
-    waveform, sample_rate = torchaudio.load(uploaded_file)
     if sample_rate != 16000:
         resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
@@ -30,6 +20,15 @@ if uploaded_file is not None:
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])
-    st.subheader("Qoraalka laga helay codka:")
-    st.success(transcription)

+import gradio as gr
 import torchaudio
 import torch
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 # Load model and processor
+processor = Wav2Vec2Processor.from_pretrained("Mustafaa4a/ASR-Somali")
+model = Wav2Vec2ForCTC.from_pretrained("Mustafaa4a/ASR-Somali")
+def transcribe(audio):
+    waveform, sample_rate = torchaudio.load(audio)
     if sample_rate != 16000:
         resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])
+    return transcription
+# Gradio Interface
+interface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(source="upload", type="filepath", label="Upload Somali Audio (.wav)"),
+    outputs=gr.Textbox(label="Transcription"),
+    title="Somali ASR using Mustafaa4a/ASR-Somali",
+    description="Upload a Somali speech audio file (mono WAV, 16kHz) and get the text transcription."
+)
+interface.launch()