Spaces:

tacab
/

soom_asr

Sleeping

nurfarah57 commited on May 21

Commit

12f9c3c

verified ·

1 Parent(s): ed877fd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,14 +3,16 @@ import torchaudio
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import gradio as gr
 model = Wav2Vec2ForCTC.from_pretrained("tacab/tacab_asr_somali")
 processor = Wav2Vec2Processor.from_pretrained("tacab/tacab_asr_somali")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
-def transcribe(audio):
-    waveform, sample_rate = torchaudio.load(audio)
     if sample_rate != 16000:
         waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     if waveform.shape[0] > 1:
@@ -23,12 +25,14 @@ def transcribe(audio):
     transcription = processor.batch_decode(predicted_ids)[0]
     return transcription.lower()
 iface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(type="filepath", label="🎙️ Ku hadal Af Soomaali"),
-    outputs=gr.Text(label="📄 Qoraalka la helay"),
-    title="Tacab ASR Somali",
-    description="ASR model for Somali speech-to-text using Wav2Vec2.",
 )
-iface.launch(server_name="0.0.0.0")  # 🔥 This is the key fix

 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import gradio as gr
+# Load model and processor
 model = Wav2Vec2ForCTC.from_pretrained("tacab/tacab_asr_somali")
 processor = Wav2Vec2Processor.from_pretrained("tacab/tacab_asr_somali")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
+# Transcription function
+def transcribe(audio_path):
+    waveform, sample_rate = torchaudio.load(audio_path)
     if sample_rate != 16000:
         waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     if waveform.shape[0] > 1:
     transcription = processor.batch_decode(predicted_ids)[0]
     return transcription.lower()
+# Setup Gradio Interface
 iface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="filepath", label="🎙️ Somali Audio"),
+    outputs=gr.Text(label="📄 Transcription"),
+    title="Tacab Somali ASR",
+    description="Speak Somali and get transcription back!",
 )
+# ✅ Critical: This exposes /api/predict
+iface.launch(server_name="0.0.0.0")