Spaces:

seeafrica
/

kiazibora

Sleeping

App Files Files Community

seeafrica commited on Nov 29, 2024

Commit

8598440

verified ·

1 Parent(s): d389419

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -6

app.py CHANGED Viewed

@@ -1,29 +1,53 @@
 import os
 import gradio as gr
 from gtts import gTTS
-from transformers import pipeline
 from openai import OpenAI
 client = OpenAI()
 pipe = pipeline(
     "automatic-speech-recognition",
-    model="seeafricatz/kiaziboraasr",
     chunk_length_s=30,
-    return_timestamps=False
 )
 def transcribe(audio):
     try:
         if audio is None:
             return "No audio input received"
         # Get the audio file path from the tuple if it exists
         audio_path = audio if isinstance(audio, str) else audio[0]
         if not os.path.exists(audio_path):
             return "Audio file not found"
-        result = pipe(audio_path)
-        return result["text"]
     except Exception as e:
         print(f"Transcription error: {str(e)}")
         return "Error in transcription. Please try again."
@@ -92,7 +116,7 @@ def process_audio_and_respond(audio):
 demo = gr.Interface(
     fn=process_audio_and_respond,
     inputs=gr.Audio(
-        sources="microphone",
         type="filepath",
         label="Bonyeza kitufe cha kurekodi na uliza swali lako"
     ),

 import os
 import gradio as gr
 from gtts import gTTS
+from transformers import pipeline, AutoProcessor, WhisperForConditionalGeneration
 from openai import OpenAI
 client = OpenAI()
+# Initialize the processor and model separately for better control
+processor = AutoProcessor.from_pretrained("seeafricatz/kiaziboraasr")
+model = WhisperForConditionalGeneration.from_pretrained("seeafricatz/kiaziboraasr")
 pipe = pipeline(
     "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
     chunk_length_s=30,
+    return_timestamps=False,
+    generate_kwargs={"language": "<|swahili|>", "task": "transcribe"}
 )
 def transcribe(audio):
     try:
         if audio is None:
             return "No audio input received"
         # Get the audio file path from the tuple if it exists
         audio_path = audio if isinstance(audio, str) else audio[0]
         if not os.path.exists(audio_path):
             return "Audio file not found"
+        result = pipe(
+            audio_path,
+            return_timestamps=False,
+            generate_kwargs={
+                "language": "<|swahili|>",
+                "task": "transcribe",
+                "num_beams": 5,
+                "temperature": 0
+            }
+        )
+        if isinstance(result, dict) and "text" in result:
+            return result["text"]
+        elif isinstance(result, str):
+            return result
+        else:
+            return "Error in transcription format"
     except Exception as e:
         print(f"Transcription error: {str(e)}")
         return "Error in transcription. Please try again."
 demo = gr.Interface(
     fn=process_audio_and_respond,
     inputs=gr.Audio(
+        sources=["microphone"],
         type="filepath",
         label="Bonyeza kitufe cha kurekodi na uliza swali lako"
     ),