Spaces:

imansarraf
/

Persian_ASR

Sleeping

imansarraf commited on Dec 17, 2024

Commit

467cc5c

verified ·

1 Parent(s): 8dfefc8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,10 +11,10 @@ css = """
 seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
-recognizer = SpeechRecognizer(language="fa", rate=16000,api_key=GOOGLE_SPEECH_API_KEY, proxies=None)
 def process_segment(args):
- segment, wav = args
  start, stop = segment
  # pp = converter((start, stop))
  pp = pcm_to_flac(wav[int(start*16000) : int(stop*16000)])
@@ -28,7 +28,8 @@ def pcm_to_flac(pcm_data, sample_rate=16000):
  return flac_data
-def transcribe_audio(audio_file):
     text=""
     isig,wav =  seg(audio_file)
     isig = filter_output(isig , max_silence=0.5 ,ignore_small_speech_segments=0.1 , max_speech_len=15 ,split_speech_bigger_than=20)
@@ -36,7 +37,7 @@ def transcribe_audio(audio_file):
     print(isig)
     results=[]
     for segment in isig:
-         results.append (process_segment((segment, wav)))
     for start, stop, tr_beamsearch_lm in results:
           try:
@@ -53,7 +54,10 @@ def transcribe_audio(audio_file):
 # Define the Gradio interface
 interface = gr.Interface(
     fn=transcribe_audio,
-    inputs=gr.Audio(type="filepath"),  # Removed 'source="microphone"'
     outputs=gr.Textbox(label="Transcription", elem_id="output-text",interactive=True),
     title="Persian Audio Transcription",
     description="Upload an audio file or record audio to get the transcription.",

 seg = Segmenter(ffmpeg_path="ffmpeg",model_path="keras_speech_music_noise_cnn.hdf5" , device="cpu",vad_type="vad")
 def process_segment(args):
+ segment, wav,recognizer = args
  start, stop = segment
  # pp = converter((start, stop))
  pp = pcm_to_flac(wav[int(start*16000) : int(stop*16000)])
  return flac_data
+def transcribe_audio(audio_file,lan):
+    recognizer = SpeechRecognizer(language=lan, rate=16000,api_key=GOOGLE_SPEECH_API_KEY, proxies=None)
     text=""
     isig,wav =  seg(audio_file)
     isig = filter_output(isig , max_silence=0.5 ,ignore_small_speech_segments=0.1 , max_speech_len=15 ,split_speech_bigger_than=20)
     print(isig)
     results=[]
     for segment in isig:
+         results.append (process_segment((segment, wav,recognizer)))
     for start, stop, tr_beamsearch_lm in results:
           try:
 # Define the Gradio interface
 interface = gr.Interface(
     fn=transcribe_audio,
+    inputs=[
+        gr.Audio(type="filepath"),
+        gr.Radio(choices=["fa", "en", "ar"], label="Language")
+    ],
     outputs=gr.Textbox(label="Transcription", elem_id="output-text",interactive=True),
     title="Persian Audio Transcription",
     description="Upload an audio file or record audio to get the transcription.",