Spaces:

paulbauriegel
/

simple_whisper

Sleeping

App Files Files Community

paulbauriegel commited on May 15, 2023

Commit

3c78a64

1 Parent(s): bcd9622

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -11

app.py CHANGED Viewed

@@ -6,8 +6,8 @@ import psutil
 import time
 import whisperx
-#model = WhisperModel('large-v2', device="cuda", compute_type="float16")
-model = whisper.load_model('large-v2')
 def speech_to_text(mic=None, file=None, lang=None, task='transcribe'):
     if mic is not None:
@@ -19,13 +19,13 @@ def speech_to_text(mic=None, file=None, lang=None, task='transcribe'):
     print(lang, task)
     time_start = time.time()
-    #segments, info = model.transcribe(audio, task=task, language=lang, beam_size=5)
-    results = model.transcribe(audio, task=task, language=lang, beam_size=5)
     #print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
     #  Decode audio to Text
-    #objects = [s._asdict() for s in segments]
-    objects = results["segments"]
     print(objects)
     time_end = time.time()
     time_diff = time_end - time_start
@@ -67,17 +67,16 @@ with gr.Blocks(title='Whisper Demo', theme=theme) as demo:
     ''')
     audio_in = gr.Audio(label="Record", source='microphone', type="filepath")
     file_in = gr.Audio(label="Upload", source='upload', type="filepath")
-    drop_down = gr.Dropdown(["de", "en", "es", "fr", "ru", None], value=None)
     transcribe_btn = gr.Button("Transcribe audio", variant="primary")
-    translate_btn = gr.Button("Translate audio")
     trans_df = gr.DataFrame(label="Transcription dataframe", row_count=(0, "dynamic"), max_rows = 10, wrap=True, overflow_row_behaviour='paginate')
     sys_info = gr.Markdown("")
-    transcribe_btn.click(lambda x, y: speech_to_text(x, y, None, 'transcribe'),
                                  [audio_in, file_in],
                                  [trans_df, sys_info]
                                 )
-    translate_btn.click(lambda x, y, z: speech_to_text(x, y, z, 'translate'),
-                            [audio_in, file_in, drop_down],
                             [trans_df, sys_info])
 demo.launch()

 import time
 import whisperx
+model = WhisperModel('large-v2', device="cuda", compute_type="float16")
+#model = whisper.load_model('large-v2')
 def speech_to_text(mic=None, file=None, lang=None, task='transcribe'):
     if mic is not None:
     print(lang, task)
     time_start = time.time()
+    segments, info = model.transcribe(audio, task=task, language=lang, beam_size=5)
+    #results = model.transcribe(audio, task=task, language=lang, beam_size=5)
     #print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
     #  Decode audio to Text
+    objects = [s._asdict() for s in segments]
+    #objects = results["segments"]
     print(objects)
     time_end = time.time()
     time_diff = time_end - time_start
     ''')
     audio_in = gr.Audio(label="Record", source='microphone', type="filepath")
     file_in = gr.Audio(label="Upload", source='upload', type="filepath")
     transcribe_btn = gr.Button("Transcribe audio", variant="primary")
+    translate_btn = gr.Button("Translate to English")
     trans_df = gr.DataFrame(label="Transcription dataframe", row_count=(0, "dynamic"), max_rows = 10, wrap=True, overflow_row_behaviour='paginate')
     sys_info = gr.Markdown("")
+    transcribe_btn.click(lambda x, y: speech_to_text(x, y, task='transcribe'),
                                  [audio_in, file_in],
                                  [trans_df, sys_info]
                                 )
+    translate_btn.click(lambda x, y, z: speech_to_text(x, y, task='translate'),
+                            [audio_in, file_in],
                             [trans_df, sys_info])
 demo.launch()