Whisper_speaker_diarization_for_colab_test

Runtime error

App Files Files Community

TrialAccountHF commited on Dec 17, 2023

Commit

da83059

1 Parent(s): 7ed745d

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -2

app.py CHANGED Viewed

@@ -319,10 +319,11 @@ def speech_to_text(video_file_path, selected_source_lang, whisper_model, num_spe
         *Processing time: {time_diff:.5} seconds.*
         *GPU Utilization: {gpu_utilization}%, GPU Memory: {gpu_memory}MiB.*
         """
         filename, _ = os.path.splitext(video_file_path)
         filename = filename.replace(" ", "_")
         filename = filename.replace("(", "_").replace(")", "_")
-        output_filename = f"{filename}_{selected_whisper_model}.csv"
         save_path = os.path.join("output", output_filename)
         df_results = pd.DataFrame(objects)
         df_results.to_csv(save_path)
@@ -339,7 +340,7 @@ youtube_url_in = gr.Textbox(label="Youtube url", lines=1, interactive=True)
 df_init = pd.DataFrame(columns=['Start', 'End', 'Speaker', 'Text'])
 memory = psutil.virtual_memory()
 selected_source_lang = gr.Dropdown(choices=source_language_list, type="value", value="en", label="Spoken language in video", interactive=True)
-selected_whisper_model = gr.Dropdown(choices=whisper_models, type="value", value="base", label="Selected Whisper model", interactive=True)
 number_speakers = gr.Number(precision=0, value=0, label="Input number of speakers for better results. If value=0, model will automatic find the best number of speakers", interactive=True)
 system_info = gr.Markdown(f"*Memory: {memory.total / (1024 * 1024 * 1024):.2f}GB, used: {memory.percent}%, available: {memory.available / (1024 * 1024 * 1024):.2f}GB*")
 download_transcript = gr.File(label="Download transcript")

         *Processing time: {time_diff:.5} seconds.*
         *GPU Utilization: {gpu_utilization}%, GPU Memory: {gpu_memory}MiB.*
         """
+        selected_whisper_model_name = selected_whisper_model.value
         filename, _ = os.path.splitext(video_file_path)
         filename = filename.replace(" ", "_")
         filename = filename.replace("(", "_").replace(")", "_")
+        output_filename = f"{filename}_{selected_whisper_model_name}.csv"
         save_path = os.path.join("output", output_filename)
         df_results = pd.DataFrame(objects)
         df_results.to_csv(save_path)
 df_init = pd.DataFrame(columns=['Start', 'End', 'Speaker', 'Text'])
 memory = psutil.virtual_memory()
 selected_source_lang = gr.Dropdown(choices=source_language_list, type="value", value="en", label="Spoken language in video", interactive=True)
+selected_whisper_model = gr.Dropdown(choices=whisper_models, type="value", value="large-v2", label="Selected Whisper model", interactive=True)
 number_speakers = gr.Number(precision=0, value=0, label="Input number of speakers for better results. If value=0, model will automatic find the best number of speakers", interactive=True)
 system_info = gr.Markdown(f"*Memory: {memory.total / (1024 * 1024 * 1024):.2f}GB, used: {memory.percent}%, available: {memory.available / (1024 * 1024 * 1024):.2f}GB*")
 download_transcript = gr.File(label="Download transcript")