asr-inference

Running on Zero

ssolito commited on Dec 4, 2024

Commit

621a46f

verified ·

1 Parent(s): 551bdb6

Update whisper.py

Files changed (1) hide show

whisper.py CHANGED Viewed

@@ -210,8 +210,8 @@ def processing_vad_threshold(audio, output_vad, threshold, max_duration, concate
     return(transcription_audio)
-def format_audio(audio):
-    input_audio, sample_rate = torchaudio.load(audio)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
     input_audio = input_audio.squeeze().numpy()
@@ -232,7 +232,7 @@ def generate(audio_path, use_v5):
         output = processing_vad_threshold(audio, output_vad, threshold, max_duration, concatenated_segment)
     else:
         task = "transcribe"
-        output = transcribe_pipeline(format_audio(audio), task)
     clean_output = post_process_transcription(output, max_repeats=1)

     return(transcription_audio)
+def format_audio(audio_path):
+    input_audio, sample_rate = torchaudio.load(audio_path)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
     input_audio = input_audio.squeeze().numpy()
         output = processing_vad_threshold(audio, output_vad, threshold, max_duration, concatenated_segment)
     else:
         task = "transcribe"
+        output = transcribe_pipeline(format_audio(audio_path), task)
     clean_output = post_process_transcription(output, max_repeats=1)