asr-inference

Running on Zero

ssolito commited on Feb 7

Commit

40501c8

verified ·

1 Parent(s): 5669eef

Update whisper.py

Files changed (1) hide show

whisper.py CHANGED Viewed

@@ -204,8 +204,8 @@ def processing_vad_threshold(audio, output_vad, threshold, max_duration, concate
 def format_audio(audio_path):
     input_audio, sample_rate = torchaudio.load(audio_path)
-    if input_audio.shape[0] == 2:  #stereo2mono
-        input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
@@ -220,12 +220,12 @@ def transcribe_pipeline(audio, task):
 def generate(audio_path, use_v5):
     audio = AudioSegment.from_wav(audio_path)
-    temp_mono_path = None
-    if audio.channels != 1: #stereo2mono
-        audio = audio.set_channels(1)
-        temp_mono_path = "temp_mono.wav"
-        audio.export(temp_mono_path, format="wav")
-        audio_path = temp_mono_path
     output_vad = pipeline_vad(audio_path)
     concatenated_segment = AudioSegment.empty()
@@ -239,7 +239,7 @@ def generate(audio_path, use_v5):
     clean_output = post_process_transcription(output)
-    if temp_mono_path and os.path.exists(temp_mono_path):
-        os.remove(temp_mono_path)
     return clean_output

 def format_audio(audio_path):
     input_audio, sample_rate = torchaudio.load(audio_path)
+    #if input_audio.shape[0] == 2:  #stereo2mono
+    #    input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
 def generate(audio_path, use_v5):
     audio = AudioSegment.from_wav(audio_path)
+    #temp_mono_path = None
+    #if audio.channels != 1: #stereo2mono
+    #    audio = audio.set_channels(1)
+    #    temp_mono_path = "temp_mono.wav"
+    #    audio.export(temp_mono_path, format="wav")
+    #    audio_path = temp_mono_path
     output_vad = pipeline_vad(audio_path)
     concatenated_segment = AudioSegment.empty()
     clean_output = post_process_transcription(output)
+    #if temp_mono_path and os.path.exists(temp_mono_path):
+    #    os.remove(temp_mono_path)
     return clean_output