asr-inference

Running on Zero

ssolito commited on Feb 7

Commit

5669eef

verified ·

1 Parent(s): ab6d2b5

Update whisper.py

Files changed (1) hide show

whisper.py CHANGED Viewed

@@ -203,18 +203,30 @@ def processing_vad_threshold(audio, output_vad, threshold, max_duration, concate
 def format_audio(audio_path):
     input_audio, sample_rate = torchaudio.load(audio_path)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
     input_audio = input_audio.squeeze().numpy()
     return(input_audio)
 def transcribe_pipeline(audio, task):
     text = pipe(audio, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]
     return text
 def generate(audio_path, use_v5):
     audio = AudioSegment.from_wav(audio_path)
     output_vad = pipeline_vad(audio_path)
     concatenated_segment = AudioSegment.empty()
     max_duration = 0
@@ -226,5 +238,8 @@ def generate(audio_path, use_v5):
         output = transcribe_pipeline(format_audio(audio_path), task)
     clean_output = post_process_transcription(output)
     return clean_output

 def format_audio(audio_path):
     input_audio, sample_rate = torchaudio.load(audio_path)
+    if input_audio.shape[0] == 2:  #stereo2mono
+        input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
     input_audio = input_audio.squeeze().numpy()
     return(input_audio)
 def transcribe_pipeline(audio, task):
     text = pipe(audio, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]
     return text
 def generate(audio_path, use_v5):
     audio = AudioSegment.from_wav(audio_path)
+    temp_mono_path = None
+    if audio.channels != 1: #stereo2mono
+        audio = audio.set_channels(1)
+        temp_mono_path = "temp_mono.wav"
+        audio.export(temp_mono_path, format="wav")
+        audio_path = temp_mono_path
     output_vad = pipeline_vad(audio_path)
     concatenated_segment = AudioSegment.empty()
     max_duration = 0
         output = transcribe_pipeline(format_audio(audio_path), task)
     clean_output = post_process_transcription(output)
+    if temp_mono_path and os.path.exists(temp_mono_path):
+        os.remove(temp_mono_path)
     return clean_output