Spaces:

demavior
/

whisper_gradio

Sleeping

demavior commited on Oct 1, 2024

Commit

d66d2e5

verified ·

1 Parent(s): 4639258

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import pipeline
 import torch
 import numpy as np
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
@@ -13,6 +14,10 @@ def transcribe(audio):
     if not isinstance(audio_data, np.ndarray):
         audio_data = np.array(audio_data)
     # Reshape the audio data to match the expected input format (1, num_samples)
     if audio_data.ndim == 1:
         audio_data = np.expand_dims(audio_data, axis=0)

 import gradio as gr
 from transformers import pipeline
 import torch
+import torchaudio
 import numpy as np
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
     if not isinstance(audio_data, np.ndarray):
         audio_data = np.array(audio_data)
+    # Convert to mono if the audio is stereo
+    if audio_data.ndim > 1 and audio_data.shape[0] > 1:
+        audio_data = np.mean(audio_data, axis=0)
     # Reshape the audio data to match the expected input format (1, num_samples)
     if audio_data.ndim == 1:
         audio_data = np.expand_dims(audio_data, axis=0)