whisper

Sleeping

KIFF commited on Jun 28, 2024

Commit

674036d

verified ·

1 Parent(s): 74520b5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,8 @@ import torch
 import gradio as gr
 from transformers import pipeline
 import numpy as np
-import librosa
 MODEL_NAME = "openai/whisper-large-v3"
 BATCH_SIZE = 8
@@ -20,26 +21,36 @@ def transcribe(audio_file, task):
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
-    # Load audio file
     try:
-        # Use librosa to load the audio file
-        audio, sr = librosa.load(audio_file, sr=16000)  # Whisper expects 16kHz sampling rate
-    except Exception as e:
-        raise gr.Error(f"Error loading audio file: {str(e)}")
-    # Convert to format expected by Whisper
-    inputs = {"array": audio, "sampling_rate": sr}
-    result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
-    output = ""
-    for chunk in result["chunks"]:
-        start_time = chunk["timestamp"][0]
-        end_time = chunk["timestamp"][1]
-        text = chunk["text"]
-        output += f"[{format_timestamp(start_time)} -> {format_timestamp(end_time)}] {text}\n"
-    return output
 def format_timestamp(seconds):
     minutes, seconds = divmod(seconds, 60)

 import gradio as gr
 from transformers import pipeline
 import numpy as np
+from pydub import AudioSegment
+import io
 MODEL_NAME = "openai/whisper-large-v3"
 BATCH_SIZE = 8
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
     try:
+        # Read the audio file
+        audio = AudioSegment.from_file(audio_file)
+        # Convert to mono if stereo
+        if audio.channels > 1:
+            audio = audio.set_channels(1)
+        # Convert to 16kHz sample rate
+        audio = audio.set_frame_rate(16000)
+        # Convert to numpy array
+        samples = np.array(audio.get_array_of_samples()).astype(np.float32) / 32768.0
+        # Convert to the format expected by Whisper
+        inputs = {"array": samples, "sampling_rate": 16000}
+        result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
+        output = ""
+        for chunk in result["chunks"]:
+            start_time = chunk["timestamp"][0]
+            end_time = chunk["timestamp"][1]
+            text = chunk["text"]
+            output += f"[{format_timestamp(start_time)} -> {format_timestamp(end_time)}] {text}\n"
+        return output
+    except Exception as e:
+        raise gr.Error(f"Error processing audio file: {str(e)}")
 def format_timestamp(seconds):
     minutes, seconds = divmod(seconds, 60)