whisper

Sleeping

KIFF commited on Jun 28, 2024

Commit

6bb833b

verified ·

1 Parent(s): 5a76806

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,8 @@
 import torch
 import gradio as gr
 from transformers import pipeline
-# Add version control
-import pkg_resources
-gradio_version = pkg_resources.get_distribution("gradio").version
-print(f"Gradio version: {gradio_version}")
 MODEL_NAME = "openai/whisper-large-v3"
 BATCH_SIZE = 8
@@ -23,7 +20,17 @@ def transcribe(audio_file, task):
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
-    result = pipe(audio_file, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
     output = ""
     for chunk in result["chunks"]:
@@ -48,7 +55,7 @@ demo = gr.Interface(
     fn=transcribe,
     inputs=[audio_input, task_input],
     outputs=output,
-    title=f"Whisper Large V3: Transcribe Audio with Timestamps (Gradio v{gradio_version})",
     description=(
         f"Transcribe audio files with Whisper Large V3 [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}). "
         "Upload an audio file and choose whether to transcribe or translate. "
@@ -57,4 +64,4 @@ demo = gr.Interface(
 )
 if __name__ == "__main__":
-    demo.launch()

 import torch
 import gradio as gr
 from transformers import pipeline
+import numpy as np
+import librosa
 MODEL_NAME = "openai/whisper-large-v3"
 BATCH_SIZE = 8
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
+    # Load audio file
+    try:
+        # Use librosa to load the audio file
+        audio, sr = librosa.load(audio_file, sr=16000)  # Whisper expects 16kHz sampling rate
+    except Exception as e:
+        raise gr.Error(f"Error loading audio file: {str(e)}")
+    # Convert to format expected by Whisper
+    inputs = {"array": audio, "sampling_rate": sr}
+    result = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
     output = ""
     for chunk in result["chunks"]:
     fn=transcribe,
     inputs=[audio_input, task_input],
     outputs=output,
+    title=f"Whisper Large V3: Transcribe Audio with Timestamps",
     description=(
         f"Transcribe audio files with Whisper Large V3 [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}). "
         "Upload an audio file and choose whether to transcribe or translate. "
 )
 if __name__ == "__main__":
+    demo.launch()