Spaces:

kotoba-speech
/

kotoba-whisper-diarization-demo

Running on Zero

asahi417 commited on Oct 21, 2024

Commit

6abc055

verified ·

1 Parent(s): 94efc09

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from typing import Optional
 import spaces
 import torch
 import gradio as gr
 from transformers import pipeline
 from transformers.pipelines.audio_utils import ffmpeg_read
@@ -60,7 +61,10 @@ def transcribe(inputs: str):
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     with open(inputs, "rb") as f:
         inputs = f.read()
-    prediction = get_prediction({"array": ffmpeg_read(inputs, sampling_rate), "sampling_rate": sampling_rate})
     output = ""
     for n, s in enumerate(prediction["speakers"]):
         text_timestamped = "\n".join([f"- **{format_time(*c['timestamp'])}** {c['text']}" for c in prediction[f"chunks/{s}"]])

 import spaces
 import torch
 import gradio as gr
+import numpy as np
 from transformers import pipeline
 from transformers.pipelines.audio_utils import ffmpeg_read
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     with open(inputs, "rb") as f:
         inputs = f.read()
+    inputs = ffmpeg_read(inputs, sampling_rate)
+    array_pad = np.zeros(int(pipe.feature_extractor.sampling_rate * 0.5))
+    inputs = np.concatenate([array_pad, inputs, array_pad])
+    prediction = get_prediction({"array": inputs, "sampling_rate": sampling_rate})
     output = ""
     for n, s in enumerate(prediction["speakers"]):
         text_timestamped = "\n".join([f"- **{format_time(*c['timestamp'])}** {c['text']}" for c in prediction[f"chunks/{s}"]])