whisper

Sleeping

KIFF commited on Jun 28, 2024

Commit

3fb3e5a

verified ·

1 Parent(s): 9b015dc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,20 +18,35 @@ def transcribe(audio_file, task):
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
-    text = pipe(audio_file, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]
-    return text
 demo = gr.Interface(
     fn=transcribe,
     inputs=[
-        gr.Audio(source="upload", type="filepath", label="Audio file"),
         gr.Radio(["transcribe", "translate"], label="Task", default="transcribe"),
     ],
-    outputs="text",
-    title="Whisper Large V3: Transcribe Audio",
     description=(
         f"Transcribe audio files with Whisper Large V3 [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}). "
-        "Upload an audio file and choose whether to transcribe or translate."
     ),
 )

     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload an audio file before submitting your request.")
+    result = pipe(audio_file, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)
+    # Format the output with timestamps
+    output = ""
+    for chunk in result["chunks"]:
+        start_time = chunk["timestamp"][0]
+        end_time = chunk["timestamp"][1]
+        text = chunk["text"]
+        output += f"[{format_timestamp(start_time)} -> {format_timestamp(end_time)}] {text}\n"
+    return output
+def format_timestamp(seconds):
+    minutes, seconds = divmod(seconds, 60)
+    hours, minutes = divmod(minutes, 60)
+    return f"{int(hours):02d}:{int(minutes):02d}:{seconds:.2f}"
 demo = gr.Interface(
     fn=transcribe,
     inputs=[
+        gr.File(label="Audio file", file_types=["audio"]),
         gr.Radio(["transcribe", "translate"], label="Task", default="transcribe"),
     ],
+    outputs=gr.Textbox(label="Transcription with Timestamps"),
+    title="Whisper Large V3: Transcribe Audio with Timestamps",
     description=(
         f"Transcribe audio files with Whisper Large V3 [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}). "
+        "Upload an audio file and choose whether to transcribe or translate. "
+        "The output includes timestamps for each transcribed segment."
     ),
 )