Spaces:

ras0k
/

WhisperX-v2

Runtime error

ras0k commited on Apr 11, 2023

Commit

9d171cc

1 Parent(s): e9e7628

v2

Files changed (2) hide show

__pycache__/app.cpython-310.pyc ADDED Viewed

Binary file (808 Bytes). View file

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import whisperx
 import whisper
 def transcribe(audio_file):
-    device = "cuda"
     # Transcribe with original Whisper
     model = whisper.load_model("large", device)
@@ -15,14 +15,9 @@ def transcribe(audio_file):
     # Align Whisper output
     result_aligned = whisperx.align(result["segments"], model_a, metadata, audio_file, device)
-    return result_aligned["segments"], result_aligned["word_segments"]
-# Define Gradio interface
-inputs = gr.inputs.Audio(source="upload", type="file")
-outputs = [
-    gr.outputs.Textbox(label="Segments (before alignment)"),
-    gr.outputs.Textbox(label="Segments (after alignment)"),
-]
-iface = gr.Interface(fn=transcribe, inputs=inputs, outputs=outputs, title="WhisperX Transcription")
-iface.launch()

 import whisper
 def transcribe(audio_file):
+    device = "cuda" if torch.cuda.is_available() else "cpu"
     # Transcribe with original Whisper
     model = whisper.load_model("large", device)
     # Align Whisper output
     result_aligned = whisperx.align(result["segments"], model_a, metadata, audio_file, device)
+    return {"aligned": result_aligned["segments"], "word_segments": result_aligned["word_segments"]}
+inputs = gr.inputs.Audio(source="upload", type="filepath")
+outputs = gr.outputs.JSON(type="auto")
+gr.Interface(fn=transcribe, inputs=inputs, outputs=outputs).launch()