Spaces:

DarwinAnim8or
/

Whisper-Demo

Sleeping

App Files Files Community

DarwinAnim8or commited on Aug 9, 2023

Commit

3528c71

1 Parent(s): ce40abd

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -12

app.py CHANGED Viewed

@@ -1,20 +1,43 @@
 import gradio as gr
-import whisper
-def transcribe_audio(audio_file):
-    model = whisper.load_model("base")
-    result = model.transcribe(audio_file)
-    return result["text"]
-audio_input = gr.inputs.Audio(source="upload", type="file")
-output_text = gr.outputs.Textbox()
 iface = gr.Interface(
-    fn=transcribe_audio,
-    inputs=audio_input,
-    outputs=output_text,
-    title="Audio Transcription App",
-    description="Upload an audio file or record in real-time and hit the 'Submit' button"
 )
 iface.launch()

 import gradio as gr
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, WhisperForConditionalGeneration, WhisperProcessor
+# Load the model and processor
+model_id = "openai/whisper-medium"
+processor = WhisperProcessor(model_id)
+model = WhisperModel.from_pretrained(model_id)
+model.config.forced_decoder_ids = None
+# Define a function that takes an audio input and returns a transcription
+def transcribe(audio):
+  # Use the processor to transcribe the audio
+  transcription = processor.transcribe(audio)
+  # Extract the confidence score and the duration from the transcription
+  confidence = transcription.confidence
+  duration = transcription.duration
+  # Remove the special tokens from the transcription text
+  text = transcription.text.replace("<|startoftranscript|>", "").replace("<|endoftranscript|>", "")
+  # Return the text, confidence and duration as outputs
+  return text, confidence, duration
+# Create a Gradio interface with two modes: realtime and file upload
 iface = gr.Interface(
+  fn=transcribe,
+  inputs=[
+    gr.inputs.Audio(source="microphone", type="numpy", label="Realtime Mode"),
+    gr.inputs.Audio(source="upload", type="numpy", label="File Upload Mode")
+  ],
+  outputs=[
+    gr.outputs.Textbox(label="Transcription"),
+    gr.outputs.Textbox(label="Confidence Score"),
+    gr.outputs.Textbox(label="Duration (seconds)")
+  ],
+  title="Whisper Transcription App",
+  description="A Gradio app that uses OpenAI's whisper model to transcribe audio"
 )
+# Launch the app
 iface.launch()