Spaces:

DarwinAnim8or
/

Whisper-Demo

Sleeping

App Files Files Community

DarwinAnim8or commited on Aug 9, 2023

Commit

ce40abd

1 Parent(s): 8ac09b0

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -36

app.py CHANGED Viewed

@@ -1,44 +1,20 @@
 import gradio as gr
-from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, WhisperModel, WhisperProcessor
-# Load the model and tokenizer
-model_id = "openai/whisper-medium"
-model = WhisperModel.from_pretrained(model_id)
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-# Create a WhisperProcessor instance
-processor = WhisperProcessor(model=model, tokenizer=tokenizer)
-# Define a function that takes an audio input and returns a transcription
-def transcribe(audio):
-  # Use the processor to transcribe the audio
-  transcription = processor.transcribe(audio)
-  # Extract the confidence score and the duration from the transcription
-  confidence = transcription.confidence
-  duration = transcription.duration
-  # Remove the special tokens from the transcription text
-  text = transcription.text.replace("<|startoftranscript|>", "").replace("<|endoftranscript|>", "")
-  # Return the text, confidence and duration as outputs
-  return text, confidence, duration
-# Create a Gradio interface with two modes: realtime and file upload
 iface = gr.Interface(
-  fn=transcribe,
-  inputs=[
-    gr.inputs.Audio(source="microphone", type="numpy", label="Realtime Mode"),
-    gr.inputs.Audio(source="upload", type="numpy", label="File Upload Mode")
-  ],
-  outputs=[
-    gr.outputs.Textbox(label="Transcription"),
-    gr.outputs.Textbox(label="Confidence Score"),
-    gr.outputs.Textbox(label="Duration (seconds)")
-  ],
-  title="Whisper Transcription App",
-  description="A Gradio app that uses OpenAI's whisper model to transcribe audio"
 )
-# Launch the app
 iface.launch()

 import gradio as gr
+import whisper
+def transcribe_audio(audio_file):
+    model = whisper.load_model("base")
+    result = model.transcribe(audio_file)
+    return result["text"]
+audio_input = gr.inputs.Audio(source="upload", type="file")
+output_text = gr.outputs.Textbox()
 iface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=audio_input,
+    outputs=output_text,
+    title="Audio Transcription App",
+    description="Upload an audio file or record in real-time and hit the 'Submit' button"
 )
 iface.launch()