Spaces:

camanalo1
/

MyAlexa

Sleeping

camanalo1 commited on Apr 30, 2024

Commit

13268f4

1 Parent(s): e2721c4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,23 @@
 import gradio as gr
-import torchaudio
 import torch
-import transformers
-transformer = transformers.Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
-processor = transformers.Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
-def speech_to_text(audio):
-    # Convert audio to torch tensor
-    waveform, _ = torchaudio.load(audio.name)
-    input_values = processor(waveform, return_tensors="pt").input_values
-    # Perform inference
-    logits = transformer(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0]
-    return transcription
-audio_input = gr.inputs.Audio(source="microphone", type="file", label="Record your voice:")
-text_output = gr.outputs.Text(label="Transcription")
-gr.Interface(fn=speech_to_text, inputs=audio_input, outputs=text_output, title="Speech-to-Text").launch(inline=True)

 import gradio as gr
 import torch
+from transformers import pipeline
+# Load the NeMo Canary ASR model pipeline from Hugging Face
+asr_pipeline = pipeline("speech-recognition", model="nvidia/canary-1b")
+# Define a Gradio interface to listen to microphone input and display the transcribed text
+def transcribe_audio():
+    # Listen to microphone input
+    audio_input = gr.audio_input()
+    # Transcribe speech
+    transcription = asr_pipeline(audio_input)
+    return transcription[0]["transcription"]
+# Define Gradio interface
+gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.inputs.Microphone(label="Speak into the microphone"),
+    outputs="text",
+    title="Speech-to-Text with NeMo Canary Model",
+    description="Speak into the microphone and see the text transcription.",
+).launch()