Spaces:

camanalo1
/

MyAlexa

Sleeping

camanalo1 commited on Apr 30, 2024

Commit

841bb81

1 Parent(s): 63033c7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,21 +1,24 @@
 import gradio as gr
-from nemo.collections.asr.models import ASRModel
-# Load the ASR model
-model = ASRModel.from_pretrained("nvidia/canary-1b")
-# Define a function to transcribe audio from the microphone
-def transcribe_audio(audio):
-    # Perform transcription
-    transcription = model.transcribe([audio])[0]
     return transcription
-# Interface with microphone input and text output
-inputs = gr.inputs.Microphone(label="Speak into the microphone")
-outputs = gr.outputs.Textbox(label="Transcription")
-title = "Speech-to-Text Transcription"
-description = "Transcribe speech from the microphone using the NeMo Canary ASR model."
-interface = gr.Interface(transcribe_audio, inputs, outputs, title=title, description=description)
-# Launch the interface
-interface.launch()

 import gradio as gr
+import torchaudio
+import torch
+import transformers
+transformer = transformers.Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
+processor = transformers.Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+def speech_to_text(audio):
+    # Convert audio to torch tensor
+    waveform, _ = torchaudio.load(audio.name)
+    input_values = processor(waveform, return_tensors="pt").input_values
+    # Perform inference
+    logits = transformer(input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)[0]
     return transcription
+audio_input = gr.inputs.Audio(source="microphone", type="file", label="Record your voice:")
+text_output = gr.outputs.Text(label="Transcription")
+gr.Interface(fn=speech_to_text, inputs=audio_input, outputs=text_output, title="Speech-to-Text").launch(inline=True)