Spaces:

camanalo1
/

MyAlexa

Sleeping

App Files Files Community

camanalo1 commited on Apr 30, 2024

Commit

c9adb84

1 Parent(s): 97fde10

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -35

app.py CHANGED Viewed

@@ -1,42 +1,24 @@
 import gradio as gr
-import torch
-from transformers import pipeline
-from nemo.collections.asr.models import EncDecMultiTaskModel  # Add this import statement
-# Load Canary ASR model
 canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
-decode_cfg = canary_model.cfg.decoding
-decode_cfg.beam.beam_size = 1
-canary_model.change_decoding_strategy(decode_cfg)
-# Load Phi-3 Mini-4K-Instruct LLM model
-phi_3_model_id = "microsoft/Phi-3-mini-4k-instruct"
-phi_3_pipeline = pipeline("text-generation", model=phi_3_model_id, trust_remote_code=True)
-# Load VITS TTS model
-vits_tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
-vits_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
 def transcribe_audio(audio):
-    transcribed_text = canary_model.transcribe(audio, batch_size=16)
-    return transcribed_text
-def generate_response(prompt):
-    response = phi_3_pipeline(prompt, max_length=50, num_return_sequences=1)[0]['generated_text']
-    return response
-def synthesize_speech(text):
-    inputs = vits_tokenizer(text=text, return_tensors="pt")
-    with torch.no_grad():
-        outputs = vits_model(**inputs)
-    waveform = outputs.waveform[0]
-    return waveform
-# Define Gradio interface
-gr.Interface(
-    fn=[transcribe_audio, generate_response, synthesize_speech],
-    inputs=["audio", "text", "text"],
-    outputs=[gr.outputs.Textbox(label="Transcribed Text"),
-             gr.outputs.Textbox(label="Generated Response"),
-             gr.outputs.Audio(label="Synthesized Speech")]
-).launch()

 import gradio as gr
+from nemo.collections.asr.models import EncDecMultiTaskModel
+# Load the model
 canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
+# Define ASR function
 def transcribe_audio(audio):
+    # Perform transcription
+    predicted_text = canary_model.transcribe(
+        paths2audio_files=[audio.name],
+        batch_size=16  # Batch size for inference
+    )
+    return predicted_text[0]
+# Interface
+inputs = gr.inputs.Audio(source="microphone", label="Speak into the microphone", type="microphone")
+outputs = gr.outputs.Textbox(label="Transcription")
+title = "Canary ASR"
+description = "Transcribe speech from the microphone using the NeMo Canary ASR model."
+interface = gr.Interface(transcribe_audio, inputs, outputs, title=title, description=description)
+# Launch interface
+interface.launch()