dtp-asr-demo-v2

Runtime error

App Files Files Community

anderbogia commited on Jun 28, 2023

Commit

9cff099

1 Parent(s): 0cea3a7

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -36

app.py CHANGED Viewed

@@ -1,18 +1,6 @@
-# -*- coding: utf-8 -*-
-"""ASR MMS gradio space demo.ipynb
-Automatically generated by Colaboratory.
-Original file is located at
-    https://colab.research.google.com/drive/1TJE7dxiuXeb0nGmkc0AgFLFOnQx35ZXo
-"""
-#!pip install transformers
-#!pip install gradio
 import os
 os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
-os.system("pip install torch accelerate torchaudio datasets")
-os.system("pip install librosa")
 #NumPy 1.24 or less needed by Numba
 os.system("pip install numpy==1.24.0")
@@ -21,6 +9,8 @@ import gradio as gr
 from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor
 from datasets import load_dataset, Audio, Dataset
 import torch
 model_id = "facebook/mms-1b-all"
@@ -32,8 +22,6 @@ model.load_adapter("dtp")
 asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
-import librosa #For converting audio sample rate to 16k
 def preprocess(input): #Sets recording sampling rate to 16k and returns numpy ndarray from audio
   speech, sample_rate = librosa.load(input)
   speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
@@ -56,25 +44,58 @@ def run(input):
     transcription = processor.decode(ids)
     return transcription
-with gr.Blocks(theme = gr.themes.Soft()) as app:
-    gr.Markdown(
-    """
-      # Ponutun tuturan Boros Kadazandusun | Kadazandusun speech recognition
-      ### Winonsoi di Ander © 2023 id Universiti Teknologi PETRONAS | Built by Ander © 2023 at Universiti Teknologi PETRONAS.
-      **Somit tutun tuturan** do boros Kadazandusun ii ginuno nopo nga mantad totoodo *Massive Multilingual Speech* di Meta.
-      Kadazandusun **automatic speech recognition model** used is from Meta's Massive Multilingual Speech project.
-    """)
-    fn = transcribe
-    audiofile = gr.Audio(source = "microphone", type = "filepath", label = "Dusunai oku | Say something to me in Kadazandusun")
-    transcription_show = gr.components.Textbox(label = "Dalinsuat | Transcription")
-    allow_flagging = "never"
-    button1 = gr.Button("Dalinsuato' | Transcribe")
-    button1.click(fn, inputs = audiofile, outputs = transcription_show)
-if __name__ == "__main__":
-  app.launch()

 import os
 os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
+os.system("pip install torch accelerate torchaudio datasets librosa easymms")
 #NumPy 1.24 or less needed by Numba
 os.system("pip install numpy==1.24.0")
 from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor
 from datasets import load_dataset, Audio, Dataset
 import torch
+import librosa #For converting audio sample rate to 16k
+from easymms.models.tts import TTSModel #For TTS inference using EasyMMS
 model_id = "facebook/mms-1b-all"
 asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
 def preprocess(input): #Sets recording sampling rate to 16k and returns numpy ndarray from audio
   speech, sample_rate = librosa.load(input)
   speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
     transcription = processor.decode(ids)
     return transcription
+with gr.Blocks(theme = gr.themes.Soft()) as demo:
+    gr.HTML(
+        """
+<h1 align="center">Ponutun Tuturan om Pomorolou Sinuat Boros Dusun</h1>
+<h5 align="center">  Poomitanan kopogunaan do somit tutun tuturan om pomorolou sinuat (speech recognition and text-to-speech models)
+  pinoluda' di Woyotanud Tuturan Gumukabang Tagayo di Meta (Meta Massive Multilingual Speech Project)</h5>
+<h6 align = "center">Guguno (app) diti winonsoi di Ander © 2023 id Universiti Teknologi PETRONAS</h6>
+<style>
+    .container {
+      display: grid;
+      grid-template-columns:20% 5% 20%;
+      align-items: center;
+    }
+</style>
+<h6 align = "center">
+<div class = "container">
+    <div class = "image"> <a href='https://github.com/andergisomon/dtp-nlp-demo'><img src='https://img.shields.io/badge/Github-Code-success'></a> </div>
+    <div class = "image"></div>
+    <div class = "image"> <a href='https://huggingface.co/spaces/anderbogia/dtp-asr-demo-v2/'><img src='https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue'></a> </div>
+</div></h6>
+        """)
+    tts = TTSModel('dtp')
+    def fn2(input):
+        res = tts.synthesize(input)
+        flip_tuple = (res[1], res[0]) #EasyMMS synthesize() returns Tuple(data, sample_rate) where data is a numpy.array and sample_rate is int,
+                                      #but Gradio Audio() expects the same tuple but with the elements flipped
+        return flip_tuple
+    with gr.Row():
+      with gr.Column(scale = 1):
+          gr.HTML("""<h1 align="center"><img src="https://andergisomon.github.io/dtp-nlp-demo/huminodun_dall_e.png", alt="Video-LLaMA" border="0" style="margin: 0 auto; height: 200px;" /></a></h1>""")
+          gr.Markdown("""
+          **Huminodun, nulai di somit pongulai kikito DALL-E**
+          *Huminodun, generated by the image generation model DALL-E*
+          """)
+      with gr.Column(scale = 4):
+          with gr.Tab("Rolou kumaa ginarit"):
+              #input = gr.components.Textbox(placeholder = "Potutakai suat nu hiti | Type something here")
+              input = gr.components.Audio(source = "microphone", label = "Gakamai rolou nu")
+              output = gr.components.Textbox(label = "Dalinsuat")
+              button1 = gr.Button("Dalinsuato' | Transcribe")
+              button1.click(run, inputs = input, outputs = output)
+          with gr.Tab("Ginarit kumaa rolou"):
+              input = gr.components.Textbox(label = "Ginarit", placeholder = "Potutakai suat nu hiti")
+              button2 = gr.Button("Poulayo'")
+              output_speech = gr.components.Audio(label = "Rolou pinoulai")
+              button2.click(fn2, inputs = input, outputs = output_speech)
+demo.launch(debug = True)