tih-asr-demo

Runtime error

App Files Files Community

anderbogia commited on Jun 28, 2023

Commit

0cea3a7

0 Parent(s):

Duplicate from anderbogia/dtp-asr-demo

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +14 -0
app.py +80 -0
favicon.png +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Dusun speech recognition
+emoji: 🌾
+colorFrom: yellow
+colorTo: yellow
+sdk: gradio
+sdk_version: 3.35.2
+app_file: app.py
+pinned: false
+license: gpl-3.0
+duplicated_from: anderbogia/dtp-asr-demo
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,80 @@

+# -*- coding: utf-8 -*-
+"""ASR MMS gradio space demo.ipynb
+Automatically generated by Colaboratory.
+Original file is located at
+    https://colab.research.google.com/drive/1TJE7dxiuXeb0nGmkc0AgFLFOnQx35ZXo
+"""
+#!pip install transformers
+#!pip install gradio
+import os
+os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
+os.system("pip install torch accelerate torchaudio datasets")
+os.system("pip install librosa")
+#NumPy 1.24 or less needed by Numba
+os.system("pip install numpy==1.24.0")
+import gradio as gr
+from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor
+from datasets import load_dataset, Audio, Dataset
+import torch
+model_id = "facebook/mms-1b-all"
+#Set target language to dtp (Kadazandusun)
+processor = AutoProcessor.from_pretrained(model_id)
+model = Wav2Vec2ForCTC.from_pretrained(model_id).to("cpu")
+processor.tokenizer.set_target_lang("dtp") #Change dtp to tih for Timugon Murut or iba for Iban
+model.load_adapter("dtp")
+asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
+import librosa #For converting audio sample rate to 16k
+def preprocess(input): #Sets recording sampling rate to 16k and returns numpy ndarray from audio
+  speech, sample_rate = librosa.load(input)
+  speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
+  loaded_audio = Dataset.from_dict({"audio": [input]}).cast_column("audio", Audio(sampling_rate=16000))
+  audio_to_array = loaded_audio[0]["audio"]["array"]
+  return audio_to_array
+def transcribe(input): #Gradio UI wrapper function
+    audioarray = preprocess(input) #Call preprocessor function
+    out = run(audioarray)
+    return out
+    #transcription = asr_pipeline(audioarray)
+    #return transcription["text"]
+def run(input):
+    inputs = processor(input, sampling_rate=16_000, return_tensors="pt")#.to("cuda")
+    with torch.no_grad():
+        outputs = model(**inputs).logits
+    ids = torch.argmax(outputs, dim=-1)[0]
+    transcription = processor.decode(ids)
+    return transcription
+with gr.Blocks(theme = gr.themes.Soft()) as app:
+    gr.Markdown(
+    """
+      # Ponutun tuturan Boros Kadazandusun | Kadazandusun speech recognition
+      ### Winonsoi di Ander © 2023 id Universiti Teknologi PETRONAS | Built by Ander © 2023 at Universiti Teknologi PETRONAS.
+      **Somit tutun tuturan** do boros Kadazandusun ii ginuno nopo nga mantad totoodo *Massive Multilingual Speech* di Meta.
+      Kadazandusun **automatic speech recognition model** used is from Meta's Massive Multilingual Speech project.
+    """)
+    fn = transcribe
+    audiofile = gr.Audio(source = "microphone", type = "filepath", label = "Dusunai oku | Say something to me in Kadazandusun")
+    transcription_show = gr.components.Textbox(label = "Dalinsuat | Transcription")
+    allow_flagging = "never"
+    button1 = gr.Button("Dalinsuato' | Transcribe")
+    button1.click(fn, inputs = audiofile, outputs = transcription_show)
+if __name__ == "__main__":
+  app.launch()

favicon.png ADDED Viewed