Spaces:

Finnish-NLP
/

Finnish-Automatic-Speech-Recognition

App Files Files Community

RasmusToivanen commited on May 8, 2022

Commit

da95d3d

•

1 Parent(s): 11243ea

add files

Files changed (4) hide show

app.py +55 -0
model_t5/config.json +30 -0
model_t5/pytorch_model.bin +3 -0
requirements.txt +6 -0

app.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import gradio as gr
+import librosa
+import soundfile as sf
+import torch
+import warnings
+from transformers import Wav2Vec2ProcessorWithLM, Wav2Vec2CTCTokenizer
+warnings.filterwarnings("ignore")
+#load wav2vec2 tokenizer and model
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import time
+from fastapi import FastAPI, HTTPException, File
+model_name = "Finnish-NLP/wav2vec2-xlsr-300m-finnish-lm"
+from transformers import pipeline
+#feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
+#tokenizer = AutoTokenizer.from_pretrained(model_name)
+#model = Wav2Vec2ForCTC.from_pretrained(model_name)
+pipe = pipeline(model="Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2",chunk_length_s=20, stride_length_s=(4, 2))
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model_checkpoint = 'Finnish-NLP/t5x-small-nl24-finnish'
+tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_auth_token=True)
+model = AutoModelForSeq2SeqLM.from_pretrained('model_t5', from_flax=False, torch_dtype=torch.float32).to(device)
+# define speech-to-text function
+def asr_transcript(audio):
+    text = ""
+    if audio:
+        text = pipe(audio.name)
+        input_ids = tokenizer(text['text'], return_tensors="pt").input_ids.to(device)
+        outputs = model.generate(input_ids, max_length=128)
+        case_corrected_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return {"text_asr": text['text'], "text_case_corrected": case_corrected_text}
+    else:
+        return  "File not valid"
+gradio_ui = gr.Interface(
+    fn=asr_transcript,
+    title="Speech-to-Text with HuggingFace+Wav2Vec2",
+    description="Upload an audio clip, and let AI do the hard work of transcribing",
+    inputs=gr.inputs.Audio(label="Upload Audio File", type="file"),
+    outputs=gr.outputs.Textbox(label="Auto-Transcript"),
+)
+gradio_ui.launch()

model_t5/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "Finnish-NLP/t5x-small-nl24-finnish",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 8,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.18.0",
+  "use_cache": true,
+  "vocab_size": 32128
+}

model_t5/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a02eed59634d268ae6f6f080deb53ca08ba17e6936ec08e4e41148e4a2757d2
+size 1038007269

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+librosa==0.9.1
+soundfile==0.10.3.post1
+torch==1.11.0
+transformers==4.18.0
+sentencepiece
+protobuf