Spaces:

theodotus
/

buffered-asr-uk

Sleeping

App Files Files Community

theodotus commited on Sep 22, 2022

Commit

0992503

1 Parent(s): ba10ffc

Copied theodotus/streaming-asr-uk

Browse files

Files changed (4) hide show

packages.txt +2 -0
.gitignore +3 -0
app.py +102 -0
requirements.txt +1 -0

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ libsndfile1
2	+ ffmpeg

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+.env
+.vscode
+flagged

app.py ADDED Viewed

	@@ -0,0 +1,102 @@

+import gradio as gr
+import numpy as np
+import resampy
+import torch
+from math import floor,ceil
+import nemo.collections.asr as nemo_asr
+asr_model = nemo_asr.models.EncDecCTCModelBPE. \
+                    from_pretrained("NeonBohdan/stt_uk_citrinet_512_gamma_0_25",map_location="cpu")
+asr_model.preprocessor.featurizer.dither = 0.0
+asr_model.preprocessor.featurizer.pad_to = 0
+asr_model.eval()
+asr_model.encoder.freeze()
+asr_model.decoder.freeze()
+total_buffer = asr_model.cfg["sample_rate"] * 19 // 10
+overhead_len = total_buffer // 2
+model_stride = 4
+def resample(sr, audio_data):
+    audio_fp32 = np.divide(audio_data, np.iinfo(audio_data.dtype).max, dtype=np.float32)
+    audio_16k = resampy.resample(audio_fp32, sr, asr_model.cfg["sample_rate"])
+    return audio_16k
+def model(audio_16k):
+    logits, logits_len, greedy_predictions = asr_model.forward(
+        input_signal=torch.tensor([audio_16k]),
+        input_signal_length=torch.tensor([len(audio_16k)])
+    )
+    return logits
+def decode_predictions(logits_list):
+    # calc overhead
+    logits_overhead = logits_list[0].shape[1] * overhead_len / total_buffer / 2
+    if (logits_overhead * 2 != int(logits_overhead * 2)):
+        raise ValueError("Wrong total_buffer")
+    # cut overhead
+    cutted_logits = []
+    for idx in range(len(logits_list)):
+        start_cut = 0 if (idx==0) else floor(logits_overhead)
+        end_cut = 1 if (idx==len(logits_list)-1) else ceil(logits_overhead)
+        if (logits_overhead == int(logits_overhead)) and (end_cut != 1):
+            end_cut +=1
+        logits = logits_list[idx][:, start_cut:-end_cut]
+        cutted_logits.append(logits)
+    # join
+    logits = torch.cat(cutted_logits, axis=1)
+    logits_len = torch.tensor([logits.shape[1]])
+    current_hypotheses, all_hyp = asr_model.decoding.ctc_decoder_predictions_tensor(
+        logits, decoder_lengths=logits_len, return_hypotheses=False,
+    )
+    return current_hypotheses[0]
+def transcribe(audio, state):
+    if state is None:
+        state = [np.array([], dtype=np.float32), []]
+    sr, audio_data = audio
+    audio_16k = resample(sr, audio_data)
+    # join to audio sequence
+    state[0] = np.concatenate([state[0], audio_16k])
+    while (len(state[0]) > total_buffer):
+        buffer = state[0][:total_buffer]
+        state[0] = state[0][total_buffer - overhead_len:]
+        # run model
+        logits = model(buffer)
+        # add logits
+        state[1].append(logits)
+    if len(state[1]) == 0:
+        text = ""
+    else:
+        text = decode_predictions(state[1])
+    return text, state
+gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(source="microphone", type="numpy", streaming=True),
+        gr.State(None)
+    ],
+    outputs=[
+        "textbox",
+        "state"
+    ],
+    live=True).launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ nemo_toolkit[asr]