Spaces:

theodotus
/

streaming-asr-uk

Sleeping

theodotus commited on Sep 20, 2022

Commit

2f05f3a

1 Parent(s): a20f918

Added global decoding

Files changed (1) hide show

app.py CHANGED Viewed

@@ -39,8 +39,11 @@ def model(audio_16k):
     logits_overhead = logits.shape[1] * overhead_len // total_buffer
     extra = 1 if (logits.shape[1] * overhead_len % total_buffer) else 0
     logits = logits[:,logits_overhead:-logits_overhead-extra]
-    logits_len -= 2 * logits_overhead + extra
     current_hypotheses, all_hyp = asr_model.decoding.ctc_decoder_predictions_tensor(
         logits, decoder_lengths=logits_len, return_hypotheses=False,
     )
@@ -50,7 +53,7 @@ def model(audio_16k):
 def transcribe(audio, state):
     if state is None:
-        state = [np.array([], dtype=np.float32), ""]
     sr, audio_data = audio
     audio_16k = resample(sr, audio_data)
@@ -64,13 +67,15 @@ def transcribe(audio, state):
         buffer = state[0][:buffer_len]
         state[0] = state[0][buffer_len - overhead_len:]
         # run model
-        text = model(buffer)
-    else:
-        text = ""
-    if (len(text) != 0):
-        state[1] += text + " "
-    return state[1], state
 gr.Interface(

     logits_overhead = logits.shape[1] * overhead_len // total_buffer
     extra = 1 if (logits.shape[1] * overhead_len % total_buffer) else 0
     logits = logits[:,logits_overhead:-logits_overhead-extra]
+    return logits
+def decode_predictions(logits):
+    logits_len = torch.tensor([logits.shape[1]])
     current_hypotheses, all_hyp = asr_model.decoding.ctc_decoder_predictions_tensor(
         logits, decoder_lengths=logits_len, return_hypotheses=False,
     )
 def transcribe(audio, state):
     if state is None:
+        state = [np.array([], dtype=np.float32), None]
     sr, audio_data = audio
     audio_16k = resample(sr, audio_data)
         buffer = state[0][:buffer_len]
         state[0] = state[0][buffer_len - overhead_len:]
         # run model
+        logits = model(buffer)
+        # add logits
+        if state[1] is None:
+            state[1] = logits
+        else:
+            state[1] = torch.cat([state[1],logits], axis=1)
+    text = decode_predictions(state[1])
+    return text, state
 gr.Interface(