Spaces:

aware-ai
/

german-asr

Runtime error

flozi00 commited on Jun 3, 2022

Commit

922cd73

1 Parent(s): 606f61c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,12 +3,21 @@ import gradio as gr
 import re
 import torch
 from pyctcdecode import BeamSearchDecoderCTC
 lmID = "aware-ai/german-lowercase-wiki-4gram"
 decoder = BeamSearchDecoderCTC.load_from_hf_hub(lmID)
 p = pipeline("automatic-speech-recognition", model="aware-ai/robust-wav2vec2-xls-r-300m-german-lowercase", decoder=decoder)
 ttp = pipeline("text2text-generation", model="aware-ai/marian-german-grammar")
 #model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
 #tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
@@ -25,7 +34,11 @@ def translate(src, tgt, text):
     return result
 def transcribe(audio):
-    transcribed = p(audio, chunk_length_s=20, stride_length_s=(6, 0))["text"]
     punctuated = ttp(transcribed, max_length = 512)[0]["generated_text"]

 import re
 import torch
 from pyctcdecode import BeamSearchDecoderCTC
+import torch
 lmID = "aware-ai/german-lowercase-wiki-4gram"
 decoder = BeamSearchDecoderCTC.load_from_hf_hub(lmID)
 p = pipeline("automatic-speech-recognition", model="aware-ai/robust-wav2vec2-xls-r-300m-german-lowercase", decoder=decoder)
 ttp = pipeline("text2text-generation", model="aware-ai/marian-german-grammar")
+vadmodel, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+                              model='silero_vad',
+                              force_reload=False)
+(get_speech_timestamps,
+ _, read_audio,
+ *_) = utils
 #model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
 #tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
     return result
 def transcribe(audio):
+    sampling_rate = 16000
+    audio, sr = librosa.load(audio, sr=sampling_rate)
+    speech_timestamps = get_speech_timestamps(audio, model, sampling_rate=sampling_rate)
+    chunks = [audio[i["start"]:i["end"]] for i in speech_timestamps]
+    transcribed = " ".join([text["text"] for text in p(chunks, chunk_length_s=20, stride_length_s=(0, 0))])
     punctuated = ttp(transcribed, max_length = 512)[0]["generated_text"]