Spaces:

aware-ai
/

german-asr

Runtime error

App Files Files Community

flozi00 commited on Jun 3, 2022

Commit

5f6cbd7

1 Parent(s): c906256

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -8

app.py CHANGED Viewed

@@ -8,9 +8,9 @@ import librosa
 import time
-lmID = "aware-ai/german-lowercase-wiki-4gram"
 decoder = BeamSearchDecoderCTC.load_from_hf_hub(lmID)
-p = pipeline("automatic-speech-recognition", model="aware-ai/robust-wav2vec2-xls-r-300m-german-lowercase", decoder=decoder)
 ttp = pipeline("text2text-generation", model="aware-ai/marian-german-grammar")
 vadmodel, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
@@ -36,24 +36,28 @@ def translate(src, tgt, text):
     return result
 def transcribe(audio):
     sampling_rate = 16000
     start_time = time.time()
     audio, sr = librosa.load(audio, sr=sampling_rate)
-    print("--- %s seconds audio loading ---" % (time.time() - start_time))
     start_time = time.time()
     speech_timestamps = get_speech_timestamps(audio, vadmodel, sampling_rate=sampling_rate)
-    print("--- %s seconds audio timestamps---" % (time.time() - start_time))
     start_time = time.time()
     chunks = [audio[i["start"]:i["end"]] for i in speech_timestamps]
-    print("--- %s seconds audio chunking---" % (time.time() - start_time))
     start_time = time.time()
     transcribed = " ".join([text["text"] for text in p(chunks, chunk_length_s=20, stride_length_s=(0, 0))])
-    print("--- %s seconds audio transcription ---" % (time.time() - start_time))
     start_time = time.time()
     punctuated = ttp(transcribed, max_length = 512)[0]["generated_text"]
-    print("--- %s seconds audio formatting ---" % (time.time() - start_time))
-    return transcribed, punctuated
 def get_asr_interface():
     return gr.Interface(
@@ -62,6 +66,7 @@ def get_asr_interface():
             gr.inputs.Audio(source="microphone", type="filepath")
         ],
         outputs=[
             "textbox",
             "textbox"
         ])

 import time
+lmID = "aware-ai/german-lowercase-4gram-kenlm"
 decoder = BeamSearchDecoderCTC.load_from_hf_hub(lmID)
+p = pipeline("automatic-speech-recognition", model="aware-ai/robust-wav2vec2-base-german-lowercase", decoder=decoder)
 ttp = pipeline("text2text-generation", model="aware-ai/marian-german-grammar")
 vadmodel, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
     return result
 def transcribe(audio):
+    log = ""
     sampling_rate = 16000
     start_time = time.time()
     audio, sr = librosa.load(audio, sr=sampling_rate)
+    log += "--- %s seconds audio loading ---" + str(time.time() - start_time)
     start_time = time.time()
     speech_timestamps = get_speech_timestamps(audio, vadmodel, sampling_rate=sampling_rate)
+    log += "\n--- %s seconds audio timestamps---" + str(time.time() - start_time)
     start_time = time.time()
     chunks = [audio[i["start"]:i["end"]] for i in speech_timestamps]
+    log += "\n--- %s seconds audio chunking---" + str(time.time() - start_time)
     start_time = time.time()
     transcribed = " ".join([text["text"] for text in p(chunks, chunk_length_s=20, stride_length_s=(0, 0))])
+    log += "\n--- %s seconds audio transcription ---" + str(time.time() - start_time)
     start_time = time.time()
     punctuated = ttp(transcribed, max_length = 512)[0]["generated_text"]
+    log += "\n--- %s seconds audio formatting ---" + str(time.time() - start_time)
+    start_time = time.time()
+    p(audio, chunk_length_s=20, stride_length_s=(0, 0))
+    log += "\n--- %s seconds full asr ---" + str(time.time() - start_time)
+    return transcribed, punctuated, log
 def get_asr_interface():
     return gr.Interface(
             gr.inputs.Audio(source="microphone", type="filepath")
         ],
         outputs=[
+            "textbox",
             "textbox",
             "textbox"
         ])