ASR_for_Luxembourgish_w2v

Runtime error

App Files Files Community

pgilles

pgilles commited on Dec 21, 2022

Commit

d7d1406

0 Parent(s):

Duplicate from unilux/ASR_for_Luxembourgish

Browse files

Co-authored-by: Peter Gilles <[email protected]>

Files changed (15) hide show

.gitattributes +39 -0
Chamber2022_1.wav +3 -0
Chamber2022_2.wav +3 -0
Chamber2022_3.wav +3 -0
Chamber2022_4.wav +3 -0
ChamberMeisch.wav +3 -0
Chamber_Fayot_2005.wav +3 -0
Erlieft-a-Verzielt.wav +3 -0
README.md +14 -0
Schnessen-Beispill2.wav +0 -0
Schnessen-Beispill3.wav +0 -0
Schnessen-Beispill4.wav +3 -0
Schnessen_Beispill.wav +0 -0
app.py +50 -0
requirements.txt +8 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,39 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+Chamber_Fayot_2005.wav filter=lfs diff=lfs merge=lfs -text
+ChamberMeisch.wav filter=lfs diff=lfs merge=lfs -text
+Erlieft-a-Verzielt.wav filter=lfs diff=lfs merge=lfs -text
+Schnessen-Beispill4.wav filter=lfs diff=lfs merge=lfs -text
+Chamber2022_1.wav filter=lfs diff=lfs merge=lfs -text
+Chamber2022_2.wav filter=lfs diff=lfs merge=lfs -text
+Chamber2022_3.wav filter=lfs diff=lfs merge=lfs -text
+Chamber2022_4.wav filter=lfs diff=lfs merge=lfs -text

Chamber2022_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ef24b1b469aab2a81486161c67da49cce3b27edf7c7a021361fe513694e110d
+size 4139966

Chamber2022_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65ab924ee6bd62da5bb12645506242ba7bb77f3f0ddfea4d036c923e8418ba26
+size 4117268

Chamber2022_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4054c9422eda1743045ab42e51bcab42cdbf992ca2e9b72351fdbaea1f0c9a45
+size 3685558

Chamber2022_4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8363e3f92dac07c777e6900ee619e2f6bcfa2eca172d8e2607a7a3ddf2bfaf09
+size 2337106

ChamberMeisch.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a846e1ca78cf0c1230102905a510faba5b85124dc49eb46f6f10fc2096d5141
+size 1222566

Chamber_Fayot_2005.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f149107b2690ea0ce333416c5031d9b87b9d4fb485f1db7c42723237a295e51
+size 3460164

Erlieft-a-Verzielt.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73919b09cd71c46b9c83e3d99f07800b90f41f32e93a10a643f38e22bba6bb53
+size 3503086

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: ASR For Luxembourgish
+emoji: 🏃
+colorFrom: red
+colorTo: indigo
+sdk: gradio
+sdk_version: 3.3
+app_file: app.py
+pinned: false
+license: mit
+duplicated_from: unilux/ASR_for_Luxembourgish
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

Schnessen-Beispill2.wav ADDED Viewed

Binary file (683 kB). View file

Schnessen-Beispill3.wav ADDED Viewed

Binary file (272 kB). View file

Schnessen-Beispill4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:923e0df9a2d15eba4ba3cc64b63f64f5c8a1eaf13649b15f74769f00783a8c5c
+size 1119566

Schnessen_Beispill.wav ADDED Viewed

Binary file (874 kB). View file

app.py ADDED Viewed

	@@ -0,0 +1,50 @@

+# from: https://gradio.app/real_time_speech_recognition/
+from transformers import pipeline
+import torch
+import gradio as gr
+import librosa
+import os
+import time
+#Loading the model and the tokenizer
+token_key = os.environ.get("HUGGING_FACE_HUB_TOKEN")
+model_name = "pgilles/whisper-large-v2-lb_cased_01"
+#p = pipeline("automatic-speech-recognition", model=model, tokenizer=tokenizer, feature_extractor=processor.feature_extractor, decoder=processor.decoder, use_auth_token=token_key)
+p = pipeline("automatic-speech-recognition", model=model_name, device=0, use_auth_token=token_key)
+def load_data(input_file):
+  """ Function for resampling to ensure that the speech input is sampled at 16KHz.
+  """
+  sampling_rate = 16_000
+  #read the file
+  speech, sample_rate = librosa.load(input_file, sr=sampling_rate, mono=True)
+  #speech = librosa.effects.trim(speech, top_db= 10)
+  return speech
+def asr_pipe(input_file, input_file_microphone, chunks):
+  input_file = input_file_microphone if input_file_microphone else input_file
+  transcription = p(input_file, chunk_length_s= chunks, stride_length_s = None)["text"]
+  return transcription
+inputs = [gr.inputs.Audio(source="upload", type='filepath', label="Eng Audio-Datei eroplueden...", optional = True),
+          gr.inputs.Audio(source="microphone", type="filepath", label="... oder direkt mam Mikro ophuelen", optional = True),
+          gr.Slider(minimum=3, maximum=32, value=29, step=0.5, label="Chunk Length")]
+outputs = [gr.outputs.Textbox(label="Erkannten Text")]
+samples = [["Chamber2022_1.wav", "Chamber2022_1.wav", 30], ["Chamber2022_1.wav", "Chamber2022_2.wav", 20], ["Chamber2022_2.wav", "Chamber2022_3.wav", 30], ["Chamber2022_4.wav", "Chamber2022_4.wav", 29]]
+gr.Interface(fn = asr_pipe,
+             inputs = inputs,
+             outputs = outputs,
+             title="Sproocherkennung fir d'Lëtzebuergescht @uni.lu, based on Whisper-large-v2",
+             description = "Dës App convertéiert Är geschwate Sprooch an de (méi oder manner richtegen ;-)) Text!",
+             examples = samples,
+             examples_per_page = 10,
+             article = "Beschreiwung: Dir kënnt Iech selwer iwwer de Mikro ophuelen, eng Datei eroplueden oder e Beispill auswielen. Dëse Modell ass trainéiert mam neisten Sproocherkennungsalgorithmus vun OpenAI: Whisper. Anescht wéi bei deene meeschten Applikatiounen, déi op dem Whisper baséieren, ass dëse lëtzebuergeschen zousätzlech mat enger grousser, kontrolléierter Datebasis trainéiert ginn ('fine-tuning' mat 70 Stonne Lëtzebuergesch aus verschiddene sproochleche Genren). Domat ass eng niddereg Feelerquote méiglech, déi virdrun net denkbar war. D'Grouss- a Klengschreiwung an och d'Punktuatioun gi gréisstendeels richteg ëmgesat. Am Géigesaz zum Wav2vec 2.0-Algorithmus, deen och héich Erkennungsraten huet an och op ville Sproochen trainéiert ass, ass beim Whisper fir vill Sproochen net nëmmen d'Akustik mee och den Text mattrainéiert ginn ('weak-supervised pre-training'). Domat ass net nëmmen déi allgemeng Erkennungsrat méi héich wéi beim Wav2vec 2.0, mee och méisproocheg Schwätze gëtt däitlech besser erkannt. Et kann een also z.B. tëscht Lëtzebuergescht a Franséisch (oder Däitsch, Englesch, Spuenesch, Chineesesch) hin- an hierwiesselen an de System produzéiert de richtegen Text. 't dauert ongeféier e Fënneftel bis e Véierel vun der Dauer vun der Opnam, bis d'Transkriptioun verschafft ass.",
+             theme="default").launch(share=False, show_error=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+librosa
+#torch
+#pyctcdecode
+#git+https://github.com/kpu/kenlm.git
+transformers
+--extra-index-url https://download.pytorch.org/whl/cu113
+torch
+gradio==3.14