Spaces:

unilux
/

ASR_for_Luxembourgish

Runtime error

App Files Files Community

leophill commited on Dec 18, 2022

Commit

6ab1a8b

1 Parent(s): 3f8c56d

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -7

app.py CHANGED Viewed

@@ -35,16 +35,19 @@ def asr_pipe(input_file, input_file_microphone, chunks):
   transcription = p(input_file, chunk_length_s= chunks, stride_length_s = None)["text"]
   return transcription
 gr.Interface(fn = asr_pipe,
-             inputs = [
-             	gr.inputs.Audio(source="upload", type='filepath', label="Eng Audio-Datei eroplueden...", optional = True),
-             	gr.inputs.Audio(source="microphone", type="filepath", label="... oder direkt mam Mikro ophuelen", optional = True),
-             	gr.Slider(minimum=3, maximum=32, value=29, step=0.5, label="Chunk Length")
-             	],
-             outputs = gr.outputs.Textbox(label="Erkannten Text"),
              title="Sproocherkennung fir d'Lëtzebuergescht @uni.lu",
              description = "Dës App convertéiert Är geschwate Sprooch an de (méi oder manner richtegen ;-)) Text!",
-             #examples = [ ["./Chamber2022_1.wav","",30], ["./Chamber2022_2.wav","",30], ["./Chamber2022_3.wav","",30], ["./Chamber2022_4.wav","",29] ],
              examples_per_page = 10,
              article = "Beschreiwung: Dir kënnt Iech selwer iwwer de Mikro ophuelen, eng Datei eroplueden oder e Beispill auswielen. Dëse Modell ass trainéiert mam neisten Sproocherkennungsalgorithmus vun OpenAI: Whisper. Anescht wéi bei deene meeschten Applikatiounen, déi op dem Whisper baséieren, ass dëse lëtzebuergeschen zousätzlech mat enger grousser, kontrolléierter Datebasis trainéiert ginn ('fine-tuning' mat 70 Stonne Lëtzebuergesch aus verschiddene sproochleche Genren). Domat ass eng niddereg Feelerquote méiglech, déi virdrun net denkbar war. D'Grouss- a Klengschreiwung an och d'Punktuatioun gi gréisstendeels richteg ëmgesat. Am Géigesaz zum Wav2vec 2.0-Algorithmus, deen och héich Erkennungsraten huet an och op ville Sproochen trainéiert ass, ass beim Whisper fir vill Sproochen net nëmmen d'Akustik mee och den Text mattrainéiert ginn ('weak-supervised pre-training'). Domat ass net nëmmen déi allgemeng Erkennungsrat méi héich wéi beim Wav2vec 2.0, mee och méisproocheg Schwätze gëtt däitlech besser erkannt. Et kann een also z.B. tëscht Lëtzebuergescht a Franséisch (oder Däitsch, Englesch, Spuenesch, Chineesesch) hin- an hierwiesselen an de System produzéiert de richtegen Text.",
              theme="default").launch()

   transcription = p(input_file, chunk_length_s= chunks, stride_length_s = None)["text"]
   return transcription
+inputs = [gr.inputs.Audio(source="upload", type='filepath', label="Eng Audio-Datei eroplueden...", optional = True),
+          gr.inputs.Audio(source="microphone", type="filepath", label="... oder direkt mam Mikro ophuelen", optional = True),
+          gr.Slider(minimum=3, maximum=32, value=29, step=0.5, label="Chunk Length")]
+outputs = [gr.outputs.Textbox(label="Erkannten Text")]
+samples = [["./Chamber2022_1.wav","None",30], ["./Chamber2022_2.wav","None",20], ["./Chamber2022_3.wav","None",30], ["./Chamber2022_4.wav","None",29]]
 gr.Interface(fn = asr_pipe,
+             inputs = inputs,
+             outputs = outputs,
              title="Sproocherkennung fir d'Lëtzebuergescht @uni.lu",
              description = "Dës App convertéiert Är geschwate Sprooch an de (méi oder manner richtegen ;-)) Text!",
+             examples = samples,
              examples_per_page = 10,
              article = "Beschreiwung: Dir kënnt Iech selwer iwwer de Mikro ophuelen, eng Datei eroplueden oder e Beispill auswielen. Dëse Modell ass trainéiert mam neisten Sproocherkennungsalgorithmus vun OpenAI: Whisper. Anescht wéi bei deene meeschten Applikatiounen, déi op dem Whisper baséieren, ass dëse lëtzebuergeschen zousätzlech mat enger grousser, kontrolléierter Datebasis trainéiert ginn ('fine-tuning' mat 70 Stonne Lëtzebuergesch aus verschiddene sproochleche Genren). Domat ass eng niddereg Feelerquote méiglech, déi virdrun net denkbar war. D'Grouss- a Klengschreiwung an och d'Punktuatioun gi gréisstendeels richteg ëmgesat. Am Géigesaz zum Wav2vec 2.0-Algorithmus, deen och héich Erkennungsraten huet an och op ville Sproochen trainéiert ass, ass beim Whisper fir vill Sproochen net nëmmen d'Akustik mee och den Text mattrainéiert ginn ('weak-supervised pre-training'). Domat ass net nëmmen déi allgemeng Erkennungsrat méi héich wéi beim Wav2vec 2.0, mee och méisproocheg Schwätze gëtt däitlech besser erkannt. Et kann een also z.B. tëscht Lëtzebuergescht a Franséisch (oder Däitsch, Englesch, Spuenesch, Chineesesch) hin- an hierwiesselen an de System produzéiert de richtegen Text.",
              theme="default").launch()