leophill commited on
Commit
6ab1a8b
·
1 Parent(s): 3f8c56d

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +10 -7
app.py CHANGED
@@ -35,16 +35,19 @@ def asr_pipe(input_file, input_file_microphone, chunks):
35
  transcription = p(input_file, chunk_length_s= chunks, stride_length_s = None)["text"]
36
  return transcription
37
 
 
 
 
 
 
 
 
38
  gr.Interface(fn = asr_pipe,
39
- inputs = [
40
- gr.inputs.Audio(source="upload", type='filepath', label="Eng Audio-Datei eroplueden...", optional = True),
41
- gr.inputs.Audio(source="microphone", type="filepath", label="... oder direkt mam Mikro ophuelen", optional = True),
42
- gr.Slider(minimum=3, maximum=32, value=29, step=0.5, label="Chunk Length")
43
- ],
44
- outputs = gr.outputs.Textbox(label="Erkannten Text"),
45
  title="Sproocherkennung fir d'Lëtzebuergescht @uni.lu",
46
  description = "Dës App convertéiert Är geschwate Sprooch an de (méi oder manner richtegen ;-)) Text!",
47
- #examples = [ ["./Chamber2022_1.wav","",30], ["./Chamber2022_2.wav","",30], ["./Chamber2022_3.wav","",30], ["./Chamber2022_4.wav","",29] ],
48
  examples_per_page = 10,
49
  article = "Beschreiwung: Dir kënnt Iech selwer iwwer de Mikro ophuelen, eng Datei eroplueden oder e Beispill auswielen. Dëse Modell ass trainéiert mam neisten Sproocherkennungsalgorithmus vun OpenAI: Whisper. Anescht wéi bei deene meeschten Applikatiounen, déi op dem Whisper baséieren, ass dëse lëtzebuergeschen zousätzlech mat enger grousser, kontrolléierter Datebasis trainéiert ginn ('fine-tuning' mat 70 Stonne Lëtzebuergesch aus verschiddene sproochleche Genren). Domat ass eng niddereg Feelerquote méiglech, déi virdrun net denkbar war. D'Grouss- a Klengschreiwung an och d'Punktuatioun gi gréisstendeels richteg ëmgesat. Am Géigesaz zum Wav2vec 2.0-Algorithmus, deen och héich Erkennungsraten huet an och op ville Sproochen trainéiert ass, ass beim Whisper fir vill Sproochen net nëmmen d'Akustik mee och den Text mattrainéiert ginn ('weak-supervised pre-training'). Domat ass net nëmmen déi allgemeng Erkennungsrat méi héich wéi beim Wav2vec 2.0, mee och méisproocheg Schwätze gëtt däitlech besser erkannt. Et kann een also z.B. tëscht Lëtzebuergescht a Franséisch (oder Däitsch, Englesch, Spuenesch, Chineesesch) hin- an hierwiesselen an de System produzéiert de richtegen Text.",
50
  theme="default").launch()
 
35
  transcription = p(input_file, chunk_length_s= chunks, stride_length_s = None)["text"]
36
  return transcription
37
 
38
+ inputs = [gr.inputs.Audio(source="upload", type='filepath', label="Eng Audio-Datei eroplueden...", optional = True),
39
+ gr.inputs.Audio(source="microphone", type="filepath", label="... oder direkt mam Mikro ophuelen", optional = True),
40
+ gr.Slider(minimum=3, maximum=32, value=29, step=0.5, label="Chunk Length")]
41
+
42
+ outputs = [gr.outputs.Textbox(label="Erkannten Text")]
43
+
44
+ samples = [["./Chamber2022_1.wav","None",30], ["./Chamber2022_2.wav","None",20], ["./Chamber2022_3.wav","None",30], ["./Chamber2022_4.wav","None",29]]
45
  gr.Interface(fn = asr_pipe,
46
+ inputs = inputs,
47
+ outputs = outputs,
 
 
 
 
48
  title="Sproocherkennung fir d'Lëtzebuergescht @uni.lu",
49
  description = "Dës App convertéiert Är geschwate Sprooch an de (méi oder manner richtegen ;-)) Text!",
50
+ examples = samples,
51
  examples_per_page = 10,
52
  article = "Beschreiwung: Dir kënnt Iech selwer iwwer de Mikro ophuelen, eng Datei eroplueden oder e Beispill auswielen. Dëse Modell ass trainéiert mam neisten Sproocherkennungsalgorithmus vun OpenAI: Whisper. Anescht wéi bei deene meeschten Applikatiounen, déi op dem Whisper baséieren, ass dëse lëtzebuergeschen zousätzlech mat enger grousser, kontrolléierter Datebasis trainéiert ginn ('fine-tuning' mat 70 Stonne Lëtzebuergesch aus verschiddene sproochleche Genren). Domat ass eng niddereg Feelerquote méiglech, déi virdrun net denkbar war. D'Grouss- a Klengschreiwung an och d'Punktuatioun gi gréisstendeels richteg ëmgesat. Am Géigesaz zum Wav2vec 2.0-Algorithmus, deen och héich Erkennungsraten huet an och op ville Sproochen trainéiert ass, ass beim Whisper fir vill Sproochen net nëmmen d'Akustik mee och den Text mattrainéiert ginn ('weak-supervised pre-training'). Domat ass net nëmmen déi allgemeng Erkennungsrat méi héich wéi beim Wav2vec 2.0, mee och méisproocheg Schwätze gëtt däitlech besser erkannt. Et kann een also z.B. tëscht Lëtzebuergescht a Franséisch (oder Däitsch, Englesch, Spuenesch, Chineesesch) hin- an hierwiesselen an de System produzéiert de richtegen Text.",
53
  theme="default").launch()