Spaces:

romas-458
/

acr

Sleeping

roman commited on May 29, 2024

Commit

87bebbb

1 Parent(s): e9f45f4

chose from list, increase sampling rate

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,20 +2,26 @@ import streamlit as st
 import librosa
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
-uploaded_file = st.file_uploader("Choose file", type=["wav", "mp3"])
-processor = AutoProcessor.from_pretrained("Yehor/whisper-small-ukrainian")
-model = AutoModelForSpeechSeq2Seq.from_pretrained("Yehor/whisper-small-ukrainian")
 def map_to_pred(file_path):
     # load audio file
     audio, _ = librosa.load(file_path)
     # preprocess audio and generate standard
-    input_features = processor([audio], return_tensors="pt", sampling_rate=16_000).input_features
     generated_ids = model.generate(inputs=input_features)
     transcription = processor.batch_decode(generated_ids, normalize=True, skip_special_tokens=True)
     text = processor.tokenizer._normalize(transcription[0])

 import librosa
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+# Define available models
+available_models = ["Yehor/whisper-small-ukrainian"]
+st.title("Voice Recognition App")
+# Model selection dropdown
+model_choice = st.selectbox("Choose a model", available_models)
+processor = AutoProcessor.from_pretrained(model_choice)
+model = AutoModelForSpeechSeq2Seq.from_pretrained(model_choice)
+uploaded_file = st.file_uploader("Choose file", type=["wav", "mp3"])
 def map_to_pred(file_path):
     # load audio file
     audio, _ = librosa.load(file_path)
     # preprocess audio and generate standard
+    input_features = processor([audio], return_tensors="pt", sampling_rate=32_000).input_features
     generated_ids = model.generate(inputs=input_features)
     transcription = processor.batch_decode(generated_ids, normalize=True, skip_special_tokens=True)
     text = processor.tokenizer._normalize(transcription[0])