Spaces:

romas-458
/

acr

Sleeping

roman commited on May 29, 2024

Commit

19a40bb

1 Parent(s): cbb91a2

16000

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,7 +21,7 @@ def map_to_pred(file_path):
     audio, _ = librosa.load(file_path)
     # preprocess audio and generate standard
-    input_features = processor([audio], return_tensors="pt", sampling_rate=32000).input_features
     generated_ids = model.generate(inputs=input_features)
     transcription = processor.batch_decode(generated_ids, normalize=True, skip_special_tokens=True)
     text = processor.tokenizer._normalize(transcription[0])
@@ -33,6 +33,13 @@ if uploaded_file is not None:
     with open(file_path, 'wb') as f:
         f.write(uploaded_file.getbuffer())
     text = map_to_pred(file_path)
     # display results

     audio, _ = librosa.load(file_path)
     # preprocess audio and generate standard
+    input_features = processor([audio], return_tensors="pt", sampling_rate=16000).input_features
     generated_ids = model.generate(inputs=input_features)
     transcription = processor.batch_decode(generated_ids, normalize=True, skip_special_tokens=True)
     text = processor.tokenizer._normalize(transcription[0])
     with open(file_path, 'wb') as f:
         f.write(uploaded_file.getbuffer())
+    # Convert audio file to a format supported by Whisper (if necessary)
+    audio = AudioSegment.from_file(temp_file_path)
+    temp_wav_path = tempfile.mktemp(suffix=".wav")
+    audio.export(temp_wav_path, format="wav")
+    st.audio(uploaded_file, format="audio/wav")
     text = map_to_pred(file_path)
     # display results