Spaces:

NLPV
/

ReadabilityTest

Sleeping

NLPV commited on Jul 14

Commit

3d23eab

verified ·

1 Parent(s): 650c3e9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -60,11 +60,11 @@ def transcribe_audio(audio_path, original_text):
         waveform, sample_rate = torchaudio.load(audio_path)
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
-        if sample_rate != 16000:
-            transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
             waveform = transform(waveform)
         waveform = waveform / waveform.abs().max()
-        input_values = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_values
         with torch.no_grad():
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1)
@@ -74,7 +74,7 @@ def transcribe_audio(audio_path, original_text):
         df_errors = pd.DataFrame(errors, columns=["बिगड़ा हुआ शब्द", "संभावित सही शब्द", "गलती का प्रकार"])
         # Speaking speed
         transcribed_words = transcription.strip().split()
-        duration = waveform.shape[1] / 16000
         speed = round(len(transcribed_words) / duration, 2) if duration > 0 else 0
         result = {
             "📝 Transcribed Text": transcription,

         waveform, sample_rate = torchaudio.load(audio_path)
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
+        if sample_rate != 48000:
+            transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=48000)
             waveform = transform(waveform)
         waveform = waveform / waveform.abs().max()
+        input_values = processor(waveform.squeeze().numpy(), sampling_rate=48000, return_tensors="pt").input_values
         with torch.no_grad():
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         df_errors = pd.DataFrame(errors, columns=["बिगड़ा हुआ शब्द", "संभावित सही शब्द", "गलती का प्रकार"])
         # Speaking speed
         transcribed_words = transcription.strip().split()
+        duration = waveform.shape[1] / 48000
         speed = round(len(transcribed_words) / duration, 2) if duration > 0 else 0
         result = {
             "📝 Transcribed Text": transcription,