Spaces:

Mark0047
/

roberta-whispers

Sleeping

Mark0047 commited on Dec 13, 2024

Commit

f5d0beb

verified ·

1 Parent(s): 0759a7f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,14 +17,16 @@ def transcribe_and_analyze(audio_path):
     audio, sample_rate = sf.read(audio_path)
     # Resample audio to 16000 Hz if necessary
     if sample_rate != 16000:
         audio_tensor = torchaudio.functional.resample(torch.tensor(audio), orig_freq=sample_rate, new_freq=16000)
         audio = audio_tensor.numpy()  # Convert back to numpy array
     # Process audio with Whisper
     input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
     # Analyze emotions in the transcription
     emotions = emotion_classifier(transcription)

     audio, sample_rate = sf.read(audio_path)
     # Resample audio to 16000 Hz if necessary
+    print('resample')
     if sample_rate != 16000:
         audio_tensor = torchaudio.functional.resample(torch.tensor(audio), orig_freq=sample_rate, new_freq=16000)
         audio = audio_tensor.numpy()  # Convert back to numpy array
+    print('trans')
     # Process audio with Whisper
     input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+    print(transcription)
     # Analyze emotions in the transcription
     emotions = emotion_classifier(transcription)