Spaces:

RXTIME
/

r7

Running

RXTIME commited on Feb 9

Commit

5259a84

verified ·

1 Parent(s): f50c959

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import subprocess
 import soundfile as sf
 from transformers import WhisperProcessor, WhisperForConditionalGeneration, MarianMTModel, MarianTokenizer
 from gtts import gTTS
 import gradio as gr
@@ -29,10 +30,23 @@ def transcribe_audio(audio_path: str) -> str:
     Transcreve o áudio para texto usando o modelo Whisper.
     """
     try:
         processor = WhisperProcessor.from_pretrained(WHISPER_MODEL)
         model = WhisperForConditionalGeneration.from_pretrained(WHISPER_MODEL)
-        audio, _ = sf.read(audio_path)
         input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features
         predicted_ids = model.generate(input_features)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         return transcription

 import os
 import subprocess
 import soundfile as sf
+import librosa
 from transformers import WhisperProcessor, WhisperForConditionalGeneration, MarianMTModel, MarianTokenizer
 from gtts import gTTS
 import gradio as gr
     Transcreve o áudio para texto usando o modelo Whisper.
     """
     try:
+        # Carregar o áudio
+        audio, sample_rate = sf.read(audio_path)
+        # Verificar se o áudio está no formato correto
+        if len(audio.shape) > 1:  # Se for stereo, converter para mono
+            audio = audio.mean(axis=1)
+        # Redimensionar para 16 kHz, se necessário
+        if sample_rate != 16000:
+            audio = librosa.resample(audio, orig_sr=sample_rate, target_sr=16000)
+        # Processar o áudio
         processor = WhisperProcessor.from_pretrained(WHISPER_MODEL)
         model = WhisperForConditionalGeneration.from_pretrained(WHISPER_MODEL)
         input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features
+        # Gerar transcrição
         predicted_ids = model.generate(input_features)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         return transcription