Spaces:

Merlintxu
/

Wav2Txt

Sleeping

App Files Files Community

Merlintxu commited on Sep 30, 2024

Commit

007d6a1

verified ·

1 Parent(s): 3b1a6b5

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -12

app.py CHANGED Viewed

@@ -10,11 +10,11 @@ from transformers import logging
 import math
 import json
-# Suppress warnings
 warnings.filterwarnings("ignore")
 logging.set_verbosity_error()
-# Updated models by language
 MODELS = {
     "es": [
         "openai/whisper-large-v3",
@@ -29,13 +29,13 @@ MODELS = {
     "pt": [
         "facebook/wav2vec2-large-xlsr-53-portuguese",
         "openai/whisper-medium",
-        "jonatasgrosman/wav2vec2-large-xlsr-53-portuguese"
     ]
 }
 def convert_audio_to_wav(audio_path):
     if os.path.isdir(audio_path):
-        raise ValueError(f"The path provided is a directory, not a file: {audio_path}")
     wav_path = "converted_audio.wav"
     command = ["ffmpeg", "-i", audio_path, "-ac", "1", "-ar", "16000", wav_path]
     subprocess.run(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, check=True)
@@ -45,7 +45,7 @@ def detect_language(audio_path):
     try:
         speech, _ = librosa.load(audio_path, sr=16000, duration=30)
     except Exception as e:
-        raise ValueError(f"Error loading audio file with librosa: {e}")
     processor = WhisperProcessor.from_pretrained("openai/whisper-base")
     model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
@@ -75,7 +75,7 @@ def transcribe_audio_stream(audio, model_name):
         processor = WhisperProcessor.from_pretrained(model_name)
         model = WhisperForConditionalGeneration.from_pretrained(model_name)
-        chunk_duration = 30  # seconds
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
@@ -95,7 +95,7 @@ def transcribe_audio_stream(audio, model_name):
     else:
         transcriber = pipeline("automatic-speech-recognition", model=model_name)
-        chunk_duration = 10  # seconds
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
@@ -133,7 +133,8 @@ def combined_interface(audio, file_format):
         language, model_options = detect_and_select_model(audio)
         selected_model = model_options[0]
-        yield language, model_options, selected_model, "", 0, "Initializing..."
         transcriptions = []
         for partial_transcriptions, progress in transcribe_audio_stream(audio, selected_model):
@@ -141,17 +142,20 @@ def combined_interface(audio, file_format):
             full_transcription = " ".join([t["text"] for t in transcriptions])
             progress_int = math.floor(progress)
             status = f"Transcribing... {progress_int}% complete"
-            yield language, model_options, selected_model, full_transcription.strip(), progress_int, status
-        # Save transcription file
         file_path = save_transcription(transcriptions, file_format)
-        # Clean up temporary files
         os.remove("converted_audio.wav")
         yield language, model_options, selected_model, full_transcription.strip(), 100, f"Transcription complete! Download {file_path}", file_path
     except Exception as e:
         yield str(e), [], "", "An error occurred during processing.", 0, "Error", ""
 iface = gr.Interface(
@@ -175,4 +179,4 @@ iface = gr.Interface(
 )
 if __name__ == "__main__":
-    iface.queue().launch()

 import math
 import json
+# Suprimir advertencias
 warnings.filterwarnings("ignore")
 logging.set_verbosity_error()
+# Modelos actualizados por idioma
 MODELS = {
     "es": [
         "openai/whisper-large-v3",
     "pt": [
         "facebook/wav2vec2-large-xlsr-53-portuguese",
         "openai/whisper-medium",
+        "jonatasgrosman/wav2vec2-xlsr-53-portuguese"
     ]
 }
 def convert_audio_to_wav(audio_path):
     if os.path.isdir(audio_path):
+        raise ValueError(f"La ruta proporcionada es un directorio, no un archivo: {audio_path}")
     wav_path = "converted_audio.wav"
     command = ["ffmpeg", "-i", audio_path, "-ac", "1", "-ar", "16000", wav_path]
     subprocess.run(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, check=True)
     try:
         speech, _ = librosa.load(audio_path, sr=16000, duration=30)
     except Exception as e:
+        raise ValueError(f"Error al cargar el archivo de audio con librosa: {e}")
     processor = WhisperProcessor.from_pretrained("openai/whisper-base")
     model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
         processor = WhisperProcessor.from_pretrained(model_name)
         model = WhisperForConditionalGeneration.from_pretrained(model_name)
+        chunk_duration = 30  # segundos
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
     else:
         transcriber = pipeline("automatic-speech-recognition", model=model_name)
+        chunk_duration = 10  # segundos
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
         language, model_options = detect_and_select_model(audio)
         selected_model = model_options[0]
+        # Primer yield: Añadir None para la séptima salida (Archivo de Descarga)
+        yield language, model_options, selected_model, "", 0, "Initializing...", None
         transcriptions = []
         for partial_transcriptions, progress in transcribe_audio_stream(audio, selected_model):
             full_transcription = " ".join([t["text"] for t in transcriptions])
             progress_int = math.floor(progress)
             status = f"Transcribing... {progress_int}% complete"
+            # Yield con None para el archivo de descarga hasta que esté completo
+            yield language, model_options, selected_model, full_transcription.strip(), progress_int, status, None
+        # Guardar transcripción
         file_path = save_transcription(transcriptions, file_format)
+        # Limpiar archivos temporales
         os.remove("converted_audio.wav")
+        # Yield final con el archivo de descarga
         yield language, model_options, selected_model, full_transcription.strip(), 100, f"Transcription complete! Download {file_path}", file_path
     except Exception as e:
+        # Asegurarse de que el yield de error también devuelva 7 valores
         yield str(e), [], "", "An error occurred during processing.", 0, "Error", ""
 iface = gr.Interface(
 )
 if __name__ == "__main__":
+    iface.queue().launch()