Spaces:

Merlintxu
/

Wav2Txt

Sleeping

Merlintxu commited on Jul 5, 2024

Commit

a3199db

verified ·

1 Parent(s): 2f59680

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import torch
+import librosa
+# Cargar el modelo y el procesador de Hugging Face
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h")
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h")
+def transcribe_audio(audio):
+    # Cargar el audio usando librosa
+    speech, rate = librosa.load(audio, sr=16000)
+    # Procesar el audio
+    input_values = processor(speech, return_tensors="pt", sampling_rate=rate).input_values
+    # Generar las predicciones (logits)
+    with torch.no_grad():
+        logits = model(input_values).logits
+    # Obtener las predicciones (tokens) y convertirlas en texto
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)[0]
+    # Guardar la transcripción en un archivo de texto
+    with open("transcription.txt", "w") as file:
+        file.write(transcription)
+    return "transcription.txt"
+# Configurar la interfaz de Gradio
+iface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(source="upload", type="filepath"),
+    outputs=gr.File(file_path=True),
+    title="Audio Transcriber",
+    description="Sube un archivo de audio y obtén la transcripción en un archivo de texto."
+)
+# Iniciar la interfaz
+if __name__ == "__main__":
+    iface.launch()