asr-inference

Running

File size: 1,644 Bytes

6c226f9
 
 
8e787d3
6c226f9
d790c0b
 
 
88183ad
6c226f9
a5bfe25
9d6fa91
66efbc3
6c226f9
 
 
 
 
 
 
 
 
 
3c0cd8e
 
bab1585
 
6c226f9
5208902
3c0cd8e
 
6c226f9
 
13e0565
1faae08
13e0565
6c226f9
bab1585
6c226f9
 
5208902
 
3c0cd8e
 
53b8fc6
bab1585
3c0cd8e
 
 
6c226f9
9c4478d
6c226f9
5208902
 
7097513

import torch

import gradio as gr
import yt_dlp as youtube_dl
from transformers import pipeline
from transformers.pipelines.audio_utils import ffmpeg_read

import tempfile
import os

MODEL_NAME = "openai/whisper-large-v3"
BATCH_SIZE = 8
FILE_LIMIT_MB = 1000

device = 0 if torch.cuda.is_available() else "cpu"

pipe = pipeline(
    task="automatic-speech-recognition",
    model=MODEL_NAME,
    chunk_length_s=30,
    device=device,
)

def transcribe(inputs, task):
    if inputs is None:
        raise gr.Error("Cap fitxer d'àudio introduit! Si us plau pengeu un fitxer "\
                       "o enregistreu un àudio abans d'enviar la vostra sol·licitud")


    text = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]
    return  text


description_string = "Transcripció automàtica de micròfon o de fitxers d'àudio.\n Aquest demostrador s'ha desenvolupat per"\
              " comprovar els models de reconeixement de parla per a móbils. Per ara utilitza el checkpoint "\
              f"[{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}) i la llibreria de 🤗 Transformers per a la transcripció."

file_transcribe = gr.Interface(
    fn=transcribe,
    inputs=[
        gr.Audio(sources=["upload", "microphone"], type="filepath", label="Audio"),
        gr.Radio(["transcribe", "translate"], label="Task", value="transcribe"),
    ],
    outputs="text",
    title="Transcripció automàtica d'àudio",
    description=(description_string),
    allow_flagging="never",
)


demo = gr.TabbedInterface([file_transcribe], ["Fitxer"])

if __name__ == "__main__":
    demo.launch()