whisper-small-indonesia-demo

Sleeping

File size: 2,279 Bytes

dde51bf
efa7028
dde51bf
 
cd7c511
dde51bf
0196a98
dde51bf
 
 
 
efa7028
 
dde51bf
efa7028
 
dde51bf
efa7028
 
dde51bf
b9710dc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
efa7028
 
b9710dc
 
 
 
 
 
 
 
 
dde51bf
 
 
 
 
a8d0349
 
 
dde51bf
 
 
a8d0349
 
 
dde51bf
 
 
 
 
6a2c322

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from transformers.pipelines.audio_utils import ffmpeg_read
import gradio as gr
import librosa

MODEL_NAME = "EwoutLagendijk/whisper-small-indonesian"
BATCH_SIZE = 8

device = 0 if torch.cuda.is_available() else "cpu"

# Load model and processor
model_name = "EwoutLagendijk/whisper-small-indonesian"

model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

# Update the generation config for transcription
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="id", task="transcribe")

def transcribe_speech(filepath):
    # Load the audio
    audio, sampling_rate = librosa.load(filepath, sr=16000)

    # Define chunk size (e.g., 30 seconds)
    chunk_duration = 30  # in seconds
    chunk_samples = chunk_duration * sampling_rate

    # Process audio in chunks
    transcription = []
    for i in range(0, len(audio), chunk_samples):
        chunk = audio[i:i + chunk_samples]

        # Convert the chunk into input features
        inputs = processor(audio=chunk, sampling_rate=16000, return_tensors="pt").input_features

        # Generate transcription for the chunk
        generated_ids = model.generate(
            inputs,
            max_new_tokens=444,  # Max allowed by Whisper
            forced_decoder_ids=processor.get_decoder_prompt_ids(language="id", task="transcribe"),
            return_timestamps = True
        )

        # Decode and append the transcription
        chunk_transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
        transcription.append(chunk_transcription)

    # Combine all chunk transcriptions into a single string
    return " ".join(transcription)



demo = gr.Blocks()

mic_transcribe = gr.Interface(
    fn=transcribe_speech,
    inputs=gr.Audio(sources="microphone", type="filepath"),
    outputs=gr.components.Textbox(),
)

file_transcribe = gr.Interface(
    fn=transcribe_speech,
    inputs=gr.Audio(sources="upload", type="filepath"),
    outputs=gr.components.Textbox(),
)

with demo:
    gr.TabbedInterface([mic_transcribe, file_transcribe], ["Transcribe Microphone", "Transcribe Audio File"])

demo.launch(debug=True)