Spaces:

alakxender
/

asr-dhivehi-demo

Running on Zero

App Files Files Community

alakxender commited on Apr 24

Commit

6fb3e63

0 Parent(s):

n

Browse files

Files changed (7) hide show

.gitattributes +36 -0
.gitignore +1 -0
README.md +12 -0
app.py +110 -0
packages.txt +1 -0
requirements.txt +1 -0
sample.mp3 +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.mp3 filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ gradio_cached_examples

README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Dhivehi Whisper Demo
+emoji: 🏆
+colorFrom: pink
+colorTo: green
+sdk: gradio
+sdk_version: 5.7.1
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,110 @@

+import spaces
+import torch
+import gradio as gr
+from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+import tempfile
+import os
+# Model configuration, this model contains synthetic data
+MODEL_ID = "alakxender/whisper-small-dv-full"
+BATCH_SIZE = 8
+FILE_LIMIT_MB = 1000
+CHUNK_LENGTH_S = 30
+STRIDE_LENGTH_S = 5
+# Device and dtype setup
+device = 0 if torch.cuda.is_available() else "cpu"
+torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+# Initialize model with memory optimizations
+model = AutoModelForSpeechSeq2Seq.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch_dtype,
+    low_cpu_mem_usage=True,
+    use_safetensors=True
+)
+model.to(device)
+# Initialize processor
+processor = AutoProcessor.from_pretrained(MODEL_ID)
+# Single pipeline initialization with all components
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    chunk_length_s=CHUNK_LENGTH_S,
+    stride_length_s=STRIDE_LENGTH_S,
+    batch_size=BATCH_SIZE,
+    torch_dtype=torch_dtype,
+    device=device,
+)
+# Define the generation arguments
+generate_kwargs = {
+    "max_new_tokens": model.config.max_target_positions-4,
+    "num_beams": 4,
+    "condition_on_prev_tokens": False,
+    "compression_ratio_threshold": 1.35,
+    #"temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
+    #"logprob_threshold": -1.0,
+    #"no_speech_threshold": 0.6,
+    #"return_timestamps"=True
+}
+@spaces.GPU
+def transcribe(audio_input):
+    if audio_input is None:
+        raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
+    try:
+        # Use the defined generate_kwargs dictionary
+        result = pipe(
+            audio_input,
+            generate_kwargs=generate_kwargs
+        )
+        return result["text"]
+    except Exception as e:
+        # More detailed error logging might be helpful here if issues persist
+        print(f"Detailed Error: {e}")
+        raise gr.Error(f"Transcription failed: {str(e)}")
+# Custom CSS with modern Gradio styling
+custom_css = """
+.thaana-textbox textarea {
+    font-size: 18px !important;
+    font-family: 'MV_Faseyha', 'Faruma', 'A_Faruma', 'Noto Sans Thaana', 'MV Boli' !important;
+    line-height: 1.8 !important;
+    direction: rtl !important;
+}
+"""
+demo = gr.Blocks(css=custom_css)
+file_transcribe = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(sources=["upload", "microphone"], type="filepath", label="Audio file"),
+    ],
+    outputs=gr.Textbox(
+        label="",
+        lines=2,
+        elem_classes=["thaana-textbox"],
+        rtl=True
+    ),
+    title="Transcribe Dhivehi Audio",
+    description=(
+        "Upload an audio file or record using your microphone to transcribe."
+    ),
+    allow_flagging="never",
+    examples=[
+        ["sample.mp3"]
+    ],
+)
+with demo:
+    gr.TabbedInterface([file_transcribe], ["Audio file"])
+demo.queue().launch()

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ transformers

sample.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01db7c01f8f9dc7cb22c1252e04bfd46785ccb5cc50776b2f92195b64942cec5
+size 1213926