whisper-asr-uz

Running

App Files Files Community

mrmuminov commited on May 1

Commit

51d1944

verified ·

1 Parent(s): 270cde7

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -29

app.py CHANGED Viewed

@@ -1,19 +1,11 @@
 import torch
 import gradio as gr
-import yt_dlp as youtube_dl
 from transformers import pipeline
 from transformers.pipelines.audio_utils import ffmpeg_read
-from urllib.parse import urlparse, parse_qs
-import tempfile
-import time
-import os
 import numpy as np
 MODEL_NAME = "dataprizma/whisper-large-v3-turbo"
 BATCH_SIZE = 8
-FILE_LIMIT_MB = 1000
-YT_LENGTH_LIMIT_S = 3600  # 1 hour limit
 device = 0 if torch.cuda.is_available() else "cpu"
@@ -23,7 +15,6 @@ pipe = pipeline(
     chunk_length_s=9,
     device=device,
     model_kwargs={
-#        "torch_dtype": torch.float16,
         "attn_implementation": "eager"
     },
 )
@@ -35,38 +26,29 @@ def transcribe(audio_file):
     with open(audio_file, "rb") as f:
         audio_data = f.read()
-    audio_array = ffmpeg_read(audio_data, pipe.feature_extractor.sampling_rate)
     duration = len(audio_array) / pipe.feature_extractor.sampling_rate
     print(f"Audio duration: {duration:.2f} seconds")
-    inputs = {
-        "array": np.array(audio_array),
-        "sampling_rate": pipe.feature_extractor.sampling_rate
-    }
-    generate_kwargs = {
-        "task": "transcribe",
-        "no_speech_threshold": 0.4,
-        "logprob_threshold": -1.0,
-        "compression_ratio_threshold": 2.4
-    }
     result = pipe(
-        inputs,
         batch_size=BATCH_SIZE,
-        generate_kwargs=generate_kwargs,
-        return_timestamps=False
     )
-    return result["text"]
 demo = gr.Blocks()
 file_transcribe = gr.Interface(
     fn=transcribe,
-    inputs=[
-        gr.Audio(type="filepath", label="Audio file"),
-    ],
     outputs="text",
     title="Whisper Large V3: Transcribe Audio",
     description="Whisper Large V3 fine-tuned for Uzbek language by Dataprizma",

 import torch
 import gradio as gr
 from transformers import pipeline
 from transformers.pipelines.audio_utils import ffmpeg_read
 import numpy as np
 MODEL_NAME = "dataprizma/whisper-large-v3-turbo"
 BATCH_SIZE = 8
 device = 0 if torch.cuda.is_available() else "cpu"
     chunk_length_s=9,
     device=device,
     model_kwargs={
         "attn_implementation": "eager"
     },
 )
     with open(audio_file, "rb") as f:
         audio_data = f.read()
+    audio_array = ffmpeg_read(audio_data, sampling_rate=pipe.feature_extractor.sampling_rate)
     duration = len(audio_array) / pipe.feature_extractor.sampling_rate
     print(f"Audio duration: {duration:.2f} seconds")
     result = pipe(
+        inputs=audio_array,
         batch_size=BATCH_SIZE,
+        return_timestamps=False,
+        generate_kwargs={
+            "task": "transcribe",
+            "no_speech_threshold": 0.4,
+            "logprob_threshold": -1.0,
+            "compression_ratio_threshold": 2.4
+        }
     )
+    return result["text"] if isinstance(result, dict) else result
 demo = gr.Blocks()
 file_transcribe = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="filepath", label="Audio file"),
     outputs="text",
     title="Whisper Large V3: Transcribe Audio",
     description="Whisper Large V3 fine-tuned for Uzbek language by Dataprizma",