whisper-asr-uz

Running

App Files Files Community

mrmuminov commited on May 1

Commit

270cde7

verified ·

1 Parent(s): 31a57d8

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -16

app.py CHANGED Viewed

@@ -10,16 +10,13 @@ import time
 import os
 import numpy as np
-# Constants
 MODEL_NAME = "dataprizma/whisper-large-v3-turbo"
 BATCH_SIZE = 8
 FILE_LIMIT_MB = 1000
 YT_LENGTH_LIMIT_S = 3600  # 1 hour limit
-# Device selection
 device = 0 if torch.cuda.is_available() else "cpu"
-# Load Whisper pipeline
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
@@ -31,35 +28,29 @@ pipe = pipeline(
     },
 )
-# Transcription function (Fix applied)
-def transcribe(audio_file, task):
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting.")
-    # Open file as binary to ensure correct data type
     with open(audio_file, "rb") as f:
         audio_data = f.read()
-    # Read audio using ffmpeg_read (correcting input format)
     audio_array = ffmpeg_read(audio_data, pipe.feature_extractor.sampling_rate)
     duration = len(audio_array) / pipe.feature_extractor.sampling_rate
     print(f"Audio duration: {duration:.2f} seconds")
-    # Convert to proper format
     inputs = {
         "array": np.array(audio_array),
         "sampling_rate": pipe.feature_extractor.sampling_rate
     }
     generate_kwargs = {
-        "task": task,
-        "no_speech_threshold": 0.3,
         "logprob_threshold": -1.0,
         "compression_ratio_threshold": 2.4
     }
-    # Perform transcription
     result = pipe(
         inputs,
         batch_size=BATCH_SIZE,
@@ -69,19 +60,16 @@ def transcribe(audio_file, task):
     return result["text"]
-# Gradio UI
 demo = gr.Blocks()
 file_transcribe = gr.Interface(
     fn=transcribe,
     inputs=[
         gr.Audio(type="filepath", label="Audio file"),
-        gr.Radio(["transcribe", "translate"], label="Task"),
     ],
     outputs="text",
     title="Whisper Large V3: Transcribe Audio",
     description="Whisper Large V3 fine-tuned for Uzbek language by Dataprizma",
-    flagging_mode="never",
 )
 with demo:

 import os
 import numpy as np
 MODEL_NAME = "dataprizma/whisper-large-v3-turbo"
 BATCH_SIZE = 8
 FILE_LIMIT_MB = 1000
 YT_LENGTH_LIMIT_S = 3600  # 1 hour limit
 device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     },
 )
+def transcribe(audio_file):
     if audio_file is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting.")
     with open(audio_file, "rb") as f:
         audio_data = f.read()
     audio_array = ffmpeg_read(audio_data, pipe.feature_extractor.sampling_rate)
     duration = len(audio_array) / pipe.feature_extractor.sampling_rate
     print(f"Audio duration: {duration:.2f} seconds")
     inputs = {
         "array": np.array(audio_array),
         "sampling_rate": pipe.feature_extractor.sampling_rate
     }
     generate_kwargs = {
+        "task": "transcribe",
+        "no_speech_threshold": 0.4,
         "logprob_threshold": -1.0,
         "compression_ratio_threshold": 2.4
     }
     result = pipe(
         inputs,
         batch_size=BATCH_SIZE,
     return result["text"]
 demo = gr.Blocks()
 file_transcribe = gr.Interface(
     fn=transcribe,
     inputs=[
         gr.Audio(type="filepath", label="Audio file"),
     ],
     outputs="text",
     title="Whisper Large V3: Transcribe Audio",
     description="Whisper Large V3 fine-tuned for Uzbek language by Dataprizma",
 )
 with demo: