Spaces:

hackergeek98
/

tinyyy

Sleeping

App Files Files Community

hackergeek commited on Mar 23

Commit

515cf0d

verified ·

1 Parent(s): 4929bfc

Create app.py

Browse files

Files changed (1) hide show

app.py +22 -17

app.py CHANGED Viewed

@@ -3,39 +3,44 @@ from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
 import librosa
-# Load the fine-tuned Whisper model and processor
 model_name = "hackergeek98/tinyyyy_whisper"
 processor = WhisperProcessor.from_pretrained(model_name)
 model = WhisperForConditionalGeneration.from_pretrained(model_name)
-# Move model to GPU if available
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-# Define the ASR function
 def transcribe_audio(audio_file):
-    # Load audio file using librosa (supports multiple formats)
-    audio_data, sampling_rate = librosa.load(audio_file, sr=16000)  # Resample to 16kHz
-    # Preprocess the audio
-    inputs = processor(audio_data, sampling_rate=sampling_rate, return_tensors="pt").input_features.to(device)
-    # Generate transcription
     with torch.no_grad():
-        predicted_ids = model.generate(inputs)
-    # Decode the transcription
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
     return transcription
-# Create the Gradio interface
 interface = gr.Interface(
-    fn=transcribe_audio,  # Function to call
-    inputs=gr.Audio(type="filepath"),  # Input: Upload audio file (any format)
-    outputs=gr.Textbox(label="Transcription"),  # Output: Display transcription
-    title="Whisper ASR: Tinyyyy Model",
-    description="Upload an audio file (e.g., .wav, .mp3, .ogg), and the fine-tuned Whisper model will transcribe it.",
 )
-# Launch the app
 interface.launch()

 import torch
 import librosa
+# بارگیری مدل و پردازنده
 model_name = "hackergeek98/tinyyyy_whisper"
 processor = WhisperProcessor.from_pretrained(model_name)
 model = WhisperForConditionalGeneration.from_pretrained(model_name)
+# انتقال مدل به GPU اگر موجود باشد
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
+# تنظیم شناسه‌های اجباری برای زبان فارسی
+forced_decoder_ids = processor.get_decoder_prompt_ids(language="fa", task="transcribe")
 def transcribe_audio(audio_file):
+    # بارگیری فایل صوتی و نمونه‌برداری مجدد
+    audio_data, sampling_rate = librosa.load(audio_file, sr=16000)
+    # پیش‌پردازش
+    inputs = processor(audio_data, sampling_rate=samning_rate, return_tensors="pt").input_features.to(device)
+    # تولید متن با اجبار به زبان فارسی
     with torch.no_grad():
+        predicted_ids = model.generate(
+            inputs,
+            forced_decoder_ids=forced_decoder_ids
+        )
+    # رمزگشایی خروجی
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
     return transcription
+# ایجاد رابط Gradio
 interface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(type="filepath"),
+    outputs=gr.Textbox(label="متن فارسی"),
+    title="تبدیل گفتار به متن فارسی",
+    description="فایل صوتی فارسی آپلود کنید (فرمت‌های wav, mp3, ...)"
 )
+# اجرای برنامه
 interface.launch()