Spaces:

KIMOSSINO
/

multilingual

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 7, 2024

Commit

f5001e3

verified ·

1 Parent(s): 85fbbb4

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -22

app.py CHANGED Viewed

@@ -1,35 +1,38 @@
 import gradio as gr
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import torch
-import librosa
 import numpy as np
 from scipy.io.wavfile import write
 # تحميل النماذج والمُعالج
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-# تعيين القيم الافتراضية لمتغيرات الصوت
 LANGUAGES = {"English": "en", "French": "fr", "Spanish": "es"}
 def generate_speaker_embedding(speaker_type):
-    """توليد تعبيرات الصوت بناءً على النوع"""
     base_embedding = torch.randn(1, 512)
     if speaker_type == "Female":
         return base_embedding * 0.8
-    else:  # Male
-        return base_embedding * 1.2
-def adjust_speed(audio, speed):
-    """تعديل سرعة الصوت باستخدام مكتبة librosa"""
-    if speed == 1.0:
-        return audio
     return librosa.effects.time_stretch(audio, speed)
 def text_to_speech(text, language, speaker_type, speed):
     try:
-        # إنشاء تعبيرات الصوت
         speaker_embeddings = generate_speaker_embedding(speaker_type)
         # معالجة النص
@@ -37,25 +40,26 @@ def text_to_speech(text, language, speaker_type, speed):
         # توليد الصوت
         generated_speech = model.generate_speech(
-            inputs["input_ids"],
-            speaker_embeddings,
             vocoder=vocoder
         ).cpu().numpy()
-        # ضبط سرعة الصوت
         adjusted_speech = adjust_speed(generated_speech, speed)
-        # تحويل الصوت إلى ملف WAV
         output_file = "output.wav"
-        write(output_file, 24000, adjusted_speech.astype(np.float32))
         return output_file
     except Exception as e:
-        return f"Error: {str(e)}"
 # إنشاء واجهة Gradio
 def create_interface():
-    with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue")) as demo:
         gr.Markdown("# 🎙️ Multilingual Text-to-Speech")
         with gr.Row():
@@ -64,7 +68,7 @@ def create_interface():
                 language = gr.Dropdown(choices=list(LANGUAGES.keys()), value="English", label="Language")
                 speaker = gr.Radio(choices=["Male", "Female"], value="Male", label="Speaker Gender")
                 speed = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed")
-                submit_btn = gr.Button("Generate Speech", variant="primary")
             with gr.Column():
                 audio_output = gr.Audio(label="Generated Speech", type="filepath")
@@ -77,12 +81,13 @@ def create_interface():
         gr.Markdown("""
         ### Features:
-        - Multilingual support: English, French, and Spanish.
-        - Male and Female voice options.
-        - Adjustable speech speed.
-        - High-quality, natural-sounding voices.
         """)
     return demo
 demo = create_interface()
 demo.launch()

 import gradio as gr
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import torch
 import numpy as np
 from scipy.io.wavfile import write
+import librosa
 # تحميل النماذج والمُعالج
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 LANGUAGES = {"English": "en", "French": "fr", "Spanish": "es"}
 def generate_speaker_embedding(speaker_type):
+    """
+    توليد تعبيرات الصوت بناءً على نوع الصوت (ذكر أو أنثى).
+    """
     base_embedding = torch.randn(1, 512)
     if speaker_type == "Female":
         return base_embedding * 0.8
+    return base_embedding * 1.2
+def adjust_speed(audio, speed, sampling_rate=24000):
+    """
+    تعديل سرعة الصوت باستخدام مكتبة librosa.
+    """
     return librosa.effects.time_stretch(audio, speed)
 def text_to_speech(text, language, speaker_type, speed):
+    """
+    تحويل النص إلى صوت.
+    """
     try:
+        # توليد تعبيرات الصوت بناءً على نوع المتحدث
         speaker_embeddings = generate_speaker_embedding(speaker_type)
         # معالجة النص
         # توليد الصوت
         generated_speech = model.generate_speech(
+            inputs["input_ids"],
+            speaker_embeddings,
             vocoder=vocoder
         ).cpu().numpy()
+        # تعديل سرعة الصوت
         adjusted_speech = adjust_speed(generated_speech, speed)
+        # حفظ الصوت كملف WAV
         output_file = "output.wav"
+        write(output_file, 24000, (adjusted_speech * 32767).astype(np.int16))
         return output_file
     except Exception as e:
+        print(f"Error: {e}")
+        return None
 # إنشاء واجهة Gradio
 def create_interface():
+    with gr.Blocks() as demo:
         gr.Markdown("# 🎙️ Multilingual Text-to-Speech")
         with gr.Row():
                 language = gr.Dropdown(choices=list(LANGUAGES.keys()), value="English", label="Language")
                 speaker = gr.Radio(choices=["Male", "Female"], value="Male", label="Speaker Gender")
                 speed = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed")
+                submit_btn = gr.Button("Generate Speech")
             with gr.Column():
                 audio_output = gr.Audio(label="Generated Speech", type="filepath")
         gr.Markdown("""
         ### Features:
+        - Multilingual support (English, French, Spanish)
+        - Male and Female voice options
+        - Adjustable speech speed
+        - High-quality, natural-sounding voices
         """)
     return demo
+# تشغيل التطبيق
 demo = create_interface()
 demo.launch()