Spaces:

KIMOSSINO
/

multilingual

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 7, 2024

Commit

b8b580d

verified ·

1 Parent(s): 16e8067

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -84

app.py CHANGED Viewed

@@ -1,118 +1,87 @@
 import gradio as gr
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import torch
-import scipy
-# Load models and processor
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-# Speaker embeddings
-speaker_embeddings = torch.randn(1, 512)  # Random speaker embedding
-LANGUAGES = {
-    "English": "en",
-    "French": "fr",
-    "Spanish": "es"
-}
 def text_to_speech(text, language, speaker_type, speed):
     try:
-        # Adjust speaker embeddings based on speaker type
-        if speaker_type == "Female":
-            speaker_embeddings = torch.randn(1, 512) * 0.8
-        else:
-            speaker_embeddings = torch.randn(1, 512) * 1.2
-        # Process input text
         inputs = processor(text=text, return_tensors="pt")
-        # Generate speech
-        speech = model.generate_speech(
-            inputs["input_ids"],
-            speaker_embeddings,
             vocoder=vocoder
-        )
-        # Adjust speed
-        if speed != 1.0:
-            speech = torch.nn.functional.interpolate(
-                speech.unsqueeze(0).unsqueeze(0),
-                scale_factor=1/speed,
-                mode='linear',
-                align_corners=False
-            ).squeeze()
-        # Convert to numpy array
-        speech = speech.numpy()
-        return (24000, speech)  # 24kHz sampling rate
     except Exception as e:
-        print(f"Error in text_to_speech: {str(e)}")
-        return None
-# Create Gradio interface
 def create_interface():
-    with gr.Blocks(theme=gr.themes.Soft(
-        primary_hue="blue",
-        secondary_hue="gray",
-    )) as demo:
-        gr.Markdown(
-            """
-            # 🎙️ Multilingual Text-to-Speech
-            Convert text to natural-sounding speech in multiple languages.
-            """
-        )
         with gr.Row():
             with gr.Column():
-                text_input = gr.Textbox(
-                    label="Enter Text",
-                    placeholder="Type your text here...",
-                    lines=5
-                )
-                language = gr.Dropdown(
-                    choices=list(LANGUAGES.keys()),
-                    value="English",
-                    label="Language"
-                )
-                speaker = gr.Radio(
-                    choices=["Male", "Female"],
-                    value="Male",
-                    label="Speaker Gender"
-                )
-                speed = gr.Slider(
-                    minimum=0.5,
-                    maximum=2.0,
-                    value=1.0,
-                    step=0.1,
-                    label="Speech Speed"
-                )
                 submit_btn = gr.Button("Generate Speech", variant="primary")
             with gr.Column():
-                audio_output = gr.Audio(
-                    label="Generated Speech",
-                    type="numpy"
-                )
         submit_btn.click(
             fn=text_to_speech,
             inputs=[text_input, language, speaker, speed],
             outputs=audio_output
         )
-        gr.Markdown(
-            """
-            ### Features:
-            - Support for English, French, and Spanish
-            - Male and Female voice options
-            - Adjustable speech speed
-            - High-quality, natural-sounding voices
-            """
-        )
     return demo
 demo = create_interface()

 import gradio as gr
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import torch
+import librosa
+import numpy as np
+from scipy.io.wavfile import write
+# تحميل النماذج والمُعالج
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+# تعيين القيم الافتراضية لمتغيرات الصوت
+LANGUAGES = {"English": "en", "French": "fr", "Spanish": "es"}
+def generate_speaker_embedding(speaker_type):
+    """توليد تعبيرات الصوت بناءً على النوع"""
+    base_embedding = torch.randn(1, 512)
+    if speaker_type == "Female":
+        return base_embedding * 0.8
+    else:  # Male
+        return base_embedding * 1.2
+def adjust_speed(audio, speed):
+    """تعديل سرعة الصوت باستخدام مكتبة librosa"""
+    if speed == 1.0:
+        return audio
+    return librosa.effects.time_stretch(audio, speed)
 def text_to_speech(text, language, speaker_type, speed):
     try:
+        # إنشاء تعبيرات الصوت
+        speaker_embeddings = generate_speaker_embedding(speaker_type)
+        # معالجة النص
         inputs = processor(text=text, return_tensors="pt")
+        # توليد الصوت
+        generated_speech = model.generate_speech(
+            inputs["input_ids"],
+            speaker_embeddings,
             vocoder=vocoder
+        ).cpu().numpy()
+        # ضبط سرعة الصوت
+        adjusted_speech = adjust_speed(generated_speech, speed)
+        # تحويل الصوت إلى ملف WAV
+        output_file = "output.wav"
+        write(output_file, 24000, adjusted_speech.astype(np.float32))
+        return output_file
     except Exception as e:
+        return f"Error: {str(e)}"
+# إنشاء واجهة Gradio
 def create_interface():
+    with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue")) as demo:
+        gr.Markdown("# 🎙️ Multilingual Text-to-Speech")
         with gr.Row():
             with gr.Column():
+                text_input = gr.Textbox(label="Enter Text", placeholder="Type your text here...", lines=5)
+                language = gr.Dropdown(choices=list(LANGUAGES.keys()), value="English", label="Language")
+                speaker = gr.Radio(choices=["Male", "Female"], value="Male", label="Speaker Gender")
+                speed = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed")
                 submit_btn = gr.Button("Generate Speech", variant="primary")
             with gr.Column():
+                audio_output = gr.Audio(label="Generated Speech", type="filepath")
         submit_btn.click(
             fn=text_to_speech,
             inputs=[text_input, language, speaker, speed],
             outputs=audio_output
         )
+        gr.Markdown("""
+        ### Features:
+        - Multilingual support: English, French, and Spanish.
+        - Male and Female voice options.
+        - Adjustable speech speed.
+        - High-quality, natural-sounding voices.
+        """)
     return demo
 demo = create_interface()