Spaces:

wifix199
/

Text_to_speech_LuminaIQ

Sleeping

App Files Files Community

wifix199 commited on Sep 13, 2024

Commit

6e05b44

verified ·

1 Parent(s): 0c2166a

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -45

app.py CHANGED Viewed

@@ -1,53 +1,52 @@
 import gradio as gr
-import numpy as np
-import torch
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
-# Load the model and vocoder
-checkpoint = "microsoft/speecht5_tts"
-processor = SpeechT5Processor.from_pretrained(checkpoint)
-model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
-vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-# Speaker embeddings for male and female
-speaker_embeddings = {
-    "male": "speaker/cmu_us_bdl_arctic-wav-arctic_a0009.npy",
-    "female": "speaker/cmu_us_slt_arctic-wav-arctic_a0508.npy"
-}
-# Function to generate speech
-def text_to_speech(text, gender):
-    if len(text.strip()) == 0:
-        return (16000, np.zeros(0).astype(np.int16))
-    inputs = processor(text=text, return_tensors="pt")
-    # Truncate input if too long
-    input_ids = inputs["input_ids"]
-    input_ids = input_ids[..., :model.config.max_text_positions]
-    # Load speaker embedding based on gender selection
-    speaker_embedding_path = speaker_embeddings[gender]
-    speaker_embedding = np.load(speaker_embedding_path)
-    speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
-    # Generate speech
-    speech = model.generate_speech(input_ids, speaker_embedding, vocoder=vocoder)
-    speech = (speech.numpy() * 32767).astype(np.int16)
-    return (16000, speech)
-# Create the Gradio interface
 iface = gr.Interface(
-    fn=text_to_speech,
     inputs=[
-        gr.Textbox(label="Enter Text"),
-        gr.Radio(["male", "female"], label="Select Voice Gender")  # Gender selection
     ],
-    outputs=gr.Audio(label="Generated Speech"),
-    title="Text-to-Speech Bot",
-    description="Enter text and select a voice gender to generate speech."
 )
-# Launch the interface
 iface.launch()

 import gradio as gr
+from gtts import gTTS
+from pydub import AudioSegment
+import tempfile
+import os
+def generate_tts(text, language, pitch_shift):
+    tts = gTTS(text=text, lang=language)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as temp_file:
+        tts.save(temp_file.name)
+        temp_file_path = temp_file.name
+    try:
+        audio = AudioSegment.from_file(temp_file_path, format="mp3")
+    except Exception as e:
+        print(f"Error loading audio file: {e}")
+        return None
+    # Apply pitch shifting (more pronounced)
+    if pitch_shift:
+        audio = audio._spawn(audio.raw_data, overrides={"frame_rate": int(audio.frame_rate * 0.8)})
+        audio = audio.set_frame_rate(44100)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as out_file:
+        audio.export(out_file.name, format="mp3")
+        out_file_path = out_file.name
+    os.remove(temp_file_path)
+    return out_file_path
+def chatbot(text, language, male_voice):
+    output_audio_path = generate_tts(text, language, male_voice)
+    if output_audio_path is None:
+        return "Error generating audio"
+    return output_audio_path
 iface = gr.Interface(
+    fn=chatbot,
     inputs=[
+        gr.Textbox(label="Enter your text"),
+        gr.Dropdown(label="Select Language", choices=["en", "es", "fr", "de", "it", "hi"], value="en"),
+        gr.Checkbox(label="Male Voice", value=True)
     ],
+    outputs=gr.Audio(label="Generated Audio"),
+    live=True,
+    title="Text-to-Speech AI Chatbot",
+    description="Generate speech with different languages and voice options."
 )
 iface.launch()