Spaces:

saidivyesh
/

tts

Sleeping

App Files Files Community

saidivyesh commited on Oct 19, 2024

Commit

5a0870e

verified ·

1 Parent(s): 0117888

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -32

app.py CHANGED Viewed

@@ -25,16 +25,13 @@ def load_models_and_data():
     )
     # Load a sample from a dataset for default embedding
-    dataset = load_dataset("ylacombe/english_dialects ", split="train")
     example = dataset[304]
     return model, processor, vocoder, speaker_model, example
 model, processor, vocoder, speaker_model, default_example = load_models_and_data()
-# Choose the language dynamically (English or Regional Language)
-model, processor, vocoder, speaker_model, default_example = load_models_and_data(language="en")
 def create_speaker_embedding(waveform):
     with torch.no_grad():
         speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform).unsqueeze(0).to(device))
@@ -48,41 +45,76 @@ def prepare_default_embedding(example):
 default_embedding = prepare_default_embedding(default_example)
-# Text normalization updates for English technical speech
-technical_replacements = [
-    # Common technical replacements (examples)
-    ("HTTP", "H T T P"),
-    ("AI", "A I"),
-    # Add more technical abbreviations as needed
 ]
-def normalize_text(text, language="en"):
     text = text.lower()
-    # Handle language-specific normalization
-    if language == "en":
-        # Replace technical terms or symbols
-        for old, new in technical_replacements:
-            text = text.replace(old, new)
-    # For regional language, include character replacements like the Turkish example
-    if language != "en":
-        replacements = [
-            # Character mappings for regional languages (like the Turkish example)
-            # Add region/language-specific character normalization here
-        ]
-        for old, new in replacements:
-            text = text.replace(old, new)
-    # Remove punctuation or handle them contextually for technical speech
     text = re.sub(r'[^\w\s]', '', text)
     return text
 @spaces.GPU(duration=60)
-def text_to_speech(text, audio_file=None, language="en"):
     # Normalize the input text
-    normalized_text = normalize_text(text, language=language)
     # Prepare the input for the model
     inputs = processor(text=normalized_text, return_tensors="pt").to(device)
@@ -101,14 +133,13 @@ def text_to_speech(text, audio_file=None, language="en"):
 iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
-        gr.Textbox(label="Enter text to convert to speech"),
-        gr.Dropdown(label="Language", choices=["English Technical", "Regional"], value="English Technical")
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy")
     ],
-    title="Fine-Tuned TTS for Technical English and Regional Languages",
-    description="Enter text, choose the language, and listen to the generated speech."
 )
-iface.launch(share=True)

     )
     # Load a sample from a dataset for default embedding
+    dataset = load_dataset("ylacombe/english_dialects","southern_male", split="train")
     example = dataset[304]
     return model, processor, vocoder, speaker_model, example
 model, processor, vocoder, speaker_model, default_example = load_models_and_data()
 def create_speaker_embedding(waveform):
     with torch.no_grad():
         speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform).unsqueeze(0).to(device))
 default_embedding = prepare_default_embedding(default_example)
+replacements = [
+    ("â", "a"),  # Long a
+    ("ç", "ch"),  # Ch as in "chair"
+    ("ğ", "gh"),  # Silent g or slight elongation of the preceding vowel
+    ("ı", "i"),   # Dotless i
+    ("î", "i"),   # Long i
+    ("ö", "oe"),  # Similar to German ö
+    ("ş", "sh"),  # Sh as in "shoe"
+    ("ü", "ue"),  # Similar to German ü
+    ("û", "u"),   # Long u
 ]
+number_words = {
+    0: "sıfır", 1: "bir", 2: "iki", 3: "üç", 4: "dört", 5: "beş", 6: "altı", 7: "yedi", 8: "sekiz", 9: "dokuz",
+    10: "on", 11: "on bir", 12: "on iki", 13: "on üç", 14: "on dört", 15: "on beş", 16: "on altı", 17: "on yedi",
+    18: "on sekiz", 19: "on dokuz", 20: "yirmi", 30: "otuz", 40: "kırk", 50: "elli", 60: "altmış", 70: "yetmiş",
+    80: "seksen", 90: "doksan", 100: "yüz", 1000: "bin"
+}
+def number_to_words(number):
+    if number < 20:
+        return number_words[number]
+    elif number < 100:
+        tens, unit = divmod(number, 10)
+        return number_words[tens * 10] + (" " + number_words[unit] if unit else "")
+    elif number < 1000:
+        hundreds, remainder = divmod(number, 100)
+        return (number_words[hundreds] + " yüz" if hundreds > 1 else "yüz") + (" " + number_to_words(remainder) if remainder else "")
+    elif number < 1000000:
+        thousands, remainder = divmod(number, 1000)
+        return (number_to_words(thousands) + " bin" if thousands > 1 else "bin") + (" " + number_to_words(remainder) if remainder else "")
+    elif number < 1000000000:
+        millions, remainder = divmod(number, 1000000)
+        return number_to_words(millions) + " milyon" + (" " + number_to_words(remainder) if remainder else "")
+    elif number < 1000000000000:
+        billions, remainder = divmod(number, 1000000000)
+        return number_to_words(billions) + " milyar" + (" " + number_to_words(remainder) if remainder else "")
+    else:
+        return str(number)
+def replace_numbers_with_words(text):
+    def replace(match):
+        number = int(match.group())
+        return number_to_words(number)
+    # Find the numbers and change with words.
+    result = re.sub(r'\b\d+\b', replace, text)
+    return result
+def normalize_text(text):
+    # Convert to lowercase
     text = text.lower()
+    # Replace numbers with words
+    text = replace_numbers_with_words(text)
+    # Apply character replacements
+    for old, new in replacements:
+        text = text.replace(old, new)
+    # Remove punctuation
     text = re.sub(r'[^\w\s]', '', text)
     return text
 @spaces.GPU(duration=60)
+def text_to_speech(text, audio_file=None):
     # Normalize the input text
+    normalized_text = normalize_text(text)
     # Prepare the input for the model
     inputs = processor(text=normalized_text, return_tensors="pt").to(device)
 iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
+        gr.Textbox(label="Enter English text to convert to speech")
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy")
     ],
+    title="English SpeechT5 Text-to-Speech Demo",
+    description="Enter English text, and listen to the generated speech."
 )
+iface.launch(share=True)