Spaces:

Omarrran
/

turkish_finetuned_speecht5_tts

Running

App Files Files Community

Omarrran commited on Oct 14, 2024

Commit

0085b92

verified ·

1 Parent(s): 622bd75

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -47

app.py CHANGED Viewed

@@ -46,27 +46,19 @@ def prepare_default_embedding(example):
 default_embedding = prepare_default_embedding(default_example)
 replacements = [
-    ("â", "a"),  # Long a
-    ("ç", "ch"),  # Ch as in "chair"
-    ("ğ", "gh"),  # Silent g or slight elongation of the preceding vowel
-    ("ı", "i"),   # Dotless i
-    ("î", "i"),   # Long i
-    ("ö", "oe"),  # Similar to German ö
-    ("ş", "sh"),  # Sh as in "shoe"
-    ("ü", "ue"),  # Similar to German ü
-    ("û", "u"),   # Long u
 ]
 number_words = {
     0: "sıfır", 1: "bir", 2: "iki", 3: "üç", 4: "dört", 5: "beş", 6: "altı", 7: "yedi", 8: "sekiz", 9: "dokuz",
-    10: "on", 11: "on bir", 12: "on iki", 13: "on üç", 14: "on dört", 15: "on beş", 16: "on altı", 17: "on yedi",
-    18: "on sekiz", 19: "on dokuz", 20: "yirmi", 30: "otuz", 40: "kırk", 50: "elli", 60: "altmış", 70: "yetmiş",
-    80: "seksen", 90: "doksan", 100: "yüz", 1000: "bin"
 }
 def number_to_words(number):
     if number < 20:
-        return number_words[number]
     elif number < 100:
         tens, unit = divmod(number, 10)
         return number_words[tens * 10] + (" " + number_words[unit] if unit else "")
@@ -76,60 +68,40 @@ def number_to_words(number):
     elif number < 1000000:
         thousands, remainder = divmod(number, 1000)
         return (number_to_words(thousands) + " bin" if thousands > 1 else "bin") + (" " + number_to_words(remainder) if remainder else "")
-    elif number < 1000000000:
-        millions, remainder = divmod(number, 1000000)
-        return number_to_words(millions) + " milyon" + (" " + number_to_words(remainder) if remainder else "")
-    elif number < 1000000000000:
-        billions, remainder = divmod(number, 1000000000)
-        return number_to_words(billions) + " milyar" + (" " + number_to_words(remainder) if remainder else "")
     else:
-        return str(number)
 def replace_numbers_with_words(text):
-    def replace(match):
-        number = int(match.group())
-        return number_to_words(number)
-    # Find the numbers and change with words.
-    result = re.sub(r'\b\d+\b', replace, text)
-    return result
 def normalize_text(text):
-    # Convert to lowercase
     text = text.lower()
-    # Replace numbers with words
     text = replace_numbers_with_words(text)
-    # Apply character replacements
     for old, new in replacements:
         text = text.replace(old, new)
-    # Remove punctuation
     text = re.sub(r'[^\w\s]', '', text)
     return text
 @spaces.GPU(duration=60)
 def text_to_speech(text, audio_file=None):
-    # Normalize the input text
     normalized_text = normalize_text(text)
-    # Prepare the input for the model
     inputs = processor(text=normalized_text, return_tensors="pt").to(device)
-    # Use the default speaker embedding
     speaker_embeddings = default_embedding
-    # Generate speech
     with torch.no_grad():
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings.unsqueeze(0), vocoder=vocoder)
     speech_np = speech.cpu().numpy()
     return (16000, speech_np)
 iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
@@ -138,8 +110,12 @@ iface = gr.Interface(
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy")
     ],
-    title=" fine-tuned Turkish SpeechT5 Text-to-Speech Demo",
-    description="Turkish_finetuned_speecht5_tts is a finetuned model based on is pre-trained base model of microsoft/speecht5_tts on text as well as speech inputs, Enter Turkish text, and listen to the generated speech."
 )
-iface.launch(share=True)

 default_embedding = prepare_default_embedding(default_example)
 replacements = [
+    ("â", "a"), ("ç", "ch"), ("ğ", "gh"), ("ı", "i"), ("î", "i"),
+    ("ö", "oe"), ("ş", "sh"), ("ü", "ue"), ("û", "u"),
 ]
 number_words = {
     0: "sıfır", 1: "bir", 2: "iki", 3: "üç", 4: "dört", 5: "beş", 6: "altı", 7: "yedi", 8: "sekiz", 9: "dokuz",
+    10: "on", 20: "yirmi", 30: "otuz", 40: "kırk", 50: "elli", 60: "altmış", 70: "yetmiş", 80: "seksen", 90: "doksan",
+    100: "yüz", 1000: "bin"
 }
 def number_to_words(number):
     if number < 20:
+        return number_words.get(number, str(number))
     elif number < 100:
         tens, unit = divmod(number, 10)
         return number_words[tens * 10] + (" " + number_words[unit] if unit else "")
     elif number < 1000000:
         thousands, remainder = divmod(number, 1000)
         return (number_to_words(thousands) + " bin" if thousands > 1 else "bin") + (" " + number_to_words(remainder) if remainder else "")
     else:
+        return str(number)  # For very large numbers, return as is
 def replace_numbers_with_words(text):
+    return re.sub(r'\b\d+\b', lambda m: number_to_words(int(m.group())), text)
 def normalize_text(text):
     text = text.lower()
     text = replace_numbers_with_words(text)
     for old, new in replacements:
         text = text.replace(old, new)
     text = re.sub(r'[^\w\s]', '', text)
     return text
 @spaces.GPU(duration=60)
 def text_to_speech(text, audio_file=None):
     normalized_text = normalize_text(text)
     inputs = processor(text=normalized_text, return_tensors="pt").to(device)
     speaker_embeddings = default_embedding
     with torch.no_grad():
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings.unsqueeze(0), vocoder=vocoder)
     speech_np = speech.cpu().numpy()
     return (16000, speech_np)
+# Add example Turkish sentences
+example_sentences = [
+    "Merhaba, nasılsın?",
+    "Bugün hava çok güzel. Merhaba, yapay zeka ve makine öğrenmesi konularında bilgisayar donanımı ve kodlama kullanarak veri bilimi ve algoritmalar üzerinde çalışıyorum, ayrıca CUDA teknolojisini de öğreniyorum, teşekkürler.",
+    "Türk kahvesi içmeyi seviyorum.",
+    "İstanbul Boğazı'nda yürüyüş yapmak harika."
+]
 iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy")
     ],
+    title="Fine-tuned Turkish SpeechT5 Text-to-Speech Demo",
+    description="This demo uses a fine-tuned model based on microsoft/speecht5_tts for Turkish text-to-speech. Enter Turkish text and listen to the generated speech."
+    Note:- This report was prepared as a task given by the IIT Roorkee PARIMAL intern program
+This space demonstrates the demo version of Omarrran/turkish_finetuned_speecht5_tts version for the turkish language.,
+    examples=example_sentences
 )
+iface.launch(share=True)