Spaces:

ayush2607
/

TTS

Runtime error

ayush2607 commited on Oct 19, 2024

Commit

717038c

verified ·

1 Parent(s): 04fe302

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,13 +2,13 @@ import gradio as gr
 import torch
 import os
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
-from datasets import load_dataset,Audio
 import numpy as np
 from speechbrain.inference import EncoderClassifier
 # Load models and processor
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-model = SpeechT5ForTextToSpeech.from_pretrained("ayush2607/speecht5_tts_technical_data")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 # Load speaker encoder
@@ -20,9 +20,15 @@ speaker_model = EncoderClassifier.from_hparams(
 )
 # Load a sample from the dataset for speaker embedding
-dataset = load_dataset("Yassmen/TTS_English_Technical_data", split="train")
-dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
-sample = dataset[0]
 def create_speaker_embedding(waveform):
     with torch.no_grad():
@@ -31,9 +37,6 @@ def create_speaker_embedding(waveform):
         speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
     return speaker_embeddings
-# Create a speaker embedding from the sample
-speaker_embedding = create_speaker_embedding(sample['audio']['array'])
 def text_to_speech(text):
     # Clean up text
     replacements = [

 import torch
 import os
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+from datasets import load_dataset, Audio
 import numpy as np
 from speechbrain.inference import EncoderClassifier
 # Load models and processor
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+model = SpeechT5ForTextToSpeech.from_pretrained("YOUR_FINE_TUNED_MODEL_PATH")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 # Load speaker encoder
 )
 # Load a sample from the dataset for speaker embedding
+try:
+    dataset = load_dataset("Yassmen/TTS_English_Technical_data", split="train")
+    dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
+    sample = dataset[0]
+    speaker_embedding = create_speaker_embedding(sample['audio']['array'])
+except Exception as e:
+    print(f"Error loading dataset: {e}")
+    # Use a random speaker embedding as fallback
+    speaker_embedding = torch.randn(1, 512)
 def create_speaker_embedding(waveform):
     with torch.no_grad():
         speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
     return speaker_embeddings
 def text_to_speech(text):
     # Clean up text
     replacements = [