Spaces:

pradeep4321
/

text2speech

Sleeping

App Files Files Community

pradeep4321 commited on May 19

Commit

d22d3f8

verified ·

1 Parent(s): b2cfb3e

Update src/app.py

Browse files

Files changed (1) hide show

src/app.py +60 -71

src/app.py CHANGED Viewed

@@ -1,74 +1,63 @@
 import streamlit as st
-from docx import Document
-from PyPDF2 import PdfReader
-from io import BytesIO
-import torch
-import torchaudio
-import soundfile as sf
-from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
-# Load TTS model and processor
 @st.cache_resource
-def load_model():
-    model = AutoModelForSpeechSeq2Seq.from_pretrained("espnet/kan-bayashi_ljspeech_vits")
-    processor = AutoProcessor.from_pretrained("espnet/kan-bayashi_ljspeech_vits")
-    return model, processor
-def convert_docx_to_text(docx_file):
-    doc = Document(docx_file)
-    return "\n".join([p.text for p in doc.paragraphs])
-def convert_pdf_to_text(pdf_file):
-    reader = PdfReader(pdf_file)
-    return "\n".join([page.extract_text() or '' for page in reader.pages])
-def text_to_speech(text, model, processor):
-    inputs = processor(text, return_tensors="pt")
-    with torch.no_grad():
-        speech = model.generate(**inputs)
-    waveform = speech.squeeze().cpu().numpy()
-    buffer = BytesIO()
-    sf.write(buffer, waveform, 22050, format="WAV")
-    buffer.seek(0)
-    return buffer
-def get_download_link(audio_buffer, filename="output.wav"):
-    b64 = st.base64.b64encode(audio_buffer.getvalue()).decode()
-    href = f'<a href="data:audio/wav;base64,{b64}" download="{filename}">Download {filename}</a>'
-    return href
-def main():
-    st.title("Text to Speech with Transformers (Offline Hugging Face)")
-    uploaded_file = st.file_uploader("Upload a TXT, DOCX, or PDF file", type=["txt", "docx", "pdf"])
-    if uploaded_file:
-        ext = uploaded_file.name.split('.')[-1].lower()
-        if ext == 'txt':
-            text = uploaded_file.read().decode("utf-8")
-        elif ext == 'docx':
-            text = convert_docx_to_text(uploaded_file)
-        elif ext == 'pdf':
-            text = convert_pdf_to_text(uploaded_file)
-        else:
-            st.error("Unsupported file type")
-            return
-        if not text.strip():
-            st.warning("No readable text found.")
-            return
-        st.subheader("Extracted Text:")
-        st.write(text[:1000] + ("..." if len(text) > 1000 else ""))
-        with st.spinner("Generating audio..."):
-            model, processor = load_model()
-            audio_buffer = text_to_speech(text, model, processor)
-        st.audio(audio_buffer, format="audio/wav")
-        st.markdown(get_download_link(audio_buffer), unsafe_allow_html=True)
-if __name__ == "__main__":
-    main()

 import streamlit as st
+from TTS.api import TTS
+import tempfile
+import os
+# Initialize TTS model (only once)
 @st.cache_resource
+def load_tts_model():
+    return TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
+tts = load_tts_model()
+# App title
+st.title("🔊 Voice Cloning with XTTS v2")
+# Text input
+text_input = st.text_area("Enter the text you want to synthesize", height=150)
+# Speaker file uploader
+speaker_file = st.file_uploader("Upload a speaker WAV file", type=["wav"])
+# Button to generate
+if st.button("Generate Speech"):
+    if not text_input:
+        st.error("Please enter text.")
+    elif not speaker_file:
+        st.error("Please upload a speaker WAV file.")
+    else:
+        try:
+            with st.spinner("Generating voice..."):
+                # Save uploaded speaker audio temporarily
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as speaker_temp:
+                    speaker_temp.write(speaker_file.read())
+                    speaker_path = speaker_temp.name
+                # Temporary file to store output
+                output_path = os.path.join(tempfile.gettempdir(), "output.wav")
+                # Generate speech
+                tts.tts_to_file(
+                    text=text_input,
+                    file_path=output_path,
+                    speaker_wav=speaker_path,
+                    language="en"
+                )
+                # Playback
+                st.audio(output_path, format="audio/wav")
+                # Download link
+                with open(output_path, "rb") as f:
+                    st.download_button(
+                        label="Download Audio",
+                        data=f,
+                        file_name="cloned_voice.wav",
+                        mime="audio/wav"
+                    )
+                # Clean up
+                os.remove(speaker_path)
+        except Exception as e:
+            st.error(f"An error occurred: {e}")