Spaces:

goooofy
/

zerovox-demo

Running

App Files Files Community

Guenter Bartsch commited on Oct 21, 2024

Commit

a2d19e9

1 Parent(s): b8c03ff

custom voice option added

Browse files

Files changed (2) hide show

app.py +60 -16
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,4 +1,6 @@
 import time
 import streamlit as st
@@ -9,6 +11,9 @@ SAMPLE_RATE=24000 # FIXME
 DEFAULT_SPEAKER = 'en_speaker_00061.wav'
 if "text" not in st.session_state:
     st.session_state.text = "Welcome to the world of speech synthesis!"
@@ -18,6 +23,15 @@ if "message" not in st.session_state:
 if "autoplay" not in st.session_state:
     st.session_state.autoplay = False
 def update_text_input():
     global text
     if st.session_state['lang'] == "en":
@@ -28,8 +42,7 @@ def update_text_input():
 def do_synth():
-    global lang, status, speakerref, playback, meldec
     synth = None
     if 'synth' in st.session_state:
@@ -38,9 +51,9 @@ def do_synth():
         if synth.meldec_model != st.session_state['meldec']:
             synth = None # trigger reload
         else:
-            if synth.language != lang:
-                status.update(label=f"loading the lexicon for {lang} ...", state="running")
-                synth.language = lang
     if not synth:
@@ -62,7 +75,12 @@ def do_synth():
     status.update(label="computing speaker embedding...", state="running")
-    spkemb = synth.speaker_embed(ZeroVoxTTS.get_speakerref(speakerref, modelcfg['audio']['sampling_rate']))
     status.update(label="synthesizing...", state="running")
@@ -86,21 +104,40 @@ def do_synth():
     st.session_state.autoplay = True
     #playback.audio(wav, sample_rate=SAMPLE_RATE)
 st.markdown("# ZeroVOX TTS Demo\n\nZeroVOX is a zero-shot realtime TTS system, fully offline, free and open source.\n\nFor more information, check out\n[https://github.com/gooofy/zerovox](https://github.com/gooofy/zerovox)\n")
-tab1, tab2 = st.tabs(["Settings", "MEL Decoder"])
 with tab1:
-    lang = st.selectbox("Language",
-                        ["en", "de"],
-                        on_change=update_text_input,
-                        key='lang')
-    speakers = [s for s in ZeroVoxTTS.available_speakerrefs()]
-    speakerref = st.selectbox("Voice sample", speakers, index=speakers.index(DEFAULT_SPEAKER))
-    st.audio(ZeroVoxTTS.get_speakerref(speakerref, SAMPLE_RATE), sample_rate=SAMPLE_RATE)
 with tab2:
     meldec = st.selectbox("MEL decoder",
@@ -110,8 +147,15 @@ with tab2:
 status = st.status(st.session_state.message, state="complete")
-#text = st.text_input("Text to synthesize", value=st.session_state.text, key='text', on_change=do_synth)
-text = st.text_input("Text to synthesize", key='text', on_change=do_synth)
 st.button("Synthesize!", type="primary", on_click=do_synth)

+import tempfile
 import time
+import librosa
 import streamlit as st
 DEFAULT_SPEAKER = 'en_speaker_00061.wav'
+if "lang" not in st.session_state:
+    st.session_state.lang = "en"
 if "text" not in st.session_state:
     st.session_state.text = "Welcome to the world of speech synthesis!"
 if "autoplay" not in st.session_state:
     st.session_state.autoplay = False
+if "speakerref" not in st.session_state:
+    st.session_state.speakerref = DEFAULT_SPEAKER
+if "custom_voice" not in st.session_state:
+    st.session_state.custom_voice = False
+if "voice_wav" not in st.session_state:
+    st.session_state.voice_wav = None
 def update_text_input():
     global text
     if st.session_state['lang'] == "en":
 def do_synth():
+    global status, playback, meldec
     synth = None
     if 'synth' in st.session_state:
         if synth.meldec_model != st.session_state['meldec']:
             synth = None # trigger reload
         else:
+            if synth.language != st.session_state.lang:
+                status.update(label=f"loading the lexicon for {st.session_state.lang} ...", state="running")
+                synth.language = st.session_state.lang
     if not synth:
     status.update(label="computing speaker embedding...", state="running")
+    if not st.session_state.custom_voice or st.session_state.voice_wav is None:
+        speakerref = ZeroVoxTTS.get_speakerref(st.session_state.speakerref, modelcfg['audio']['sampling_rate'])
+    else:
+        speakerref = st.session_state.voice_wav
+    spkemb = synth.speaker_embed(speakerref)
     status.update(label="synthesizing...", state="running")
     st.session_state.autoplay = True
     #playback.audio(wav, sample_rate=SAMPLE_RATE)
+st.set_page_config(page_title="ZeroVOX TTS Demo", page_icon=':speech_balloon:', layout="centered", initial_sidebar_state="auto", menu_items=None)
 st.markdown("# ZeroVOX TTS Demo\n\nZeroVOX is a zero-shot realtime TTS system, fully offline, free and open source.\n\nFor more information, check out\n[https://github.com/gooofy/zerovox](https://github.com/gooofy/zerovox)\n")
+tab1, tab2 = st.tabs(["Voice", "MEL Decoder"])
 with tab1:
+    st.checkbox("Custom voice", key='custom_voice')
+    speakerref = st.empty()
+    if st.session_state.custom_voice:
+        # Create a file uploader that accepts only .wav files
+        uploaded_file = speakerref.file_uploader("Upload your voice sample", type=["wav"])
+        # Process the uploaded file
+        if uploaded_file is not None:
+            with tempfile.NamedTemporaryFile() as f:
+                f.write(uploaded_file.read())
+                wav, sr = librosa.load(f.name, sr=SAMPLE_RATE)
+            st.session_state.voice_wav=wav
+            st.audio(wav, sample_rate=SAMPLE_RATE)
+    else:
+        speakers = [s for s in ZeroVoxTTS.available_speakerrefs()]
+        speakerref.selectbox("Voice", speakers, key='speakerref')
+        st.audio(ZeroVoxTTS.get_speakerref(st.session_state.speakerref, SAMPLE_RATE), sample_rate=SAMPLE_RATE)
 with tab2:
     meldec = st.selectbox("MEL decoder",
 status = st.status(st.session_state.message, state="complete")
+col1, col2 = st.columns([0.8, 0.2])
+with col1:
+    text = st.text_input("Text to synthesize", key='text', on_change=do_synth)
+with col2:
+    lang = st.selectbox("Language",
+                        ["en", "de"],
+                        on_change=update_text_input,
+                        key='lang')
 st.button("Synthesize!", type="primary", on_click=do_synth)

requirements.txt CHANGED Viewed

	@@ -1 +1,2 @@
1	zerovox>=0.0.15


1	zerovox>=0.0.15
2	+ librosa>=0.10.2