Spaces:

goooofy
/

zerovox-demo

Running

App Files Files Community

Guenter Bartsch commited on Oct 20, 2024

Commit

468fe55

1 Parent(s): e7ab3a1

first draft implementation

Browse files

Files changed (2) hide show

.vscode/launch.json +16 -0
app.py +106 -2

.vscode/launch.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    // Use IntelliSense to learn about possible attributes.
+    // Hover to view descriptions of existing attributes.
+    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
+    "version": "0.2.0",
+    "configurations": [
+        {
+            "name": "Streamlit: Run and Debug",
+            "type": "debugpy",
+            "request": "launch",
+            "program": "../../venv/bin/streamlit",
+            "console": "integratedTerminal",
+            "args": ["run", "app.py"]
+        }
+    ]
+}

app.py CHANGED Viewed

@@ -1,4 +1,108 @@
 import streamlit as st
-x = st.slider('Select a value')
-st.write(x, 'squared is', x * x)

+import time
 import streamlit as st
+from zerovox.tts.synthesize import ZeroVoxTTS
+from zerovox.g2p.g2p import DEFAULT_G2P_MODEL_NAME_DE, DEFAULT_G2P_MODEL_NAME_EN
+SAMPLE_RATE=24000 # FIXME
+TTS_MODEL_NAME='tts_en_de_zerovox_alpha1'
+if "text" not in st.session_state:
+    st.session_state.text = "Welcome to the world of speech synthesis!"
+if "message" not in st.session_state:
+    st.session_state.message = "READY."
+def update_text_input():
+    global text
+    if st.session_state['lang'] == "en":
+        st.session_state.text = "Welcome to the world of speech synthesis!"
+    elif st.session_state['lang'] == "de":
+        st.session_state.text = "Willkommen in der Welt der Sprachsynthese!"
+    text = st.session_state.text
+def do_synth():
+    global lang, status, speakerref, text, playback, meldec
+    synth = None
+    if 'synth' in st.session_state:
+        synth = st.session_state.synth
+        if synth.language != lang or synth.meldec_model != st.session_state['meldec']:
+            synth = None # trigger reload
+    if not synth:
+        status.update(label="loading the model...", state="running")
+        g2p_model = DEFAULT_G2P_MODEL_NAME_DE if lang=='de' else DEFAULT_G2P_MODEL_NAME_EN
+        st.session_state.modelcfg, st.session_state.synth = ZeroVoxTTS.load_model(TTS_MODEL_NAME,
+                                                                                  g2p=g2p_model,
+                                                                                  lang=lang,
+                                                                                  meldec_model=st.session_state['meldec'],
+                                                                                  infer_device='cpu',
+                                                                                  num_threads=-1,
+                                                                                  do_compile=False,
+                                                                                  verbose=False)
+    synth = st.session_state.synth
+    modelcfg = st.session_state.modelcfg
+    status.update(label="computing speaker embedding...", state="running")
+    spkemb = synth.speaker_embed(ZeroVoxTTS.get_speakerref(speakerref, modelcfg['audio']['sampling_rate']))
+    status.update(label="synthesizing...", state="running")
+    start_time = time.time()
+    wav, phoneme, length = synth.tts(text, spkemb)
+    elapsed_time = time.time() - start_time
+    message = f"synth time: {elapsed_time:.2f} sec"
+    wav_len = wav.shape[0] / modelcfg['audio']['sampling_rate']
+    message += f", voice length: {wav_len:.2f} sec"
+    real_time_factor = wav_len / elapsed_time
+    message += f", rtf: {real_time_factor:.2f}"
+    st.session_state.message = message
+    status.update(label=message, state="complete")
+    st.session_state.wav = wav
+    playback.audio(wav, sample_rate=SAMPLE_RATE)
+lang = st.selectbox("Language",
+                    ["en", "de"],
+                    on_change=update_text_input,
+                    key='lang')
+meldec = st.selectbox("MEL decoder",
+                      ["meldec-libritts-multi-band-melgan-v2", "meldec-libritts-hifigan-v1"],
+                      #on_change=update_text_input,
+                      key='meldec')
+speakerref = st.selectbox("Voice sample", ZeroVoxTTS.available_speakerrefs())
+st.audio(ZeroVoxTTS.get_speakerref(speakerref, SAMPLE_RATE), sample_rate=SAMPLE_RATE)
+text = st.text_input("Text to synthesize", value=st.session_state.text)
+st.button("Synthesize!", type="primary", on_click=do_synth)
+status = st.status(st.session_state.message, state="complete")
+if 'wav' in st.session_state:
+    playback = st.audio(st.session_state.wav, sample_rate=SAMPLE_RATE)
+else:
+    playback = st.empty()