Spaces:

BricksDisplay
/

OuteTTS-Speaker-Creator

Running on Zero

App Files Files Community

hans00 commited on 28 days ago

Commit

ab1b361

unverified ·

1 Parent(s): 9097e40

Initial implement

Browse files

Files changed (2) hide show

app.py +181 -0
requirements.txt +2 -0

app.py ADDED Viewed

	@@ -0,0 +1,181 @@

+import gradio as gr
+import outetts
+import json
+import tempfile
+import os
+from typing import Optional, Dict, Any, List, Tuple
+# Available OuteTTS models based on the documentation
+MODELS = {v.value: k for k, v in outetts.Models.__members__.items()}
+def initialize_interface(model_name: str) -> Tuple[str, str, Any]:
+    """Initialize the OuteTTS interface with selected model and backend."""
+    try:
+        model = MODELS[model_name]
+        # Configure the model
+        config = outetts.ModelConfig.auto_config(
+            model=model,
+            backend=outetts.Backend.LLAMACPP,
+            quantization=outetts.LlamaCppQuantization.FP16,
+        )
+        # Initialize the interface
+        interface = outetts.Interface(config=config)
+        status = f"✅ Successfully initialized {model_name}"
+        info = f"Model: {model_name}\nStatus: Ready"
+        return status, info, interface
+    except Exception as e:
+        error_msg = f"❌ Error initializing model: {str(e)}"
+        return error_msg, f"Error: {str(e)}", None
+def create_speaker_from_audio(audio_file, interface_state) -> Tuple[str, str, Any]:
+    """Create a speaker profile from uploaded audio file."""
+    if interface_state is None:
+        return "❌ Please initialize a model first", "", None
+    if audio_file is None:
+        return "❌ Please upload an audio file", "", None
+    try:
+        # Create speaker profile from audio
+        speaker = interface_state.create_speaker(audio_file)
+        # Convert speaker dict to formatted JSON
+        speaker_json = json.dumps(speaker, indent=2, ensure_ascii=False)
+        status = "✅ Speaker profile created successfully!"
+        return status, speaker_json, speaker
+    except Exception as e:
+        error_msg = f"❌ Error creating speaker: {str(e)}"
+        return error_msg, f"Error: {str(e)}", None
+def generate_sample_audio(text: str, temperature: float, interface_state, speaker_state) -> Tuple[str, Optional[str]]:
+    """Generate sample audio using the current speaker."""
+    if interface_state is None:
+        return "❌ Please initialize a model first", None
+    if speaker_state is None:
+        return "❌ Please create a speaker first", None
+    if not text.strip():
+        return "❌ Please enter text to generate", None
+    try:
+        # Generate audio
+        output = interface_state.generate(
+            config=outetts.GenerationConfig(
+                text=text,
+                speaker=speaker_state,
+                sampler_config=outetts.SamplerConfig(
+                    temperature=temperature
+                )
+            )
+        )
+        # Save to temporary file
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
+            output.save(f.name)
+            return "✅ Audio generated successfully!", f.name
+    except Exception as e:
+        error_msg = f"❌ Error generating audio: {str(e)}"
+        return error_msg, None
+# Create the Gradio interface
+with gr.Blocks(title="OuteTTS Speaker Creator", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🎙️ OuteTTS Speaker Creator")
+    gr.Markdown("Create and manage speaker profiles for OuteTTS text-to-speech synthesis")
+    # State management for multi-user support
+    interface_state = gr.State(value=None)
+    speaker_state = gr.State(value=None)
+    with gr.Row():
+        with gr.Column(scale=1):
+            gr.Markdown("## 🔧 Model Configuration")
+            model_dropdown = gr.Dropdown(
+                choices=list(MODELS.keys()),
+                value=list(MODELS.keys())[0],
+                label="Select OuteTTS Model",
+                info="Choose the model variant to use"
+            )
+            init_button = gr.Button("Initialize Model", variant="primary")
+            init_status = gr.Textbox(label="Status", interactive=False)
+            init_info = gr.Textbox(label="Model Info", interactive=False, lines=3)
+        with gr.Column(scale=1):
+            gr.Markdown("## 🎵 Speaker Creation")
+            audio_upload = gr.Audio(
+                label="Upload Reference Audio",
+                type="filepath",
+                sources=["upload", "microphone"]
+            )
+            create_button = gr.Button("Create Speaker Profile", variant="primary")
+            speaker_status = gr.Textbox(label="Speaker Status", interactive=False)
+    with gr.Row():
+        with gr.Column():
+            gr.Markdown("## 📋 Speaker Profile (JSON)")
+            speaker_json = gr.Textbox(
+                label="Speaker JSON",
+                lines=15,
+                max_lines=20,
+                interactive=False,
+                show_copy_button=True
+            )
+    with gr.Row():
+        with gr.Column():
+            gr.Markdown("## 🎧 Test Audio Generation")
+            test_text = gr.Textbox(
+                label="Test Text",
+                placeholder="Enter text to generate speech...",
+                lines=3,
+                value="Hello, this is a test of the OuteTTS speaker profile."
+            )
+            temperature_slider = gr.Slider(
+                minimum=0.1,
+                maximum=1.0,
+                step=0.1,
+                value=0.4,
+                label="Temperature",
+                info="Controls randomness in generation"
+            )
+            generate_button = gr.Button("Generate Sample Audio", variant="primary")
+            generate_status = gr.Textbox(label="Generation Status", interactive=False)
+            sample_audio = gr.Audio(label="Generated Audio", interactive=False)
+    # Event handlers
+    init_button.click(
+        fn=initialize_interface,
+        inputs=[model_dropdown],
+        outputs=[init_status, init_info, interface_state]
+    )
+    create_button.click(
+        fn=create_speaker_from_audio,
+        inputs=[audio_upload, interface_state],
+        outputs=[speaker_status, speaker_json, speaker_state]
+    )
+    generate_button.click(
+        fn=generate_sample_audio,
+        inputs=[test_text, temperature_slider, interface_state, speaker_state],
+        outputs=[generate_status, sample_audio]
+    )
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ outetts==0.4.4
2	+ gradio