Pedro_Lab_XTTS_demo

Paused

Blakus commited on Sep 26, 2024

Commit

9b668a1

verified ·

1 Parent(s): 2ddb872

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -53,17 +53,22 @@ def predict(prompt, language, reference_audio):
         sentences = split_text(prompt)
-        temperature = config.inference.get("temperature", 0.75)
-        repetition_penalty = config.inference.get("repetition_penalty", 5.0)
-        gpt_cond_len = config.inference.get("gpt_cond_len", 30)
-        gpt_cond_chunk_len = config.inference.get("gpt_cond_chunk_len", 4)
-        max_ref_length = config.inference.get("max_ref_length", 60)
         gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(
             audio_path=reference_audio,
             gpt_cond_len=gpt_cond_len,
             gpt_cond_chunk_len=gpt_cond_chunk_len,
-            max_ref_length=max_ref_length
         )
         start_time = time.time()
@@ -76,11 +81,14 @@ def predict(prompt, language, reference_audio):
                 gpt_cond_latent,
                 speaker_embedding,
                 temperature=temperature,
                 repetition_penalty=repetition_penalty,
             )
             audio_segment = AudioSegment(
                 out["wav"].tobytes(),
-                frame_rate=24000,
                 sample_width=2,
                 channels=1
             )

         sentences = split_text(prompt)
+        # Usar los parámetros del config.json
+        temperature = config.model_args.get("temperature", 0.85)
+        repetition_penalty = config.model_args.get("repetition_penalty", 2.0)
+        length_penalty = config.model_args.get("length_penalty", 1.0)
+        top_k = config.model_args.get("top_k", 50)
+        top_p = config.model_args.get("top_p", 0.85)
+        gpt_cond_len = config.model_args.get("gpt_cond_len", 12)
+        gpt_cond_chunk_len = config.model_args.get("gpt_cond_chunk_len", 4)
+        max_ref_len = config.model_args.get("max_ref_len", 10)
         gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(
             audio_path=reference_audio,
             gpt_cond_len=gpt_cond_len,
             gpt_cond_chunk_len=gpt_cond_chunk_len,
+            max_ref_len=max_ref_len
         )
         start_time = time.time()
                 gpt_cond_latent,
                 speaker_embedding,
                 temperature=temperature,
+                length_penalty=length_penalty,
                 repetition_penalty=repetition_penalty,
+                top_k=top_k,
+                top_p=top_p
             )
             audio_segment = AudioSegment(
                 out["wav"].tobytes(),
+                frame_rate=config.audio["output_sample_rate"],
                 sample_width=2,
                 channels=1
             )