{
  "activation_dropout": 0.1,
  "architectures": [
    "VitsModel"
  ],
  "attention_dropout": 0.1,
  "data": {
    "add_blank": true,
    "cleaned_text": true,
    "filter_length": 1024,
    "hop_length": 256,
    "max_wav_value": 32768.0,
    "mel_fmax": null,
    "mel_fmin": 0.0,
    "n_mel_channels": 80,
    "n_speakers": 0,
    "sampling_rate": 16000,
    "text_cleaners": [
      "english_cleaners2"
    ],
    "training_files": "lj_data_train.txt",
    "validation_files": "lj_data_val.txt",
    "win_length": 1024
  },
  "depth_separable_channels": 2,
  "depth_separable_num_layers": 3,
  "duration_predictor_dropout": 0.5,
  "duration_predictor_filter_channels": 256,
  "duration_predictor_flow_bins": 10,
  "duration_predictor_kernel_size": 3,
  "duration_predictor_num_flows": 4,
  "duration_predictor_tail_bound": 5.0,
  "ffn_dim": 768,
  "ffn_kernel_size": 3,
  "flow_size": 192,
  "hidden_act": "relu",
  "hidden_dropout": 0.1,
  "hidden_size": 192,
  "initializer_range": 0.02,
  "layer_norm_eps": 1e-05,
  "layerdrop": 0.1,
  "leaky_relu_slope": 0.1,
  "model": {
    "filter_channels": 768,
    "hidden_channels": 192,
    "inter_channels": 192,
    "kernel_size": 3,
    "n_heads": 2,
    "n_layers": 6,
    "n_layers_q": 3,
    "p_dropout": 0.1,
    "resblock": "1",
    "resblock_dilation_sizes": [
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ]
    ],
    "resblock_kernel_sizes": [
      3,
      7,
      11
    ],
    "upsample_initial_channel": 512,
    "upsample_kernel_sizes": [
      16,
      16,
      4,
      4
    ],
    "upsample_rates": [
      8,
      8,
      2,
      2
    ],
    "use_spectral_norm": false
  },
  "model_type": "vits",
  "noise_scale": 0.667,
  "noise_scale_duration": 0.8,
  "num_attention_heads": 2,
  "num_hidden_layers": 6,
  "num_speakers": 1,
  "posterior_encoder_num_wavenet_layers": 16,
  "prior_encoder_num_flows": 4,
  "prior_encoder_num_wavenet_layers": 4,
  "resblock_dilation_sizes": [
    [
      1,
      3,
      5
    ],
    [
      1,
      3,
      5
    ],
    [
      1,
      3,
      5
    ]
  ],
  "resblock_kernel_sizes": [
    3,
    7,
    11
  ],
  "sampling_rate": 16000,
  "speaker_embedding_size": 0,
  "speaking_rate": 1.0,
  "spectrogram_bins": 513,
  "train": {
    "batch_size": 32,
    "betas": [
      0.8,
      0.99
    ],
    "c_kl": 1.0,
    "c_mel": 45,
    "epochs": 20000,
    "eps": 1e-09,
    "eval_interval": 1000,
    "fp16_run": true,
    "init_lr_ratio": 1,
    "learning_rate": 0.0002,
    "log_interval": 200,
    "lr_decay": 0.999875,
    "seed": 1234,
    "segment_size": 8192,
    "warmup_epochs": 0
  },
  "transformers_version": "4.36.2",
  "upsample_initial_channel": 512,
  "upsample_kernel_sizes": [
    16,
    16,
    4,
    4
  ],
  "upsample_rates": [
    8,
    8,
    2,
    2
  ],
  "use_bias": true,
  "use_stochastic_duration_prediction": true,
  "vocab_size": 76,
  "wavenet_dilation_rate": 1,
  "wavenet_dropout": 0.0,
  "wavenet_kernel_size": 5,
  "window_size": 4
}