Upload 3 files

Add so-vits model; The entire training process of 10,000 epochs was not completed due to NaN loss. The shallow diffusion model, feature retrieval model and cluster model will be added soon.
Current training step: 268000.

Files changed (3) hide show

SpecialWeek/SpecialWeek.pth +3 -0
SpecialWeek/config.json +107 -0
SpecialWeek/diffusion.yaml +51 -0

SpecialWeek/SpecialWeek.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12ac70d7d5f7a9fe7bfe88e8de22ac200117799eac663632e25ff0b1e32c1f67
+size 627915739

SpecialWeek/config.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 800,
+    "seed": 1234,
+    "epochs": 10008,
+    "learning_rate": 0.0002,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 24,
+    "fp16_run": true,
+    "half_type": "fp16",
+    "lr_decay": 0.999875,
+    "segment_size": 10240,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "use_sr": true,
+    "max_speclen": 512,
+    "port": "8001",
+    "keep_ckpts": 3,
+    "all_in_mem": true,
+    "vol_aug": true
+  },
+  "data": {
+    "training_files": "filelists/train.txt",
+    "validation_files": "filelists/val.txt",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": 22050,
+    "unit_interpolate_mode": "nearest"
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      4,
+      4,
+      4
+    ],
+    "n_layers_q": 3,
+    "n_layers_trans_flow": 3,
+    "n_flow_layer": 4,
+    "use_spectral_norm": false,
+    "gin_channels": 768,
+    "ssl_dim": 768,
+    "n_speakers": 1,
+    "vocoder_name": "nsf-hifigan",
+    "speech_encoder": "vec768l12",
+    "speaker_embedding": false,
+    "vol_embedding": true,
+    "use_depthwise_conv": false,
+    "flow_share_parameter": false,
+    "use_automatic_f0_prediction": true,
+    "use_transformer_flow": false
+  },
+  "spk": {
+    "SpecialWeek": 0
+  }
+}

SpecialWeek/diffusion.yaml ADDED Viewed

	@@ -0,0 +1,51 @@

+data:
+  block_size: 512
+  cnhubertsoft_gate: 10
+  duration: 2
+  encoder: vec768l12
+  encoder_hop_size: 320
+  encoder_out_channels: 768
+  encoder_sample_rate: 16000
+  extensions:
+  - wav
+  sampling_rate: 44100
+  training_files: filelists/train.txt
+  unit_interpolate_mode: nearest
+  validation_files: filelists/val.txt
+device: cuda
+env:
+  expdir: logs/44k/diffusion
+  gpu_id: 0
+infer:
+  method: dpm-solver++
+  speedup: 10
+model:
+  k_step_max: 0
+  n_chans: 512
+  n_hidden: 256
+  n_layers: 20
+  n_spk: 1
+  timesteps: 1000
+  type: Diffusion
+  use_pitch_aug: true
+spk:
+  SpecialWeek: 0
+train:
+  amp_dtype: fp16
+  batch_size: 192
+  cache_all_data: true
+  cache_device: cpu
+  cache_fp16: true
+  decay_step: 50000
+  epochs: 100000
+  gamma: 0.5
+  interval_force_save: 5000
+  interval_log: 10
+  interval_val: 2000
+  lr: 0.0002
+  num_workers: 4
+  save_opt: false
+  weight_decay: 0
+vocoder:
+  ckpt: pretrain/nsf_hifigan/model
+  type: nsf-hifigan