Commit
·
b4c5e0a
1
Parent(s):
ea4db0e
Update README.md
Browse files
README.md
CHANGED
@@ -6,8 +6,28 @@ tags:
|
|
6 |
---
|
7 |
|
8 |
项目仓库:https://github.com/svc-develop-team/so-vits-svc
|
9 |
-
|
10 |
-
|
|
|
11 |
768分支训练方案的优点在于可以生成更加拟合目标声线的音频,但是缺点是训练困难且容易受到杂音干扰,经常会出现高音破音或者糊掉的情况。相比于1.0原版分支,768训练出来的模型不适合作为翻唱模型,反而更适合文本转语音的TTS/Vits→Audio的流程。
|
12 |
因为sovits在效果上只改变了说话人的声线,不改变具体的说话内容,所以推理参数调教得好的话可以适应几乎所有语种,至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能,相信其在未来,可以为sovits的变声功能锦上添花。
|
13 |
-
实验目标:70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别(未达成)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
---
|
7 |
|
8 |
项目仓库:https://github.com/svc-develop-team/so-vits-svc
|
9 |
+
项目来源:末日三问/末日时在做什么?有没有空?可以来拯救吗?/終末なにしてますか?忙しいですか?救ってもらっていいですか?
|
10 |
+
炼金Q群:715311859
|
11 |
+
本为第三代模型,使用SoVits的768训练分支制作,共计1360epoch、189600step。
|
12 |
768分支训练方案的优点在于可以生成更加拟合目标声线的音频,但是缺点是训练困难且容易受到杂音干扰,经常会出现高音破音或者糊掉的情况。相比于1.0原版分支,768训练出来的模型不适合作为翻唱模型,反而更适合文本转语音的TTS/Vits→Audio的流程。
|
13 |
因为sovits在效果上只改变了说话人的声线,不改变具体的说话内容,所以推理参数调教得好的话可以适应几乎所有语种,至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能,相信其在未来,可以为sovits的变声功能锦上添花。
|
14 |
+
实验目标:70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别(未达成)
|
15 |
+
|
16 |
+
***
|
17 |
+
|
18 |
+
2022年5月8日,更新第四代模型,Chtholly_V4
|
19 |
+
本次模型总结了上一炉Chtholly_V3的经验,使用SoVits的v1训练分支制作。
|
20 |
+
V1原版分支的好处在于,相比于768分支,具有更好的抗杂音抗干扰性能;但是对音色的拟合度会略微降低,在推理时需要花费更多时间进行调音。
|
21 |
+
本次模型添加了末日三问的广播剧,并对上次数据集进行精简,使其可以对珂朵莉系列模型的高音域容易破音问题作出了针对性调整。
|
22 |
+
添加了少量噪音数据,意图使其适应英文输出。
|
23 |
+
共计1379epoch、204800step。
|
24 |
+
|
25 |
+
|
26 |
+
- 中文效果:7/10
|
27 |
+
- 日文效果:8/10
|
28 |
+
- 英文效果:6/10
|
29 |
+
|
30 |
+
|
31 |
+
实验目标:70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别(未达成)
|
32 |
+
实验结论:在添加了不足二分钟的杂音音频情况下制作出的模型对于英文的平滑音适应性良好、对爆破音适应性良好、对过渡音不合格(存在跑调现象)、对长音适应性勉强达标
|
33 |
+
(本次 附 聚类模型)
|