Commit
·
1bdb116
1
Parent(s):
8c2917f
Update README.md
Browse files
README.md
CHANGED
@@ -15,16 +15,21 @@ tags:
|
|
15 |
|
16 |
# 第三次实验简要记录
|
17 |
### 实验目标:
|
18 |
-
70%情况下,在入门级发烧HiFi
|
19 |
### 实验综述:
|
20 |
2022年5月3日,公布第三代模型,使用SoVits的768训练分支制作,*共计1360epoch、189600step*。
|
21 |
768分支训练方案的优点在于可以生成更加拟合目标声线的音频,但是缺点是训练困难且容易受到杂音干扰,经常会出现高音破音或者糊掉的情况。相比于1.0原版分支,768训练出来的模型不适合作为翻唱模型,反而更适合文本转语音的TTS/Vits→Audio的流程。
|
22 |
### 实验结论:
|
|
|
23 |
因为sovits在效果上只改变了说话人的声线,不改变具体的说话内容,所以推理参数调教得好的话可以适应几乎所有语种,至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能,相信其在未来,可以为sovits的变声功能锦上添花。
|
24 |
|
25 |
|
26 |
***
|
27 |
|
|
|
|
|
|
|
|
|
28 |
2022年5月8日,更新第四代模型,Chtholly_V4
|
29 |
本次模型总结了上一炉Chtholly_V3的经验,使用SoVits的v1训练分支制作。
|
30 |
V1原版分支的好处在于,相比于768分支,具有更好的抗杂音抗干扰性能;但是对音色的拟合度会略微降低,在推理时需要花费更多时间进行调音。
|
@@ -37,9 +42,9 @@ V1原版分支的好处在于,相比于768分支,具有更好的抗杂音抗
|
|
37 |
- 日文效果:8/10
|
38 |
- 英文效果:6/10
|
39 |
|
40 |
-
|
41 |
-
|
42 |
-
|
43 |
(本次 附 聚类模型)
|
44 |
|
45 |
***
|
|
|
15 |
|
16 |
# 第三次实验简要记录
|
17 |
### 实验目标:
|
18 |
+
70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别
|
19 |
### 实验综述:
|
20 |
2022年5月3日,公布第三代模型,使用SoVits的768训练分支制作,*共计1360epoch、189600step*。
|
21 |
768分支训练方案的优点在于可以生成更加拟合目标声线的音频,但是缺点是训练困难且容易受到杂音干扰,经常会出现高音破音或者糊掉的情况。相比于1.0原版分支,768训练出来的模型不适合作为翻唱模型,反而更适合文本转语音的TTS/Vits→Audio的流程。
|
22 |
### 实验结论:
|
23 |
+
~~70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别~~(未达成)
|
24 |
因为sovits在效果上只改变了说话人的声线,不改变具体的说话内容,所以推理参数调教得好的话可以适应几乎所有语种,至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能,相信其在未来,可以为sovits的变声功能锦上添花。
|
25 |
|
26 |
|
27 |
***
|
28 |
|
29 |
+
# 第四次实验简要记录
|
30 |
+
### 实验目标:
|
31 |
+
70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别
|
32 |
+
### 实验综述:
|
33 |
2022年5月8日,更新第四代模型,Chtholly_V4
|
34 |
本次模型总结了上一炉Chtholly_V3的经验,使用SoVits的v1训练分支制作。
|
35 |
V1原版分支的好处在于,相比于768分支,具有更好的抗杂音抗干扰性能;但是对音色的拟合度会略微降低,在推理时需要花费更多时间进行调音。
|
|
|
42 |
- 日文效果:8/10
|
43 |
- 英文效果:6/10
|
44 |
|
45 |
+
### 实验结论:
|
46 |
+
在添加了不足二分钟的杂音音频情况下制作出的模型对于英文的平滑音适应性良好、对爆破音适应性良好、对过渡音不合格(存在跑调现象)、对长音适应性勉强达标
|
47 |
+
~~70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别~~(未达成)
|
48 |
(本次 附 聚类模型)
|
49 |
|
50 |
***
|