overload7015
/

So-Vits-SukaSuka-Chtholly

Audio-to-Audio

music

Model card Files Files and versions Community

overload7015 commited on May 19, 2023

Commit

cdde8a9

1 Parent(s): 1bdb116

Update README.md

Browse files

Files changed (1) hide show

README.md +12 -6

README.md CHANGED Viewed

@@ -20,8 +20,8 @@ tags:
 2022年5月3日，公布第三代模型，使用SoVits的768训练分支制作，*共计1360epoch、189600step*。
 768分支训练方案的优点在于可以生成更加拟合目标声线的音频，但是缺点是训练困难且容易受到杂音干扰，经常会出现高音破音或者糊掉的情况。相比于1.0原版分支，768训练出来的模型不适合作为翻唱模型，反而更适合文本转语音的TTS/Vits→Audio的流程。
 ### 实验结论：
-~~70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别~~（未达成）
-因为sovits在效果上只改变了说话人的声线，不改变具体的说话内容，所以推理参数调教得好的话可以适应几乎所有语种，至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能，相信其在未来，可以为sovits的变声功能锦上添花。
 ***
@@ -43,11 +43,17 @@ V1原版分支的好处在于，相比于768分支，具有更好的抗杂音抗
 - 英文效果：6/10
 ### 实验结论：
-在添加了不足二分钟的杂音音频情况下制作出的模型对于英文的平滑音适应性良好、对爆破音适应性良好、对过渡音不合格（存在跑调现象）、对长音适应性勉强达标
-~~70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别~~（未达成）
-（本次 附 聚类模型）
 ***
 2023年5月19日，公开用于第五代模型的数据集（取消噪音干涉）
-数据集来源：番剧1-12集（有小概率混合了其他角色的台词，请见谅，本人也是尽可能筛掉，但不保证没有，几乎不影响使用）、广播剧1-6集

 2022年5月3日，公布第三代模型，使用SoVits的768训练分支制作，*共计1360epoch、189600step*。
 768分支训练方案的优点在于可以生成更加拟合目标声线的音频，但是缺点是训练困难且容易受到杂音干扰，经常会出现高音破音或者糊掉的情况。相比于1.0原版分支，768训练出来的模型不适合作为翻唱模型，反而更适合文本转语音的TTS/Vits→Audio的流程。
 ### 实验结论：
+- ~~70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别~~（未达成）
+- 因为sovits在效果上只改变了说话人的声线，不改变具体的说话内容，所以推理参数调教得好的话可以适应几乎所有语种，至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能，相信其在未来，可以为sovits的变声功能锦上添花。
 ***
 - 英文效果：6/10
 ### 实验结论：
+- 在添加了不足二分钟的杂音音频情况下制作出的模型对于英文的平滑音适应性良好、对爆破音适应性良好、对过渡音不合格（存在跑调现象）、对长音适应性勉强达标
+- ~~70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别~~（未达成）
+- 注：（本次 附 聚类模型）
 ***
+# 第四次实验简要记录（进行中）
+### 实验目标：
+70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别
+### 实验综述：
 2023年5月19日，公开用于第五代模型的数据集（取消噪音干涉）
+数据集来源：番剧1-12集（有小概率混合了其他角色的台词，请见谅，本人也是尽可能筛掉，但不保证没有，几乎不影响使用）、广播剧1-6集
+### 实验结论：
+- 第四次实验的噪音其实可以通过控制数据集来达到同样效果，故而本次实验删除噪音