overload7015
/

So-Vits-SukaSuka-Chtholly

Audio-to-Audio

music

Model card Files Files and versions Community

overload7015 commited on May 19, 2023

Commit

d5d6813

1 Parent(s): b5bbab1

Update README.md

Browse files

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -7,8 +7,8 @@ tags:
 项目仓库：https://github.com/svc-develop-team/so-vits-svc
 项目来源：末日三问/末日时在做什么？有没有空？可以来拯救吗？/終末なにしてますか？忙しいですか？救ってもらっていいですか？
-来自 中珂院炼金学分院 Q群：715311859
-2022年5月3日，公布第三代模型，使用SoVits的768训练分支制作，共计1360epoch、189600step。
 768分支训练方案的优点在于可以生成更加拟合目标声线的音频，但是缺点是训练困难且容易受到杂音干扰，经常会出现高音破音或者糊掉的情况。相比于1.0原版分支，768训练出来的模型不适合作为翻唱模型，反而更适合文本转语音的TTS/Vits→Audio的流程。
 因为sovits在效果上只改变了说话人的声线，不改变具体的说话内容，所以推理参数调教得好的话可以适应几乎所有语种，至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能，相信其在未来，可以为sovits的变声功能锦上添花。
 实验目标：70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别（未达成）
@@ -20,7 +20,7 @@ tags:
 V1原版分支的好处在于，相比于768分支，具有更好的抗杂音抗干扰性能；但是对音色的拟合度会略微降低，在推理时需要花费更多时间进行调音。
 本次模型添加了末日三问的广播剧，并对上次数据集进行精简，使其可以对珂朵莉系列模型的高音域容易破音问题作出了针对性调整。
 添加了少量噪音数据，意图使其适应英文输出。
-共计1379epoch、204800step。
 - 中文效果：7/10

 项目仓库：https://github.com/svc-develop-team/so-vits-svc
 项目来源：末日三问/末日时在做什么？有没有空？可以来拯救吗？/終末なにしてますか？忙しいですか？救ってもらっていいですか？
+来自 **中珂院炼金学分院** Q群：715311859
+2022年5月3日，公布第三代模型，使用SoVits的768训练分支制作，*共计1360epoch、189600step*。
 768分支训练方案的优点在于可以生成更加拟合目标声线的音频，但是缺点是训练困难且容易受到杂音干扰，经常会出现高音破音或者糊掉的情况。相比于1.0原版分支，768训练出来的模型不适合作为翻唱模型，反而更适合文本转语音的TTS/Vits→Audio的流程。
 因为sovits在效果上只改变了说话人的声线，不改变具体的说话内容，所以推理参数调教得好的话可以适应几乎所有语种，至于TTS目前新出来了一个叫作Bark的具有情感功能的TTS人工智能，相信其在未来，可以为sovits的变声功能锦上添花。
 实验目标：70%情况下，在入门级发烧HiFi设备下无法识别出与人类声音的区别（未达成）
 V1原版分支的好处在于，相比于768分支，具有更好的抗杂音抗干扰性能；但是对音色的拟合度会略微降低，在推理时需要花费更多时间进行调音。
 本次模型添加了末日三问的广播剧，并对上次数据集进行精简，使其可以对珂朵莉系列模型的高音域容易破音问题作出了针对性调整。
 添加了少量噪音数据，意图使其适应英文输出。
+*共计1379epoch、204800step*。
 - 中文效果：7/10