metadata
license: mit
datasets:
- ThePioneer/Ver0_voice_dataset
language:
- en
- ja
- zh
tags:
- music
- voice
アニメ声のようなわざとらしい声でもなく、ボカロなどのソフトを使ったいかにも合成の音声でもなく、クラスに一人くらいいそうな、自然で親しみやすい美少女の声を…。
本モデルは、そういうコンセプトで開発されたSo-vits-svc 4.0のモデルです。
一次音声は私自身の肉声から合成し、その素材をElevenLabsで1時間程度まで水増しし、水増しした音声データセットを学習させました。
innnky氏がG_0.pth、D_0.pthのあったrepoを削除してしまったようなので、学習用のベースとなったG_0.pth、D_0.pthおよびhubertのチェックポイントも同梱しています。
また、推論や学習ができるように、notebookも同梱しています(利用時はconfig.jsonを置き換えることも必要です)。
注意
- Sovitsの仕様で、音声の直前の無音部でノイズが発生することがあります。
- 中国由来のモデルなので、日本語や英語の発音はたまにおかしくなります。
- 自然な音声を目指したので、(もしかすると)実在人物の音声に類似している可能性があります。「歌わせてみた」など、平和的な内容での利用を推奨します。
- (おそらく日本では)違法ではないですが、例えばどこかの4chan民のように『我が闘争』を読ませる使い方や、nsfw音声としての利用は推奨されません。
サンプル
God knows...